湖泊水面雜物收集機器人-打撈河面垃圾(含CAD圖紙)
喜歡這套資料就充值下載吧。。。資源目錄里展示的都可在線預覽哦。。。下載后都有,,請放心下載,,文件全都包含在內(nèi),,【有疑問咨詢QQ:1064457796 或 1304139763】 =============================================喜歡這套資料就充值下載吧。。。資源目錄里展示的都可在線預覽哦。。。下載后都有,,請放心下載,,文件全都包含在內(nèi),,【有疑問咨詢QQ:1064457796 或 1304139763】 =============================================
摘 要
在現(xiàn)代生活中,水面雜物的清理,特別是小型水域漂浮雜物的清理是一個亟待解決的環(huán)境問題。因此研究一種在湖泊等水域水面進行雜物收集的機器人對于我們美化環(huán)境,清潔水面具有十分重要的意義。本文設(shè)計了一種湖泊水面雜物收集機器人,該機器人采用左右雙船體結(jié)構(gòu),以蓄電池為整個系統(tǒng)提供動力來源,螺旋槳推進器為船的前進與轉(zhuǎn)向提供推進力。通過帶傳動驅(qū)動打撈傳送帶,打撈傳送帶把雜物從水面運到雜物收集箱,雜物收集箱裝滿了后,機器人返回指定地點人工傾倒雜物,從而完成雜物的收集。機器人通過雜物收集裝置采集遠距離水面雜物及障礙物影像,用基于STM32單片機的控制系統(tǒng)進行方向、速度的控制。該湖泊水面雜物收集機器人可以減輕水域的環(huán)境污染問題,將人力解放出來。目前針對小型水域水面雜物收集的發(fā)展前景是用機器人取替人工的收集水面雜物。
關(guān)鍵詞:自動化;智能化;傳感器;雜物收集
Abstract
In modern life, the cleaning of sundries on the water surface, especially the cleaning of floating sundries in small water areas. It is an urgent problem to be solved. In order to effectively solve the problem of floating debris cleaning in small water area, it is of great significance to develop a low-cost surface cleaning robot capable of collecting debris. In this paper, a kind of sundry collection robot on the surface of lake is designed. This robot adopts the structure of left and right hulls, and is powered by batteries. It drives the dc motor and propeller respectively, and the propeller drives the forward and steering of the ship. The salvage conveyor belt is driven by a belt drive, which transports the sundries from the surface of the water to the sundries collection box. When the sundries collection box is full, the robot returns to the designated place to manually dump the sundries, thus completing the collection of sundries. The robot collects images of sundries and obstacles on the water surface at a distance through the graph transmission system, and controls the direction and speed with the control system based on STM32 single chip microcomputer. It can reduce the environmental pollution of the water area, reduce the labor cost, and has a good prospect of industrial application. At present, the cleaning of small waters mainly adopts manual cleaning. The cleaning boats on the market are mainly for large waters. As present, the development prospect of small water surface sundries collection is to replace manual sundries collection by robot.
Keywords: robotization ; intelligentialize ; Sensor; Collection of sundries
目 錄
第一章 緒論 1
1.1課題研究的背景和意義 1
1.2國內(nèi)外發(fā)展狀況 2
1.3主要設(shè)計內(nèi)容 3
第二章 總體方案設(shè)計 5
第三章 機械系統(tǒng)設(shè)計 7
3.1機械本體設(shè)計 7
3.2動力驅(qū)動部分設(shè)計 8
3.3收集裝置電動機選擇 10
3.4蓄電池選擇 10
3.5執(zhí)行機構(gòu)設(shè)計 10
3.5.1同步帶輪的選擇 10
3.5.2軸的計算 11
3.6雜物收集箱設(shè)計 12
第四章 控制系統(tǒng)設(shè)計 13
4.1控制方案選擇 13
4.2單片機的介紹及選型 14
4.2.1單片機的介紹 14
4.2.2單片機的選型 14
4.3 檢測傳感部分設(shè)計 15
4.3.1圖像收集裝置選型 15
4.3.2光束遮斷式傳感器選型 16
4.4繼電器模塊設(shè)計 17
4.5電機驅(qū)動模塊設(shè)計 17
4.6程序設(shè)計 17
結(jié)束語 19
致 謝 20
參考文獻 21
附錄 22
第一章 緒論
1.1課題研究的背景和意義
最近幾年,雖然我們國家越來越重視對于環(huán)境的保護,但是環(huán)境污染問題特別是水域污染問題依舊嚴重,這是因為人們在重視其經(jīng)濟發(fā)展的同時卻往往會忽略對環(huán)境的保護,譬如,在水面上飄浮著的各種垃圾日益增多。這些漂浮雜物,不僅會污染相關(guān)水域的生態(tài)環(huán)境,危害該水域生存的各類植物、魚類以及藻類等生物,更是會危害到在該水域附近生活人民群眾的身體健康和生活質(zhì)量。甚至在某些水域,大量的雜物堆積會堵塞航道,不利于船只的通行。如果雜物堆積在水庫等重要水域,不僅會影響人們的日常用水,甚至會危害大壩的安全。當大壩的安全受到危害,輕者造成大量財產(chǎn)損失,更有甚至會危害到人民群眾的人身安全。因此,水域雜物收集(就本文而言是湖泊水面雜物收集)已經(jīng)成為美化環(huán)境和促進社會可持續(xù)、高效發(fā)展的重要內(nèi)容之一。
根據(jù)查閱資料可知,針對大型水域水面雜物收集的機械收集方式和針對小型水域水面雜物收集的人工收集是目前最主要的兩種水面雜物的收集方式。垃圾清理船是針對大型水域水面雜物收集的機械收集方式之一。因為大型水域水面雜物一般量大且集中,垃圾清理船一次性清理量大的特點正好針對該類水域的雜物堆積特點,這就能很好的提高大型水域水面雜物收集的效率。但是對于在小型水域的比較分散的漂浮雜物,垃圾清理船的體積和重量偏大,無法對雜物進行有效的收集。采用人工收集的方式是收集這些分散漂浮雜物的主要方法。但是,根據(jù)網(wǎng)上數(shù)據(jù)分析人工收集不僅人力、物力和財力高,還存在很大安全隱患。目前,人工收集的方式主要針對湖泊、小河等小型水域水面漂浮雜物。但是市場上的水面垃圾清理船造價高昂、制造困難、操作復雜、體積龐大且無法有效收集小型水域水面雜物,而對于湖泊等小型水域用人工收集水面漂浮雜物的方式只是權(quán)益之計。針對以上這些人工手機方式凸顯的問題提出了通過機器人代替人工,這相對于人工收集減少人工收集雜物的危險,而且采用機器人收集雜物還可以提高工作效率。
根據(jù)上文的要求本文設(shè)計了一款湖泊水面雜物收集機器人,基于STM32單片機控制,以圖像收集裝置、光束遮斷式傳感器作為檢測元件,通過螺旋槳推進,從而收集水面雜物。首先該設(shè)計的湖泊水面雜物收機器人體積要適中,這樣才能在具有更大的活動空間,達到水面的犄角之處的同時更多的收集水面雜物,這樣才能可以大大的提高水面雜物的收集效率。
1.2國內(nèi)外發(fā)展狀況
國外的最先開始重視該項技術(shù)的發(fā)展,各國的水面雜物收集裝置多種多樣、百花齊放。目前,比較出名的水面清潔船的是韓國、日本、意大利等國生產(chǎn)的,這些國家的水面清潔船在全世界范圍都具有很強的名望。
韓國名為“海洋清掃號”是一艘可以在水深只有兩米的水域清理水面垃圾并收集水面雜物的垃圾清理船。同時也可以打撈沉積在水底15m深處的垃圾。主要包括了一具抓鏟,這抓鏟是多關(guān)節(jié)的,且長達20m,同時還有用于收集水中雜物的漁網(wǎng),漁網(wǎng)也可以提高水面雜物收集的效率。海洋清掃號收集的垃圾及雜物最大可達40噸。
日本“みずき”號總長30.3m,型寬11.6m,深3.8m,最高航速14.65kn,是一艘環(huán)保型船,它的作用是回收水面特別是大型水域水面垃圾。其回收大型水域水面雜物主要通過從船體中部開口部放下垃圾收集裝箱,然后將垃圾引入,其中有2只為No.1箱35m3,No.2箱15m3垃圾收受集裝箱。船型采用非對稱雙體型可以提高垃圾回收效率。みずき船體結(jié)構(gòu)有別其他的設(shè)計,他的設(shè)計偏向于縱肋骨方式,還設(shè)計了壓載艙設(shè)在首尾兩舷的特殊結(jié)構(gòu)。其他的設(shè)計還包括設(shè)在船尾的垃圾回收補助用調(diào)查艇。
美國聯(lián)合國際船舶公司(UMI)研制了清潔船主要功能是清理水面垃圾的TrashCat系列清潔船,推進力通過兩個螺旋槳提供,采用了雙船體型。該型號的清潔船己使用二十多年,技術(shù)相對比較完善。
與國外相比,雖然國內(nèi)對于水面雜物收集裝置的研究較晚,但是在各方面人才的研究之下,也有很多優(yōu)秀的水面雜物收集裝置被設(shè)計出來,例如蘇州造船廠研究和建造的400kN內(nèi)河打撈工程船、天津新港船廠研究和建造的 “方通號”、由國內(nèi)幾方合作共同研發(fā)建造的世紀之光等。
蘇州造船廠建造的400kN內(nèi)河打撈工程船航行時最大吃水深度可以非常低,甚至可以不超過0.87m。蘇州造船廠不僅為它設(shè)計了內(nèi)河駁船型線,還為它設(shè)計了尾閉式的雙隧道的系統(tǒng)。400kN內(nèi)河打撈工程船使用柴油機,因此也具有不低的航速,它的航速可達13km/h;400kN內(nèi)河打撈工程船船體的上層部分最高點離水面低于4.35m,這是為了更好的通過橋等建筑物。進行垃圾清理工作時,滑輪軸所具有的中心距400kN內(nèi)河打撈工程船船首的水平距離大于或等于3.1m。
由天津新港船廠建造的水上清掃船“方通號”優(yōu)點非常多,且以電為動力,沒有污染。在接近垃圾后,船上作業(yè)設(shè)備,將水面上雜物打掃一盡。該船實現(xiàn)了自動清掃、收集、儲存水面雜物,而且還可以沖刷岸上雜物,澆灌河邊綠地。
世紀之光是我國第一艘具有自主知識產(chǎn)權(quán)的水面清潔船。
通過對國內(nèi)外發(fā)展現(xiàn)狀的比較,我們可以看出:國外由于早年發(fā)展快,較早的提出了對于水面雜物收集的需求,所以獲得了較多的發(fā)展時間,形成了相對完善的技術(shù),同時國外的雜物收集裝置功能也較全,特別是在自動化方面的發(fā)展程度非常高除。具備雜物收集功能外,還集合了檢測水質(zhì)、航線導航、地點定位等特點。相比于國外,我國由于某些歷史原因,某能及時的跟上發(fā)展的步伐,但是因為有國外技術(shù)的先決條件再加上中國人民自己的智慧也發(fā)展出了一些優(yōu)勢,特別是在智能化發(fā)面遠遠領(lǐng)先于國外。在市場存在較多的大型水域水面垃圾清理裝置,其中相對成熟的是水面清潔船,水面清潔船的功能也有較為全面。但是針對小型水域仍然存在以下問題:一是由于水面清潔船體量大無法正常在小型水域運作。二是現(xiàn)有的水面清潔船在清理垃圾保護環(huán)境的同時也會對環(huán)境造成一定的污染,危害附近水域各類動植物、魚類、藻類等生物的健康,而這是因為使用的是柴油機。三是現(xiàn)有的水面清潔船會產(chǎn)生很大噪音;四是存在一定的安全問題。綜上可知,目前對小型水域的清理主要采用人工清理,市場上的清潔船主要針對大型水域。本課題設(shè)計的湖泊水面雜物收集機器人可以減輕水域的環(huán)境污染問題,減少人力,它的產(chǎn)業(yè)化應用前景也是非常的廣闊。
因此,本文設(shè)計了一種湖泊水面雜物收集機器人,基于STM32單片機控制,以用圖像收集裝置、光束遮斷式傳感器作為檢測元件,通過螺旋槳推進,從而收集水面雜物,其對于小區(qū)域的雜物收集效果極好。它可以減輕水域的環(huán)境污染問題,也可以填補當前市場上小型水域雜物收集機器人的空缺。目前對小型水域的清理主要采用人工清理,市場上的清潔船主要針對大型水域,本課題的研究項目提供一種新的小型的水面雜物收集機器人,這具有十分重要的意義。
1.3主要設(shè)計內(nèi)容
湖泊水面雜物收集機器人要求如下:
(1)主要作用是收集水面漂浮雜物,例如飲料瓶、塑料袋等;
(2)能夠識別并避開障礙物;
(3)能夠在一定程度上避免水草的纏繞;
(4)能在收集一定雜物后返回指定地點。
該設(shè)計的湖泊水面雜物收集機器人采用雙船體的機械結(jié)構(gòu),以蓄電池供電,驅(qū)動直流電動機。螺旋槳推進器可以驅(qū)動船的前進與轉(zhuǎn)向。通過帶傳動驅(qū)動打撈傳送帶,打撈傳送帶把雜物從水面運到雜物儲存?zhèn)},雜物儲存?zhèn)}裝滿了后,機器人自動返回指定地點人工傾倒雜物,從而完成雜物的收集。機器人通過圖像收集裝置采集遠距離水面雜物及障礙物影像,用基于STM32單片機的控制系統(tǒng)進行方向、速度的控制。
本文設(shè)計的湖泊水面雜物收集機器人對于保證水域環(huán)境的整潔與美觀,營造讓人心情愉悅的環(huán)境有著十分重要的意義和作用,湖泊水面雜物收集機器人的推廣和使用,可實現(xiàn)水面雜物收集自動化,極大的提高水面雜物收集效率,同時又起到對水面環(huán)境的維護保障功能。與水面雜物的人工打撈相比,采用湖泊水面雜物收集機器人可以極大地提高工作效率,這也是進行環(huán)境保護在水面雜物收集方面的重大進步。
第二章 總體方案設(shè)計
該機器人主要收集的是漂浮在水面上的小型雜物,首先預估的湖泊水面雜物機器人的大小及載重,通過查閱資料并結(jié)合老師建議選用合理的機械結(jié)構(gòu);收集雜物預想采用網(wǎng)狀式雜物收集箱來進行雜物的存放;通過圖像收集裝置采集遠距離水面雜物及障礙物影像;控制部分的核心是STM32單片機芯片,通過單片機可以整個湖泊水面雜物機器人的方向和速度等;當雜物收集滿后返回指定地點人工傾倒雜物。
整個湖泊水面雜物收集機器人應該結(jié)構(gòu)合理,材料易尋且價格合理外觀簡約且美觀,采用電力驅(qū)動節(jié)約能源、無污染,且收集雜物快速有效。
表2-1 系統(tǒng)結(jié)構(gòu)表
機械本體
船體
動力驅(qū)動部分
螺旋槳推進器、伺服電機、蓄電池
測試傳感部分
圖像收集裝置、光束遮斷式傳感器
控制部分
STM32單片機、伺服電機驅(qū)動模塊,繼電器
執(zhí)行機構(gòu)
傳送帶、雜物收集輔助裝置
湖泊水面雜物收集機器人的構(gòu)成如表2-1,系統(tǒng)結(jié)構(gòu)圖如圖2-1。
圖2-1 系統(tǒng)結(jié)構(gòu)圖
機械本體是船體,主要讓湖泊水面雜物收集機器人漂浮于水面并支持其他結(jié)構(gòu)的作用;動力驅(qū)動部分主要包括螺旋槳推進器、電機、蓄電池,其中螺旋槳推進器提供整個湖泊水面雜物收集機器人的驅(qū)動力,電機為傳送帶和雜物收集輔助裝置提供動力,而蓄電池則為整個系統(tǒng)提供動力來源;測試傳感部分包括圖像收集裝置、光束遮斷式傳感器,其中圖像收集裝置收集湖泊水面的雜物信息,而光束遮斷式傳感器用于判斷雜物收集箱雜物收集;控制及信息處理單元包括STM32單片機、伺服電機驅(qū)動模塊,繼電器,其中STM32單片機是整個湖泊水面雜物收集機器人的控制中心,而伺服電機驅(qū)動模塊和繼電器用于控制螺旋槳推進器和電機;執(zhí)行機構(gòu)包括傳送帶和雜物收集輔助裝置,兩者用來收集湖泊水面雜物。
第三章 機械系統(tǒng)設(shè)計
3.1機械本體設(shè)計
機械本體承載整個系統(tǒng)的部件,實現(xiàn)系統(tǒng)的構(gòu)造功能。
機器人機械本體選用船體,船體是湖泊水面雜物收集機器人的軀體部分,在系統(tǒng)設(shè)計中起著非常重要的作用,船體的設(shè)計結(jié)構(gòu)減輕了湖泊水面雜物收集機器人的自重,更重要的是增加了安放電機和控制部分的空間。在船體上需要安裝收集裝置、螺旋槳推進器、打撈裝置、雜物收集箱、控制部分,驅(qū)動部分等機構(gòu);還需要隔斷外部水的環(huán)境和內(nèi)部環(huán)境,起到隔離的作用。
機器人的船體采用左右對稱布置的結(jié)構(gòu),這樣的設(shè)計不僅在船體的基礎(chǔ)上更加減輕了機器人的自重,還減少了湖泊水面雜物收集機器人在水中航行受到的阻力,對于整個湖泊水面雜物收集機器人的設(shè)計有著至關(guān)重要的作用。
前方有兩個支撐部分和連在一起的兩個凸臺,用來安放雜物收集輔助裝置和連接桿。連接桿用來使左右雜物收集輔助裝置同步,同時連接桿上有兩個錐齒輪和一個帶輪用來傳遞力。同時船體前部還有三個凸臺,其中一對對稱安置放軸承的支架,對應船中部也有一對。船前部還有一個凸臺安裝帶輪及軸,連接兩個帶。另外左邊船艙有一個用于放置電機的凸臺。右邊鑄有控制部分放置盒。
船中部有支撐梁和船體一體鑄造,可用于安放圖像收集裝置。
船的頂部有一個頂棚,通過支撐梁和船焊接在一起,頂棚可以安裝簾子,用來防雨和防水。
雜物收集箱安放于船體尾部。
船體用灰鑄鐵HT200制作而成,總長1200mm,寬800mm,高600mm,它的總體尺寸設(shè)計見圖3-1。
圖3-1 湖泊水面雜物收集機器人裝配圖
3.2動力驅(qū)動部分設(shè)計
動力驅(qū)動部分是系統(tǒng)能量和動力的來源,其輸出的動力選擇的來源是控制系統(tǒng)的控制要求,可以實現(xiàn)動力功能。
1)湖泊水面雜物收集機器人的滿載排水量
其中機械本體、蓄電池、螺旋槳推進器的重量、所能存儲的雜物的最大重量分別預估為80kg、 10kg、 10kg、80kg。
故總質(zhì)量為
式(3-1)
因此該船的重排水量為
式(3-2)
2)最大吃水深度的計算
該湖泊水面雜物收集機器人的面積由我們所選擇的數(shù)學公式計算得;
公式可以計算我們所需要的機器人船體的最大吃水深度:
式(3-3)
該湖泊水面雜物收集機器人的船體高度為320mm小于計算所得200mm的吃水深度,因此機器人的高度滿足需求。
3)動力裝置選擇
由于該湖泊水面雜物收集機器人機械本體采用的是船體機構(gòu),因此推進方案可以選擇船用推進器。而現(xiàn)代船用推進器應用最廣的是螺旋槳,螺旋槳不僅機構(gòu)簡單,還有造價成本低,效率較高的特點,更重要的是螺旋槳使用方便。在本設(shè)計中螺旋槳推進器可以將動力裝置及電機提供的動力轉(zhuǎn)換成推進力,從而推動湖泊水面雜物收集機器人直行或轉(zhuǎn)彎,是這個湖泊水面雜物收集機器人必不可少的部分。
侵濕的面積計算根據(jù)湖泊水面雜物收集機器人在上一步計算所得最大吃水深度時的值為 200mm,根據(jù)計算侵濕的面積的數(shù)學公式計算可得,現(xiàn)假設(shè)設(shè)在水中湖泊水面雜物收集機器人行駛時的速度約為1m/s,那么湖泊水面機器人在湖泊行駛過程中,水流對船體的阻力可以根據(jù)以下設(shè)計公式計算得:
式(3-4)
由
式(3-5)
可得驅(qū)動機器人需要900W的功率,及每個螺旋槳推進器的功率為450W
根據(jù)分析我們選用了六葉螺旋槳推進器。根據(jù)前面我們經(jīng)由計算所預估出來100mm吃水深度
將螺旋槳布置于船體下方兩側(cè)尾部,可以使螺旋槳產(chǎn)足夠推力,而且更加方便于通過螺旋槳使船體轉(zhuǎn)向,這具有很強可操控性。
故根據(jù)以上計算步驟和計算出來的值可選擇如圖3-2所示的推進器。
圖3-2 螺旋槳推進器
3.3收集裝置電動機選擇
由分析,選用24V,100W電動機,故電動機型號為57BL55。
3.4蓄電池選擇
為滿足供電需求,選擇了叮東24V,1000W電瓶。
3.5執(zhí)行機構(gòu)設(shè)計
包括執(zhí)行元件和機械傳動機構(gòu),根據(jù)控制及信息處理部分發(fā)出的指令,把電氣輸入轉(zhuǎn)化為機械輸出,實現(xiàn)系統(tǒng)主功能。
3.5.1同步帶輪的選擇
帶、帶輪之間沒有相對滑動,能確保其傳動比精確度高,這是由于帶、帶輪需依靠嚙合傳動。它對于鏈傳動、齒輪傳動來講,噪音小,且無需潤滑油,還具有較長壽命。該湖泊水面雜物收集機器人設(shè)計都采用同步帶傳動,且傳動比都為i=1,由前面可知電動機的額定功率為,額定轉(zhuǎn)速為。
1)確定同步帶傳動的設(shè)計功率
按工作機的性能及其運轉(zhuǎn)時間來查表K—修正載荷系數(shù)表,取
式(3-6)
2)選定帶型和節(jié)距
查《機電一體化系統(tǒng)設(shè)計》圖2-37,選3M同步齒形帶,查《機械設(shè)計手冊》,得其節(jié)距
3)大小帶輪齒數(shù)及節(jié)圓半徑
查《機電一體化系統(tǒng)設(shè)計》表2-4,得,選小帶輪齒數(shù)為
式(3-7)
因為傳動比為i=1,大小帶輪型號與尺寸完全相同
4)計算同步帶帶速
式(3-8)
5)初定中心距
中心距滿足
式(3-9)
取
6)確定帶長以及帶齒數(shù)
式(3-10)
查《機電一體化系統(tǒng)設(shè)計》表13-1-58,得,
7)計算實際軸間距
式(3-11)
8)求帶寬
式(3-12)
查《機械設(shè)計手冊》表13-1-51,得,取
確定型號為30-3M-6
3.5.2軸的計算
輸出軸的功率P=100W n=50r\min
1)選擇軸的材料
該軸無特殊要求,因而選用調(diào)質(zhì)處理的45鋼,查表知,6b=640mpa.
2)求輸出軸的功率,n 及扭矩T
若取機械效率則
式(3-13)
式(3-14)
3)初步估算最小軸徑
先初步估算軸的最小直徑,當選取軸的材料為45鋼時,取c=110,于是得
式(3-15)
最小軸徑為10mm。
3.6雜物收集箱設(shè)計
本畢業(yè)設(shè)計所設(shè)計的雜物收集箱為了快速節(jié)約材料同時方便更換設(shè)計成了如圖3-2所示樣式,并且還可以盡可能的增大可收集雜物體積。其材料采用工程塑料裁剪,不僅便于裁剪,還具有材料獲得方便、質(zhì)量小等優(yōu)點。本文設(shè)計的雜物收集箱經(jīng)過裁剪后,形成如圖3-3所示方孔樣式,可以在有效收集雜物的前提下使得水流不會被雜物收集箱所限制,從而降低所受到的阻力,以此來提高工作效率。雜物收集箱的總體尺寸為240mm*200mm*200mm。
圖3-3 雜物收集箱
第四章 控制系統(tǒng)設(shè)計
4.1控制方案選擇
控制方案比較:對于繼電器控制方案,在系統(tǒng)構(gòu)成后,想再改造或者增加整個系統(tǒng)功能困難,而且相比于其他方案還有體積大、能級大、連線多等問題。另外,繼電器的觸點數(shù)量是該方案的一個很大限制,這個限制會使得使得繼電器控制系統(tǒng)不具備很高可擴展性,同時也會降低系統(tǒng)的靈活性;盡管采用PLC會更加快捷方便,也會提高整個系統(tǒng)的成功率,相比于其他方案PLC方案的可靠性也較好,但選擇PLC會有較高的成本,這與我們設(shè)計要求中成本低不相符合;而采用單片機系統(tǒng)相比于其他兩者來說不僅成本更低,而且效益更高,所以本設(shè)計采用單片機控制。
整個控制系統(tǒng)根據(jù)系統(tǒng)的功能和性能要求以及各類傳感器反饋的信息,進行分析、處理、存儲和決策,控制整個系統(tǒng)有目的的運行,實現(xiàn)控制功能。該湖泊水面雜物收集機器人設(shè)計的控制系統(tǒng)的硬件部分根據(jù)圖4-1系統(tǒng)框圖我們可知,主要有六大部分,他們分別是單片機控制器,光束遮斷式傳感器,圖像收集裝置,伺服電機驅(qū)動模塊,繼電器組成。
單片機控制器是一種微控制單元,是這個系統(tǒng)的控制核心;圖像收集裝置用來收集湖泊水面圖像;光束遮斷式傳感器檢測雜物收集裝置收否收集滿雜物;電機驅(qū)動模塊驅(qū)動螺旋槳推進器;繼電器主要是控制直流電機的啟停。
圖4-1 系統(tǒng)框圖
4.2單片機的介紹及選型
4.2.1單片機的介紹
MCU,又稱單片機,它和中央處理器具有類似的功能,但單片機的功能又遠遠不如中央處理器,具體來說將頻率和規(guī)格做恰當降低就相當于單片機,同時將DMA、memory、A/D轉(zhuǎn)換、LCD驅(qū)動電路等部分或全部整合在一片單片機芯片上,方便于在非常多的事物中做不同要求的控制,完成預計的目的。
如智能手機、電腦外圍、電視遙控器,甚至智能較車、電機、機器人的控制等,都有用到單片機。
單片機的主要運用范圍包括:
(1) 測控系統(tǒng)。測控系統(tǒng)是用單片機作為控制中心與其他部件組合構(gòu)造各種控制系統(tǒng)以此來達到測量某些數(shù)據(jù)與控制某些動作的目的,例如自適應控制系統(tǒng)等。
(2) 智能民用產(chǎn)品。如在智能音響、智能玩具、掌上游戲機、智能廚房設(shè)備等許多產(chǎn)品中, 單片機控制器僅得這些我們?nèi)粘I钪械漠a(chǎn)品功能更加豐富,性能更加高效。
以上兩種種單片機的運用范圍只是大概情況,其他地方也有很多的運用。
4.2.2單片機的選型
為了實現(xiàn)機器人的人機交互,方便控制、實時反饋湖面、雜物收集箱信息等要求為本湖泊水面雜物收集機器人的選擇的主控芯片型號為STM32F103C8T6單片機。STM32系列耗能低,數(shù)據(jù)處理能力好,能夠滿足雙螺旋槳推進器快速差速運動的需要,自帶的多路輸出PWM模塊便于螺旋機推進器的控制。整個系統(tǒng)由電源管理模塊提供電力。STM32F103C8T6硬件連接圖如圖4-2所示。
圖4-2 STM32F103C8T6
4.3 檢測傳感部分設(shè)計
檢測傳感部分包括各種多種多樣的傳感器和信號處理電路,我們可以根據(jù)我們所要達到的控制要求,設(shè)計中央處理器提供控制目標所需要多種信息,實現(xiàn)整個系統(tǒng)的檢測功能。
本設(shè)計主要包括圖像收集裝置和光束遮斷式傳感器。圖像收集裝置用來收集湖泊水面雜物的圖像信息,在整個系統(tǒng)中圖像收集裝置是為了完成識別雜物,快速定位雜物所在位置工作的裝置。光束遮斷式傳感器檢測雜物收集箱是否收集滿雜物,是湖泊水面雜物收集機器人判斷是否應該返回傾倒地點的必要傳感器。
4.3.1圖像收集裝置選型
水面的情況是非常復雜的,在水面上不僅有各類雜物,還有各種各樣的障礙物。這就需要我們設(shè)計的此款湖泊水面雜物收集機器人能有效的避開障礙物。為了機器人能有效收集雜物,我們也需要為機器人設(shè)計快速、準確尋到雜物的功能。機器人避開障礙物,搜尋雜物從原理上來說兩者可以合二為一。為此設(shè)計并安裝了如圖4-3所示的圖像收集裝置。
圖4-3 圖像收集裝置
4.3.2光束遮斷式傳感器選型
為了檢測雜物收集箱是否已經(jīng)裝滿雜物,該湖泊水面雜物收集機器人采用并安裝了PB-20TE光束遮斷式感應器。PB-20TE光束遮斷式感應器如圖4-4所示。
圖4-4 PB-20TE光束遮斷式感應器
“光束遮斷式感應器”(Photoelectric Beam?detector)的檢測方法利用了紅外線。因此這些對射經(jīng)由專家計算有效距離在600米內(nèi)。他包括了構(gòu)造包括球面鏡片、鏡片等。
根據(jù)分析,為了達成我們需要的預定計劃,我們需要為紅外對射探頭選擇恰當?shù)捻憫獣r間。
考慮到在本湖泊水面雜物收集機器人設(shè)計中光束遮斷式傳感器的主要作用是檢測雜物收集箱是否收集滿雜物,故可選擇較長的響應時間。若雜物收集箱未滿遮光時間不會太長,因此響應時間可以選擇1s。
4.4繼電器模塊設(shè)計
如圖4-5所示,本設(shè)計采用1路5V繼電器,繼電器的啟停通過單片機控制。在本設(shè)計中繼電器可以是控制直流電機的啟動和停止。從前面我們已經(jīng)可以知道雜物收集裝置的驅(qū)動力由直流電機提供,據(jù)此分析我們可以知道雜物收集裝置的啟停通過單片機控制繼電器的啟停間接由單片機控制啟停。
圖4-5
4.5電機驅(qū)動模塊設(shè)計
電機驅(qū)動模塊用來控制螺旋槳推進器,并能對一對螺旋槳推進器進行差速控制,從而能實現(xiàn)控制整個機器人的轉(zhuǎn)彎,因此選擇L298N電機驅(qū)動模塊。
電機驅(qū)動模塊如圖4-6所示。
圖4-6 電機驅(qū)動模塊
4.6程序設(shè)計
該湖泊水面雜物收集機器人軟件流程圖如圖4-7所示。
該設(shè)計的湖泊水面雜物收集機器人開始運行后,第一步為螺旋槳推進器驅(qū)動機器人直行;第二步為圖像收集裝置收集湖面信息;第三步為機器人檢測是否有障礙物,若有則螺旋槳推進器驅(qū)動機器人轉(zhuǎn)彎避開,然后返回第一步,若無則開始第四步;第四步為機器人檢測是否有雜物,若有則機器人開始第五步,若無則返回第一步;第五步為判斷雜物收集箱收否滿,若不滿則螺旋槳推進器驅(qū)動機器人收集雜物,收集完成后返回第一步,若滿則開始第六步;第六步為螺旋槳推進器驅(qū)動機器人返回指定地點,然后電機及螺旋槳推進器停轉(zhuǎn),整個程序結(jié)束運行。
圖4-7 軟件流程圖
結(jié)束語
這次畢業(yè)設(shè)計可以說是我們大學生在整個大學生活中最重要的任務了,這次設(shè)計可以說是一次對于以往我們大學生涯學習的一次綜合檢驗和考核,更可以說是一次理論聯(lián)和實際相聯(lián)系的體驗。這次體驗對我來說是一次不斷解決問題并在解決問題中不斷的發(fā)現(xiàn)不足并超越自我體現(xiàn)人生價值的過程??鞓泛屯纯鄡烧卟豢煞蛛x,盡管過程大部分都是艱辛的,但我也在艱辛得過程中體會到了認真完成一份工作的快樂。
設(shè)計剛開始的時候我們大家都是迷茫的,都不知道從哪里開始著手,整個人都是迷迷糊糊,對于畢業(yè)設(shè)計沒有一個總的概念,無法建立完整的具體的對于畢業(yè)設(shè)計的思路和方案。每天都是在泡圖書館查書籍、上網(wǎng)找資料、和同學討論,但這些方法都收獲甚微,并沒有給予我靈光。在這時是李老師給予了我信心,他不斷激勵我、耐心得指導我。從這里開始,我才開始有信心完成我的畢業(yè)設(shè)計。李老師給予了我一個好的開始,讓我度過了前期最困難的時候,我才能緩緩的將畢業(yè)設(shè)計進行下去,這可能就是俗話說的萬事開頭難??傮w上而言我的設(shè)計進行得很慢,中途還由于各種各樣的原因中途不斷的中斷畢業(yè)設(shè)計,但最終我還是完成了本次畢業(yè)設(shè)計。這可以歸功于我自己的努力,是我功夫不負有心人的表現(xiàn),也歸功于李老師和同學們不斷得鼓勵和幫助。
完成畢業(yè)設(shè)計是困難的,查閱資料形成自己的思路是不易的,但這些困難和不易更能全面檢驗了我們過去我們所學。人的一生所擁有和將擁有的財富必然是有限的,而在這有限的財富中這次畢業(yè)設(shè)計所讓我獲得的財富所占的比重更是非比尋常。
這次的畢業(yè)設(shè)計對于我的動手能力、獨立思考能力和分析解決問題的能力等各個方面都是一次全面而具體的鍛煉。整個完成畢業(yè)設(shè)計的過程對與我來說,不僅讓我感覺到了知識的欠缺和經(jīng)驗的不足,而且還讓我進一步鞏固了專業(yè)。我將會在今后的工作與學習中,繼續(xù)這次畢業(yè)設(shè)計所體會到的精神,更加努力。
畢業(yè)設(shè)計雖然是一項挑戰(zhàn)難度非常高的任務,但我非常感謝這次畢業(yè)設(shè)計,這對我來說是唯一的經(jīng)歷。同時我也感到有一些不足,這些不足在總結(jié)的過程中讓我有了更加深刻的體會和感悟。我會在今后的生活中不斷提高自己的能力,不斷完善自己所欠缺的綜合能力。
致 謝
正是因為有一群優(yōu)秀且品德高尚的人在我身邊不計回報的鼓勵和幫助我,我才能圓滿且及時的完成本次畢業(yè)設(shè)計,我從心底里非常的感謝他們。
首先,在本次畢業(yè)設(shè)計的過程中,我的指導老師李教授不僅對我的研究內(nèi)容和研究方向進行了專業(yè)的指導和論證,并且在我進行課程設(shè)計遇到困難時,給予了我極大的幫助。
其次,也要感謝我的同學,他們也幫助我解決了很多難題。
李老師和我的同學是一群非常優(yōu)秀的人,在這里,我再一次感謝他們。
參考文獻
[1]孫亞軍.小型水域垃圾清理機器人的研制[D].昆明理工大學,2018.
[2]周飛.基于移動通信網(wǎng)絡的湖面清潔機器人遙操作系統(tǒng)設(shè)計與實現(xiàn)[D].國防科學技術(shù)大學,2010:1-5.
[3]高曉紅.一種小型水面垃圾清理裝置的研究與設(shè)計[J].海南大學學報(自然科學版),2019(03).
[4]趙陽,趙飛等.一種水面清潔機器人及其系統(tǒng)設(shè)計[J].科技風,2019(32).
[5]朱盛穎,郭旭玲,鄧彥松.一種渦旋式水面清潔機器人[J].兵工自動化,2018(04)
[6]譚淑梅.簡析STM32單片機原理及硬件電路設(shè)計[J].大慶師范學院學報,2014,34(06):21-23.
[7]張才勇,王庭有,李馳骎琴.基于單片機的直流電機調(diào)速控制[J].化工自動化及儀表,2019(11).
[8]張婧,樊艷艷,李勇.基于STM32和TMC5160的步進電機控制系統(tǒng)[J].儀器儀表用戶,2020(02).
[9]湯偉,劉思洋,高涵,陶倩.基于視覺的水面垃圾清理機器人目標檢測算法[J].科學技術(shù)與工程. 2019(03).
[10]LIU Y, LIU S, WANG Z.A general framework for image fusion based on mult-istage transform and sparse representation[J].Information Fusion,2015,24:147-164.
[11]LI H,CHAI Y,LI Z.Multi-focus image fusion based on nonsubsampled contourlet?transform and focused regions detection[J].Optik-Int. J.Light Electron Opt,2013,124(1):40-51.
附錄
1.湖泊水面雜物收集機器人雜物收集箱;
2.湖泊水面雜物收集機器人機械結(jié)構(gòu)圖;
3.湖泊水面雜物收集機器人設(shè)計零件圖;
4.湖泊水面雜物收集機器人裝配圖;
5.單片機控制系統(tǒng)硬件連接圖;
6.應用程序軟件流程圖。
23
1.外文資料翻譯譯文(約3000漢字):
文章
基于深度學習的多光譜圖像融合新方法
樸景春*,陳云帆和HyunchulSine*
漢陽大學電氣工程系,韓國安山15588;chenyunfan@hanyang.ac.kr
*通訊:kcpark1011@hanyang.ac.kr(J.P.);shin@hanyang.ac.kr(HS);
電話:+82-31-400-4083(JP);+82-31-400-5176(H.S.)
收到:2019年5月12日;接受:2019年6月3日;發(fā)布時間:2019年6月5日
摘要:在本文中,我們通過使用深度神經(jīng)網(wǎng)絡提出了一種新的且有效的紅外(IR)和可見光(VIS)圖像融合方法。在我們的方法中,使用暹羅卷積神經(jīng)網(wǎng)絡(CNN)自動生成權(quán)重圖,該權(quán)重圖表示一對源圖像的每個像素的顯著性。卷積神經(jīng)網(wǎng)絡在將圖像自動編碼到特征域以進行分類中發(fā)揮作用。通過應用所提出的方法,可以一次性解決圖像融合中的關(guān)鍵問題,即活動水平測量和融合規(guī)則設(shè)計。通過基于小波變換的多尺度圖像分解進行融合,重構(gòu)結(jié)果對人眼視覺系統(tǒng)更具感知力。另外,通過使用公共基準數(shù)據(jù)集 YOLOv3 對象檢測器和將行人檢測結(jié)果與其他方法進行比較,我們評估了所提出的融合方法的視覺定性效果。實驗結(jié)果表明,我們提出的方法在定量評估和視覺質(zhì)量方面均顯示出競爭優(yōu)勢。
關(guān)鍵詞:圖像融合;可見光;紅外線;卷積神經(jīng)網(wǎng)絡;暹羅網(wǎng)絡
1.介紹
利用紅外(IR)和可見光(VIS)圖像融合技術(shù)從多個光譜源圖像生成合成圖像,以組合同一場景的互補信息。輸入源圖像是使用不同的參數(shù)設(shè)置從不同的成像模態(tài)捕獲的。預期的融合圖像比任何單個輸入圖像都更適合人類感知。由于該優(yōu)點,圖像融合技術(shù)在圖像處理和計算機視覺領(lǐng)域廣泛的應用以提高人和機器視覺的視覺能力。圖像融合的一般框架是從同一場景的源圖像中提取代表性的顯著特征,然后通過適當?shù)娜诤戏椒▽⑦@些顯著特征整合到單個圖像中。
紅外圖像受光線,霧氣和煙霧等外部環(huán)境的影響很大。[1,2].但在弱光條件下無法看到可見光圖像的區(qū)域,紅外圖像優(yōu)于可見光圖像。[3,4].普通的可見光成像傳感器能捕獲物體的反射特性,這些特性可以是物體的邊緣和細節(jié)紋理。它們能夠為人類的視覺感知提供信息。如上所述,由于成像機制的差異,紅外和可見光圖像中同一像素位置的強度通常會有明顯的不同。一種好的紅外和可見光圖像融合方法應該能夠同時保留紅外圖像中的熱輻射信息和可見光圖像中的紋理細節(jié)信息。
在過去的十年中,已經(jīng)提出了許多圖像處理方法來提取顯著特征,例如基于多尺度分解的方法。通常,多尺度分解包括三個步驟,即分解,融合和重建。錐波[5,6],小波[7-9]和剪切波[10-12]是圖像融合中常用的典型多尺度變換。稀疏編碼也是一種流行的圖像編碼方法,也已成功應用于融合多模態(tài)圖像[13-15]。隨著深度學習的興起,使用卷積神經(jīng)網(wǎng)絡(CNN)或生成性對抗網(wǎng)絡(GAN)[16]已經(jīng)成為一種趨勢。在[16]中,一種基于生成性對抗網(wǎng)絡的方法同時保留了紅外圖像的輻射信息和可見光圖像中的細節(jié)紋理。該方法的缺點是計算效率低。
圖像融合中最重要的問題之一是計算一個包含來自不同源圖像像素活動信息的加權(quán)映射。在大多數(shù)現(xiàn)有的圖像融合方法中,有兩方面的目標:即活動水平測量和權(quán)重分配。在傳統(tǒng)的變換域融合方法中,分解系數(shù)的絕對值之和用于測量活動水平,并根據(jù)獲取的測量結(jié)果,將“選擇的最大值”或“加權(quán)平均值”規(guī)則應用于其他來源。顯然,這種活動性測量和權(quán)重分配容易受到多種因素的影響,例如噪音,失真和強度差異。為了提高收斂性,最近的文章[17,18]中提出了幾種活動水平設(shè)計和權(quán)重分配方法。但是,要設(shè)計出可行的活動水平測量或權(quán)重分配策略來實際考慮所有收斂的關(guān)鍵問題并不容易。此外,在許多融合方法中,這兩個階段是單獨設(shè)計的,沒有有效的組合,這極大地限制了算法的性能。
在本文中,我們從不同的角度來解決這一問題,以克服(1)設(shè)計穩(wěn)健活動水平測量和(2)權(quán)重分配策略的困難。具體來說,它訓練一個卷積神經(jīng)網(wǎng)絡[19]來將一個圖像色塊編碼為特征,從而將源圖像直接映射到權(quán)重圖。CNN是一種多層神經(jīng)網(wǎng)絡,它與通常的人工神經(jīng)網(wǎng)絡不同。它通過多層連接學習圖像數(shù)據(jù)的分層特征表示。具體來說,每個圖層都包含一定數(shù)量的特征圖,可以將其視為該圖層中特征維度的大小。特征圖中的每個權(quán)重稱為神經(jīng)元。應用于神經(jīng)元的操作,例如卷積,激活和最大池,用于連接多層特征圖[19]。
針對圖像融合中的兩個主要困難,我們提出了一種新的基于深度學習的有效的卷積神經(jīng)網(wǎng)絡模型訓練框架,該框架將活動測量和權(quán)重圖生成相結(jié)合以進行圖像融合。本文的主要貢獻可歸納如下:
(1)我們設(shè)計了一個基于卷積神經(jīng)網(wǎng)絡的學習方案,以測量活動量并根據(jù)源圖像對中每個像素的顯著性自動生成權(quán)重圖。
(2)通過使用三階小波變換將源圖像對分解為低頻子帶和高頻子帶,并通過使用縮放后的權(quán)重圖重建小波圖像來獲得融合圖像。它產(chǎn)生的不良偽影更少,與人類的視覺感知具有良好的一致性。
(3)我們從數(shù)量和質(zhì)量兩個角度系統(tǒng)地分析了實驗結(jié)果。對12個基準數(shù)據(jù)進行了定量評估,并將結(jié)果與18種代表性現(xiàn)有技術(shù)方法的結(jié)果進行了比較。此外,通過在公共基準數(shù)據(jù)集上使用YOLOv3對象檢測器比較融合后的行人檢測結(jié)果,評估了所提出融合方法的視覺定性效果。
2.相關(guān)作品
[20]中概述了最新的紅外和可見光圖像融合技術(shù)。近年來,圖像融合技術(shù)已成為一個熱門的研究領(lǐng)域,紅外和可見光圖像融合技術(shù)是其中至關(guān)重要的組成部分。根據(jù)所使用的算法,通??梢詫⑺鼈兎譃槿箢悾合袼丶?,特征級和決策級。
首先,基于像素級的方法可以分為基于空間域的方法和基于變換域的方法。典型的基于空間域的算法有加權(quán)平均法和基于塊的方法。著名的基于變換的紅外和可見光融合的算法有錐波,輪廓波,非下采樣剪切波變換以及其他基于分解和重建的方法。除了上述方法外,還有其他多種紅外和可見光圖像融合方法,例如稀疏表示(SR),馬爾可夫隨機場(MRF)和基于主成分分析的方法?;谙袼丶壍姆椒ㄊ钦麄€圖像融合領(lǐng)域的一個研究熱點。
其次,基于特征級的方法依靠圖像的合成特征和結(jié)構(gòu)特征,例如邊緣,角點和紋理,來分割圖像或從圖像的局部區(qū)域獲得目標分布信息。然后,運用一定的融合規(guī)則,從源圖像中提取信息并進行組合。典型的方法有基于對象檢測,邊緣提取,顯著圖提取和圖像分割。基于特征級的融合方法需要手動選擇特征以及人工設(shè)計融合規(guī)則,并且融合性能高度依賴于特征和融合規(guī)則。
第三,決策級融合是這三個級別中最先進的選項,它根據(jù)設(shè)計的融合規(guī)則,基于判別信息對目標進行融合。該融合決策基于學習的分類器,而分類器通常量化分類的可靠性。決策級的缺點是對分類結(jié)果的檢測高度依賴。
本文的其余部分安排如下。第3節(jié)介紹了基于活動水平自動測量和權(quán)重圖生成的圖像融合方案。第4節(jié)討論了性能評估和結(jié)果分析。最后,第5節(jié)總結(jié)了結(jié)論。
3.基于活動水平自動測量和權(quán)重圖生成的融合方案
本工作的目的是開發(fā)一個基于卷積神經(jīng)網(wǎng)絡的學習方案來測量活動水平,并根據(jù)源圖像中每個像素的顯著性屬性自動生成權(quán)重圖。在這項工作中,我們主要關(guān)注紅外和可見光圖像預注冊的情況。從圖1可以看出本文提出的方法包括三個主要步驟:(1)通過訓練暹羅網(wǎng)絡生成卷積神經(jīng)網(wǎng)絡模型,(2)從一對紅外和可見光圖像生成權(quán)重圖,以及(3)圖像分解和圖像重建。我們設(shè)計了一種基于卷積神經(jīng)網(wǎng)絡的訓練方案,以生成兩類分類模型,該模型可以計算每一類的概率。大量大小為16×16的紅外和可見光圖像色塊用作訓練數(shù)據(jù)集。在權(quán)重圖生成階段,輸入的是一對紅外和可見光圖像,并使用訓練后的卷積神經(jīng)網(wǎng)絡模型為該圖像對生成權(quán)重圖。權(quán)重圖是訓練階段的輸出。將輸入圖像對分解為低頻子帶和高頻子帶,并縮放權(quán)重圖以平均分解后的圖像對。最后,通過加權(quán)平均和重建生成融合圖像。
3.1CNN設(shè)計
在本研究中,我們將紅外和可見光圖像融合視為兩類分類任務。目的是通過訓練卷積神經(jīng)網(wǎng)絡模型來生成范圍為0到1的權(quán)重圖。權(quán)重圖中的系數(shù)可以看作是表示加權(quán)平均步驟中源圖像中每個對應像素強度值的部分的融合規(guī)則。圖2顯示了所提出方法的權(quán)重圖生成方案。輸入圖像對通過暹羅網(wǎng)絡進行編碼,并為其賦予一個代表每個源(VIS或IR)的顯著性的分數(shù)。然后,使用Softmax計算的概率成為權(quán)重圖中的權(quán)重值。紅外圖像中具有熱輻射信息的像素或可見圖像中屬于細節(jié)紋理的像素獲得更高的概率。通過使用預先訓練的卷積神經(jīng)網(wǎng)絡模型,計算出與輸入圖像對大小相同的權(quán)重圖。在權(quán)重圖W中,較亮的像素表示接近1的值,而較暗的像素表示接近0的值。例如,如果權(quán)重圖中的pixel(x,y)的值為0.95,則IR的權(quán)重像素為95%,在(x,y),VIS像素的權(quán)重為5%。平均像素值由IR_VIS(x,y)=IR(x,y)*W(x,y)+VIS(x,y)*(1-W(x,y))計算得出,其中IR_VIS(x,y),IR(x,y),VIS(x,y)和W(x,y)表示加權(quán)平均圖像,IR圖像,VIS圖像的像素值以及在某個位置(x,y)。
在這項工作中,選擇了一個暹羅神經(jīng)網(wǎng)絡作為深度學習模型。暹羅神經(jīng)網(wǎng)絡被設(shè)計為孿生網(wǎng)絡,它們的最后一層通過距離層連接,該距離層經(jīng)過訓練以預測兩個圖像是否屬于同一類。例如,如圖3所示的卷積神經(jīng)網(wǎng)絡的兩個分支沒什么不同,但是是同一網(wǎng)絡的兩個副本。因此,它們共享相同的參數(shù)。圖1和圖2通過卷積神經(jīng)網(wǎng)絡編碼為固定長度的特征向量。如果兩個輸入圖像來自同一類,則它們的特征向量也必須相似,而如果兩個輸入圖像不同,則它們的特征向量也將不同。因此,在圖3的情況下,兩個扁平化的全連接特征向量之間的逐個元素的絕對差必須非常不同。然后,將兩個網(wǎng)絡的完全連接的層饋送到基于歐幾里得距離的對比損失函數(shù),該函數(shù)計算兩個類別之間的相似度。歐幾里得距離越小,相似度越高。這是暹羅網(wǎng)絡的主要概念。
圖4展示了建議的融合方法中使用的卷積神經(jīng)網(wǎng)絡模型。暹羅網(wǎng)絡的每個分支中有3個卷積層和1個最大池層。表1給出了提出的卷積神經(jīng)網(wǎng)絡的具體參數(shù)。選擇圖像色塊大小非常重要。塊大小和分類性能之間存在折衷關(guān)系。神經(jīng)網(wǎng)絡編碼的圖像特征越多,塊尺寸越大,準確率越高,但這會顯著增大全連通層的尺寸,影響效率。另一方面,使用小塊的訓練精度不高??紤]到上述問題和數(shù)據(jù)集圖像的大小,我們在這項工作中使用了16×16的塊。我們拼接了每個分支獲得的256個特征圖,并將其與256維特征向量完全連接。然后,將二維矢量進一步與第一完全連接層完全連接,進行Softmax操作。最后,將二維矢量反饋給雙向Softmax層,生成兩個類別的概率分數(shù)。完全連接操作可以看成是卷積,其內(nèi)核大小等于輸入圖像的大小。假設(shè)輸入圖像的大小為h×w,則輸出權(quán)重圖的大小為[ceil(h/2-8+1]×[ceil(w/2-8+1],因為輸入在最大池操作之后,圖像大小被減小為一半,從16×16到8×8。從概念上講,卷積,最大池和連接起了特征提取器的作用。然后,完全連接的層和Softmax函數(shù)將概率值介于0和1之間的圖像色塊對分類。
3.2訓練
從TNO圖像融合數(shù)據(jù)集和OTBVS基準數(shù)據(jù)集中收集用于訓練的圖像色塊。我們使用2000幅紅外和可見光圖像對,將它們分成小塊進行訓練,而不是使用整個圖像作為卷積神經(jīng)網(wǎng)絡的輸入。通過這樣做,我們可以使用任意大小的圖像,并且為了提高效率,我們提取步幅為2個像素的圖像色塊,而不用滑動窗口的方式進行處理。每個訓練示例都是來自源圖像的圖像色塊對。令p1為紅外的補塊,p2為VIS的相應補??;然后,如果訓練標簽{p1,p2}的標簽為1,則將其定義為一個正例。相反,如果標簽為0,則將該示例定義為一個負例。訓練數(shù)據(jù)集包含400,000個正樣本和400,000個負樣本。
Softmax損失函數(shù)用作所提出網(wǎng)絡的目標。采用隨機梯度下降法(SGD)對迭代次數(shù)為50000的損失函數(shù)進行最小化。批次大小設(shè)置為128以進行培訓。我們在流行的深度學習平臺上訓練了我們的暹羅網(wǎng)絡[21],它基于Caffe庫。每個卷積層的初始權(quán)重使用Xavier算法設(shè)置[22],該算法根據(jù)輸入和輸出神經(jīng)元的數(shù)量自適應地確定初始化的規(guī)模。每層中的偏差均初始化為0。我們?yōu)樗袑釉O(shè)置了相同的傾斜速率0.0001。利用800000個訓練實例,經(jīng)過50000次迭代,通過損失函數(shù)優(yōu)化,我們得到暹羅網(wǎng)絡模型。該模型包含來自網(wǎng)絡各層的所有權(quán)重和偏差。通過迭代,Softmax損失的減少趨勢如圖5所示。
3.3最終權(quán)重圖生成和融合方案
通過使用大量紅外和可見光圖像色塊對進行訓練來生成卷積神經(jīng)網(wǎng)絡模型。由于卷積神經(jīng)網(wǎng)絡的輸出是使用Softmax分類器的兩類概率分布,因此獲得了權(quán)重圖w。在訓練階段,由于最大池的內(nèi)核大小和步幅為2×2和2,因此權(quán)重圖的大小如3.1節(jié)中所述減小??紤]到這一點,我們知道w中的每個相鄰系數(shù)都表示大小為16×16的圖像路徑對的顯著性。為了得到與源圖像大小相同的權(quán)重圖W,我們w的系數(shù)重新分配到2個像素步長的16×16色塊,取重疊色塊的平均值??梢詫⑵湟暈榉聪蜃畲蟪夭僮鳌D6顯示的是權(quán)重圖生成方案的示例,權(quán)重圖w的大小為2×2。例如,假設(shè)權(quán)重圖w由四個像素組成,其值分別為R,O,Y和G。然后,最終的權(quán)重圖通過將w中的每個像素值分配給跨度為2個像素的16×16色塊來獲得W。然后對多個色塊重疊的像素值進行平均計算。例如,在圖6,則W中中心像素的值為(R+O+Y+G)/4。如本節(jié)所述3.1,當源圖像的尺寸為h×w時,輸出權(quán)重圖的尺寸為[ceil(h/2-8)+1]×[ceil(w/2)?8+1]。在反向計算中,權(quán)重圖的大小應為[(ceil(h/2?8+1)×2+14]×[(ceil(w/2?8+1)×2+14],最終等于源圖像的大小。
紅外和可見光圖像是通過不同的成像方式捕獲的,而變換域融合方法則適合于產(chǎn)生更少的意外偽像,從而與人類的視覺感知保持良好的一致性。為了解決這個問題,我們通過使用3階2維Haar小波變換來分解紅外和可見光圖像[23],然后將輸入圖像對分解為低頻和高頻子帶。由于在每個級別的小波變換期間都會對原始圖像的尺寸進行下采樣,因此權(quán)重圖會按比例縮放以匹配下采樣圖像的尺寸。最后,通過重建3階小波圖像獲得融合圖像。級別數(shù)取決于要分解的圖像大小。在這項研究中,大多數(shù)圖像的尺寸為350-400×(400-450)像素。在每個級別對圖像進行降采樣并進行低通濾波。如果級別數(shù)太大,由于缺少高頻分量,圖像可能會模糊,從而影響重建性能。通過考慮這些因素來選擇級別數(shù)。基于小波變換的圖像分解和重構(gòu)的詳細內(nèi)容在[23]。圖7中說明了基于小波變換的融合方案。
4.實驗結(jié)果
4.1基準數(shù)據(jù)集和實驗環(huán)境
為了評估所提出方法的性能,我們從TNO圖像融合數(shù)據(jù)集和OTBVS基準數(shù)據(jù)集中收集了用于訓練和融合的圖像。TNO圖像融合數(shù)據(jù)集包含不同軍事相關(guān)場景的多光譜圖像,并在不同的多波段相機系統(tǒng)中注冊[24].OTCBVS是一個公共基準測試數(shù)據(jù)集,用于測試和評估新穎和最新的計算機視覺算法[25].圖8中顯示了來自兩個圖像融合數(shù)據(jù)集的十二對測試圖像對.可見光和紅外圖像嚴格對齊,以避免融合圖像中出現(xiàn)重影偽影。此外,我們使用了東京多光譜目標檢測數(shù)據(jù)集[26]以評估所提出的方法在低能見度情況下行人檢測的有效性。
在Linux操作系統(tǒng)下,我們使用了一臺包含Intel i7 core CPU,16GB RAM(隨機存取存儲器)的計算機進行了卷積神經(jīng)網(wǎng)絡模型訓練。NVIDIA TITAN X GEFORCE GTX GPU(美國加利福尼亞州 NVDIA)用于加速培訓過程。融合實驗是在具有Intel i7 core CPU和8GB內(nèi)存的Windows系統(tǒng)上進行的,并采用MATLAB實現(xiàn)。為了進行客觀的性能評估,我們在同一個系統(tǒng)上運行YOLOv3對象檢測器[27]和進行卷積神經(jīng)網(wǎng)絡訓練。
4.2性能評估
多光譜圖像融合技術(shù)已經(jīng)在目標檢測,目標跟蹤和監(jiān)視等多個領(lǐng)域廣泛應用。然而,實際應用在很大程度上取決于圖像融合方法的質(zhì)量。因此,對融合性能的評估應采用定性和定量相結(jié)合的方式[28]。為了評估各種紅外和可見光圖像融合方法的性能,人們提出了許多評估方法,并可歸類為主觀方法和客觀方法[29]。主觀評估方法在基于視覺感知的融合圖像質(zhì)量評估中起著重要作用。主觀標準包括圖像細節(jié),對象完整性和圖像失真。盡管如此,最直接的主觀評估方法是在融合圖像上應用特定的對象檢測器,正如本研究中所進行的那樣。
相反,客觀評估方法可以定量評估圖像融合的性能。它們與視覺感知非常一致,不容易被觀察者偏頗。近年來,人們提出了多種基于融合度量的客觀方法。它們可以分為基于信息論的方法,基于圖像結(jié)構(gòu)相似性的方法,基于圖像特征的方法和基于人類感知的方法。實驗中引入并利用了幾種代表性的圖像融合方法評估指標。熵(EN)和互信息(MI)是典型的基于信息的方法。根據(jù)信息論,圖像的熵表示圖像內(nèi)的信息量[30]?;バ畔⒍攘績蓚€圖像之間的依賴性。更具體地說,它量化了源圖像傳輸?shù)饺诤蠄D像的信息量[31]。圖像的結(jié)構(gòu)相似性(SSIM)是一種感知度量,它量化了處理造成的質(zhì)量損失[32]?;谔荻刃畔⒌亩攘縌^ab/f[30]量化了從源圖像傳輸?shù)饺诤蠄D像的邊緣信息量。視覺信息保真度(VIF)是一種基于人類感知的度量[28],它解決了人類視覺系統(tǒng)提取的圖像信息的概念。對于上述每個評估指標,較大的值表示較好的融合結(jié)果。
4.3結(jié)果分析
我們選擇了18種具有代表性的現(xiàn)有技術(shù)方法(這些方法在最近的論文[33]中進行了調(diào)查)并與我們所提出的方法進行了可見光和紅外融合性能的比較。本文選擇現(xiàn)有技術(shù)方法的主要動機有兩個:(1)本文調(diào)查的現(xiàn)有技術(shù)方法具有代表性,并且所有現(xiàn)有技術(shù)方法的測試代碼和評估指標均可用于性能評估。(2)用于性能評估和CPU時間測量的測試圖像在覆蓋范圍和數(shù)量上是足夠的。在[32]中典型的調(diào)查方法有LP,Wavelet,NSCT3,雙樹多分辨率離散余弦變換(DTMDCT),交叉雙邊濾波器(CBF),混合多尺度分解(HMSD),基于引導濾波的融合(GFF),基于各向異性擴散的融合(ADF),ASR,LP和SR(LPSR),方向信息驅(qū)動的PCNN(OI-PCNN),NSCT域中SF驅(qū)動的PCNN(NSCT-SF-PCNN),定向離散余弦變換和PCA(DDCTPCA),F(xiàn)PDE,基于視覺顯著性的兩尺度圖像融合(TSIFVS),局部邊緣保留LC(LEPLC),梯度轉(zhuǎn)移融合(GTF)和IFEVIP的兩尺度圖像融合。LP,Wavelet,NSCT,DTMDCT,CBF,HMSD,GFF和ADF是基于多尺度變換的典型方法,ASR和LPSR屬于基于SR的方法,OIPCNN和NSCT-SF-PCNN是基于神經(jīng)網(wǎng)絡的典型方法,DDCTPCA和FPDE是典型的基于子空間的方法,TSIFVS和LEPLC是典型的基于顯著性的方法,GTF和IFEVIP屬于其他方法類。
我們在來自TNO數(shù)據(jù)集的12對具有代表性的可見光和紅外圖像上測試了18種參考方法和我們所提出的方法,以進行定性和定量比較。測試的圖像對與在[31]中測試的圖像完全相同.我們使用了五個典型的評估指標,即EN,MI,SSIM,Q^AB/F和VIF,來評估不同的紅外和可見光圖像融合方法的性能。對于每個評估指標,值越大表示融合性能越好。
我們測試和審查了18種參考方法的主觀視覺質(zhì)量的比較,并提出了12種紅外、可見光和紅外圖像對的檢測方法。我們根據(jù)亮度保持,偽影和細節(jié)紋理的標準評估了定性性能。圖9顯示了18種參考方法和我們所提出的方法的定性性能。DTMDCT的融合結(jié)果通常比其他方法更亮?;赟R的方法在亮度保持和偽影角度上都有相似的結(jié)果。基于神經(jīng)網(wǎng)絡的方法的結(jié)果與不同的測試圖像缺乏一致性?;谧涌臻g的方法和基于顯著性的方法在亮度和細節(jié)紋理保留方面也產(chǎn)生了相似的融合結(jié)果。我們所提出的方法在保持熱輻射強度和細節(jié)紋理的同時展現(xiàn)出極好的視覺質(zhì)量,而不會帶來意想不到的偽影。
為了進一步證明所提方法在細節(jié)紋理和亮度保持方面的定性性能,我們選擇了三種典型方法與我們的方法進行比較(如圖10所示)。從基準數(shù)據(jù)集中選擇了四組圖像,即Bunker,Nato_camp,Kaptein和Street。NSCT是具有代表性的基于多尺度變換的方法,ASR是典型的基于SR的方法,而NSCT-SF-PCNN是具有代表性的基于神經(jīng)網(wǎng)絡的方法。在可見和紅外圖像中,分別使用黃色和品紅色矩形來標記要比較的圖像子區(qū)域。而在融合圖像中,使用紅色矩形來標記相應的子區(qū)域。(1)Bunker:與其他三種方法相比,我們所提出的方法較好地保留了可見光圖像的細節(jié)紋理和亮度。(2)Nato_camp和Kaptein:與其他方法相比,我們所提出的方法不僅能更充分地將人體輻射的熱能從紅外圖像轉(zhuǎn)移到融合圖像,還在融合圖像中保留了可見圖像中的垂直碼模式。(3)Street:在我們所提出的方法和其他方法相比,招牌的亮度明顯不同。從亮度和細節(jié)紋理保留的角度來看,我們所提出的方法的整體性能顯示出良好的視覺質(zhì)量,且不會產(chǎn)生偽影。
為了進行客觀的數(shù)量比較,我們使用18種參考方法和我們所提出的方法報告了5個指標的結(jié)果。
表2采用建議的方法展示了12個圖像對的度量值,而在表3中比較了各個度量的平均值,其中每列的粗體顯示的最大值表示最佳性能。為了更好地觀察指標值趨勢,表3如圖11中的條形圖所示。由于OIPCNN和LEPLC方法顯示較高的EN值,所以融合圖像包含了大量的信息?;谏窠?jīng)網(wǎng)絡的方法在MI中取得了較好的效果,但在SSIM中效果較差。該結(jié)果與定性實驗中的不同偽影相吻合。在Q^ab/f中,GFF和OIPCNN獲得了良好的性能,這表明從源圖像到融合圖像傳輸了大量的邊緣信息。LEPLC和GFF方法顯示出良好的VIF值,也與定性結(jié)果相符。我們所提出的方法在EN,SSIM,Q^ab/f和VIF中都產(chǎn)生了最好的結(jié)果。對于MI,基于PCNN的方法表現(xiàn)出了最好的性能,但在SSIM中基于PCNN的方法顯示出了較低的值。
除了定性和定量性能比較之外,我們還通過使用夜間行人檢測測試了該方法的有效性。我們分別在可見光圖像,紅外圖像和融合圖像上應用了與YOLOv3集成的行人檢測器。其中融合圖像是通過我們提出的方法獲得的。由于在弱光或夜間環(huán)境下能見度較低,所以錯過了行人。相比之下,在紅外圖像和融合圖像中檢測到錯過的行人(如圖12所示)。圖像中標記的百分比數(shù)字表示檢測結(jié)果的置信度值,數(shù)值越高越好。在大多數(shù)情況下,融合圖像中的行人檢測置信度值比紅外圖像中的高,除了圖像b(81%對 91%)行人區(qū)域與背景物體重疊的情況外。我們所提出的融合方法在亮度和細節(jié)紋理保留方面具有優(yōu)勢,這優(yōu)化了行人檢測性能。
表4中顯示了兩個序列上的CPU時間戳比較。序列的圖像大小為270×360,表中的每個值表示每種方法的CPU時間戳在兩個序列上的平均值和標準偏差。結(jié)果表明,基于多尺度變換的方法效率高且穩(wěn)定。但是,由于算法的復雜性,一些方法(例如ASR,NSCT_SF_PCNN和DDCTPCA)也相對較慢。我們的方法大約需要19s來處理一對圖像。對于實時操作,代碼傳輸和具有硬件加速的并行計算是必要的,這仍然是未來工作的主要部分。
5.結(jié)論
在本文中,我們提出了一種基于深度學習的紅外和可見光圖像融合方法。在我們的方法中,采用基于卷積神經(jīng)網(wǎng)絡的特征分類方法生成權(quán)重圖,該權(quán)重圖表示每個源像素從一對源圖像融合的概率。通過應用所提出的方法,可以立即找出圖像融合中的關(guān)鍵問題(即活動水平測量和融合規(guī)則設(shè)計)。通過在公共基準數(shù)據(jù)集上使用對象檢測器對性能進行比較,證明了該方法的視覺質(zhì)量。定量評估結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡的融合方法在噪聲,失真和強度差異方面比人工設(shè)計的方法更有效。我們相信我們的方法是非常有效且穩(wěn)健的預注冊多光譜圖像的融合方法。未來工作中,我們打算為圖像融合開發(fā)新的深度神經(jīng)網(wǎng)絡,并通過使用并行計算單元實現(xiàn)該算法來提高融合過程的效率。
作者貢獻:JP提出了這個想法并實施了實驗。YC在數(shù)據(jù)集準備和驗證方面進行了合作。HS監(jiān)督研究并進行了修訂和改進。
資金:本材料基于貿(mào)易,工業(yè)和能源部(韓國MOTIE)在工業(yè)技術(shù)創(chuàng)新計劃(10080619)下的支持。利益沖突:作者聲明沒有利益沖突。
參考文獻
[1]Zhang,B.;Lu,X.;Pei, H.; Zhao, Y. A fusion algorithm for infrared and visible images based on saliency analysis and non-subsampled Shearlet transform. Infrared Phys. Technol. 2015, 73, 286-297. [CrossRef]
[2]Jin, H.; Wang, Y A fusion method for visible and infrared images based on contrast pyramid with teaching learning based optimization. Infrared Phys. Technol. 2014, 64,134-142. [CrossRef]
[3]Cui, G.; Feng, H.; Xu, Z.; Li, Q.; Chen, Y. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition. Opt. Commun. 2015, 341,199-209. [CrossRef]
[4]Fan, X.; Shi, P.; Ni, J.; Li, M. A thermal infrared and visible images fusion based approach for multi target detection under complex environment. Math. Probl. Eng. 2015. [CrossRef]
[5]Du, J.; Li, W.; Xiao, B.; Nawaz, Q. Union Laplacian pyramid with multiple features for medical image fusion. Neurocomputing 2016,194, 326-339. [CrossRef]
[6]Toet, A. A morphological pyramidal image decomposition. Pattern Recognit. Lett. 1989,9,255-261. [CrossRef]
[7]Singh, R.; Khare, A. Fusion of multimodal medical images using Daubechies complex wavelet transform c a multiresolution approach. Inf. Fusion 2014, 19, 49-60. [CrossRef]
[8]Li, H.; Manjunath, B.; Mitra, S. Multi sensor image fusion using the wavelet transform. Graph. Models Image Process. 1995, 57, 235-245. [CrossRef]
[9]Lewis, J.; Callaghan, O.; Nikolov, S.; Bull, D.; Canagarajah, N. Pixel- and region-based image fusion with complex wavelets. Inf. Fusion 2007, 8,119-130. [CrossRef]
[10]Yang, L.; Guo, B.; Ni, W. Multimodality medical image fusion based on multiscale geometric analysis of contourlet transform. Neurocomputing 2008, 72, 203-211. [CrossRef]
[11]Zheng, L.; Bhatnagar, G.; Wu, Q. Directive contrast based multimodal medical image fusion in nsct domain. IEEE Trans. Multimedia 2013,15,1014-1024.
[12]Wang, L.; Li, B.; Tan, L. Multimodal medical volumetric data fusion using 3-d discrete shearlet transform and global-to-local rule. IEEE Trans. Biomed. Eng. 2014, 61, 197-206. [CrossRef]
[13]Yang, B.; Li, S. Pixel-level image fusion with simultaneous orthogonal matching pursuit. Inf. Fusion 2012, 13, 10-19. [CrossRef]
[14]Li, S.; Yin, H.; Fang, L. Group-sparse representation with dictionary learning for medical image denoising and fusion. IEEE Trans. Biomed. Eng. 2012, 59, 3450-3459. [CrossRef]
[15]Liu, Y.; Wang, Z. Simultaneous image fusion and denosing with adaptive sparse representation. IET Image Process. 2015, 9, 347-357. [CrossRef]
[16]Ma, J.; Yu, W.; Liang, P.; Li, C.; Jiang, J. FusionGAN: A generative adversarial network for infrared and visible image fusion. Inf. Fusion 2019, 48, 11-26. [CrossRef]
[17]Shen, R.; Cheng, I.; Basu, A. Cross-scale coefficient selection for volumetric medical image fusion. IEEE Trans. Biomed. Eng. 2013, 60,1069-1079. [CrossRef]
[18]Liu, Y.; Liu, S.; Wang, Z. A general framework for image fusion based on multi-scale transform and sparse representation. Inf. Fusion 2015, 24,147-164. [CrossRef]
[19]LeCun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. Gradient-based leaning applied to document recognition. Proc. IEEE 1998, 86, 2278-2324. [CrossRef]
[20]Jin, X.; Jiang, Q.; Yao, S.; Zhou, D.; Nie, R.; Hai, J.; He, K. A survey of infrared and visible image fusion methods. Infrared Phys. Technol. 2017, 85,478-501. [CrossRef]
[21]DLP: Deep Learning Platform. Available online: http://www.ai-dlp.com/ (accessed on 1 March 2019).
[22]Glorot, X.; Bengio, Y. Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the thirteenth International Conference on Artificial Intelligence and Statistics, Sardinia, Italy, 13-15 May 2010.
[23]Liu, J.; Yin, Q.; Guo, P. A New Strategy to Improve Image Fusion Effect. In Proceedings of the 2016 International Conference on Machine Learning and Cybernetics, Dalian, China, 13-16 August 2006; pp. 3770-3775.
[24]FigShare. Available online: https://figshare.com/articles/TNO_Image_Fusion_Dataset/1008029 (accessed on 1 March 2019).
[25]OTCBVS Benchmark Dataset Collection. Available online: http://vcipl-okstate.org/pbvs/bench/ (accessed on 1 March 2019).
[26]Multispectral Object Detection Dataset. Available online: https://www.mLt.u-tokyo.ac.jp/projects/mil_ multispectral/ (accessed on 1 March 2019).
[27]YOLO: Real-Time Object Detection. Available online: https://pjreddie.com/darknet/yolo/ (accessed on 1 March 2019).
[28]Han, Y.; Cai, Y.; Cao, Y.; Xu, X. A new image fusion performance metric based on visual information fidelity. Inf. Fusion 2013,14,127-135. [CrossRef]
[29]Chen, Y.; Blum, R. A new automated quality assessment algorithm for image fusion. Image Vis. Comput. 2009,27,1421-1432. [CrossRef]
[30]Roberts, J.; Van Aardt, J.; Ahmed, F. Assessment of image fusion procedures using entropy, image quality, and multispectral classification. J. Appl. Remote Sens. 2008, 2, 023522.
[31]Qu, G.; Zhang, D.; Yan, P. Information measure for performance of image fusion. Electron. Lett. 2002, 38, 313-315. [CrossRef]
[32]Wang, Z.; Bovik, A. A universal image quality index. IEEE Signal Process. Lett. 2002, 9, 81-84. [CrossRef]
[33]Ma, J.; Ma, Y.; Li, C. Infrared and visible image fusion methods and applications: A survey. Inf. Fusion 2019, 14,153-178. [CrossRef]
2.外文資料原文(與課題相關(guān),至少1萬印刷符號以上):
Article
A New Deep Learning Based Multi-Spectral Image Fusion Method
Jingchun Piao *, Yunfan Chen and Hyunchul Shin *
Department of Electrical Engineering, Hanyang University, Ansan 15588, Korea; chenyunfan@hanyang.ac.kr
* Correspondence: kcpark1011@hanyang.ac.kr (J.P.); shin@hanyang.ac.kr (H.S.); Tel.: +82-31-400-4083 (J.P.); +82-31-400-5176 (H.S.)
Received: 12 May 2019; Accepted: 3 June 2019; Published: 5 June 2019
Abstract: In this paper, we present a new effective infrared (IR) and visible (VIS) image fusion method by using a deep neural network. In our method, a Siamese convolutional neural network(CNN) is applied to automatically generate a weight map which represents the saliency of each pixel for a pair of source images. A CNN plays a role in automatic encoding an image into a feature domain for classification. By applying the proposed method, the key problems in image fusion, which are the activity level measurement and fusion rule design, can be figured out in one shot. The fusion is carried out through the multi-scale image decomposition based on wavelet transform, and the reconstruction result is more perceptual to a human visual system. In addition, the visual qualitative effectiveness of the proposed fusion method is evaluated by comparing pedestrian detection results with other methods, by using the YOLOv3 object detector using a public benchmark dataset. The experimental results show that our proposed method showed competitive results in terms of both quantitative assessment and visual quality.
Keywords: image fusion; visible; infrared; convolutional neural network; Siamese network
1. Introduction
Infrared (IR) and visual (VIS) image fusion technology is utilized to generate a composite image from multiple spectral source images for combining complementary information of the same scene. The input source images are captured from different imaging modalities with different parameter settings. The fused image is expected to be more suitable for human perception than any of the individual input image. Due to this advantage, image fusion techniques have wide applications in image processing and computer vision areas to improve the visual ability of human and machine vision. The general framework of image fusion is extracting representative salient features from source images of the same scene, and then the salient features are integrated into a single image by a proper fusion method.
IR images are highly influenced by the external environment, such as light, fog, and smog. [1 , 2]. IR images are superior to VIS images in areas where the VIS image is invisible due to low-light conditions. [3 , 4]. Normal VIS imaging sensors capture the reflective properties of the objects, which can be edges and detail texture of objects. They are able to provide information for human visual perception. As stated above, due to differences in imaging mechanism, the intensities at the same pixel location in IR and VIS images often vary distinctly. A good IR and VIS image fusion method should be able to simultaneously keep the thermal radiation information in IR images and the texture detail information in VIS images.
In the last decade, many image processing methods have been proposed to extract salient features, such as multi-scale decomposition-based methods. In general, multi-scale decomposition consists of three steps, namely, decomposition, fusion, and reconstruction. Pyramids [5 , 6], wavelets [7-9], and shearlets [10-12] are the typical multi-scale transforms that are usually used in image fusion. Sparse coding is also a popular image encoding method, which has also been successfully applied to fuse multi-modality images [13-15]. With the prosperity of deep learning, using a convolutional neural network (CNN) or generative adversarial network (GAN) [16] has become a trend. In [16], a GAN-based method simultaneously keeps the radiation information from the IR images and the detail texture in VIS images. The drawback of this method is low computational efficiency.
One of the most important problems in image fusion is to calculate a weighted map that incorporates information about pixel activity from different source images. In most existing image fusion methods, the goal is two-fold: namely, activity level measurement and weight allocation. In a traditional transform domain fusion method, the sum of the absolute values of the decomposed coefficients is used to measure activity level, and the “selected maximum” or “weighted average” rule is applied to other sources, depending on the measure
收藏