湖泊水面雜物收集機(jī)器人-打撈河面垃圾(含CAD圖紙)
喜歡這套資料就充值下載吧。。。資源目錄里展示的都可在線預(yù)覽哦。。。下載后都有,,請(qǐng)放心下載,,文件全都包含在內(nèi),,【有疑問咨詢QQ:1064457796 或 1304139763】 =============================================喜歡這套資料就充值下載吧。。。資源目錄里展示的都可在線預(yù)覽哦。。。下載后都有,,請(qǐng)放心下載,,文件全都包含在內(nèi),,【有疑問咨詢QQ:1064457796 或 1304139763】 =============================================
1.外文資料翻譯譯文(約3000漢字):
文章
基于深度學(xué)習(xí)的多光譜圖像融合新方法
樸景春*,陳云帆和HyunchulSine*
漢陽(yáng)大學(xué)電氣工程系,韓國(guó)安山15588;chenyunfan@hanyang.ac.kr
*通訊:kcpark1011@hanyang.ac.kr(J.P.);shin@hanyang.ac.kr(HS);
電話:+82-31-400-4083(JP);+82-31-400-5176(H.S.)
收到:2019年5月12日;接受:2019年6月3日;發(fā)布時(shí)間:2019年6月5日
摘要:在本文中,我們通過使用深度神經(jīng)網(wǎng)絡(luò)提出了一種新的且有效的紅外(IR)和可見光(VIS)圖像融合方法。在我們的方法中,使用暹羅卷積神經(jīng)網(wǎng)絡(luò)(CNN)自動(dòng)生成權(quán)重圖,該權(quán)重圖表示一對(duì)源圖像的每個(gè)像素的顯著性。卷積神經(jīng)網(wǎng)絡(luò)在將圖像自動(dòng)編碼到特征域以進(jìn)行分類中發(fā)揮作用。通過應(yīng)用所提出的方法,可以一次性解決圖像融合中的關(guān)鍵問題,即活動(dòng)水平測(cè)量和融合規(guī)則設(shè)計(jì)。通過基于小波變換的多尺度圖像分解進(jìn)行融合,重構(gòu)結(jié)果對(duì)人眼視覺系統(tǒng)更具感知力。另外,通過使用公共基準(zhǔn)數(shù)據(jù)集 YOLOv3 對(duì)象檢測(cè)器和將行人檢測(cè)結(jié)果與其他方法進(jìn)行比較,我們?cè)u(píng)估了所提出的融合方法的視覺定性效果。實(shí)驗(yàn)結(jié)果表明,我們提出的方法在定量評(píng)估和視覺質(zhì)量方面均顯示出競(jìng)爭(zhēng)優(yōu)勢(shì)。
關(guān)鍵詞:圖像融合;可見光;紅外線;卷積神經(jīng)網(wǎng)絡(luò);暹羅網(wǎng)絡(luò)
1.介紹
利用紅外(IR)和可見光(VIS)圖像融合技術(shù)從多個(gè)光譜源圖像生成合成圖像,以組合同一場(chǎng)景的互補(bǔ)信息。輸入源圖像是使用不同的參數(shù)設(shè)置從不同的成像模態(tài)捕獲的。預(yù)期的融合圖像比任何單個(gè)輸入圖像都更適合人類感知。由于該優(yōu)點(diǎn),圖像融合技術(shù)在圖像處理和計(jì)算機(jī)視覺領(lǐng)域廣泛的應(yīng)用以提高人和機(jī)器視覺的視覺能力。圖像融合的一般框架是從同一場(chǎng)景的源圖像中提取代表性的顯著特征,然后通過適當(dāng)?shù)娜诤戏椒▽⑦@些顯著特征整合到單個(gè)圖像中。
紅外圖像受光線,霧氣和煙霧等外部環(huán)境的影響很大。[1,2].但在弱光條件下無法看到可見光圖像的區(qū)域,紅外圖像優(yōu)于可見光圖像。[3,4].普通的可見光成像傳感器能捕獲物體的反射特性,這些特性可以是物體的邊緣和細(xì)節(jié)紋理。它們能夠?yàn)槿祟惖囊曈X感知提供信息。如上所述,由于成像機(jī)制的差異,紅外和可見光圖像中同一像素位置的強(qiáng)度通常會(huì)有明顯的不同。一種好的紅外和可見光圖像融合方法應(yīng)該能夠同時(shí)保留紅外圖像中的熱輻射信息和可見光圖像中的紋理細(xì)節(jié)信息。
在過去的十年中,已經(jīng)提出了許多圖像處理方法來提取顯著特征,例如基于多尺度分解的方法。通常,多尺度分解包括三個(gè)步驟,即分解,融合和重建。錐波[5,6],小波[7-9]和剪切波[10-12]是圖像融合中常用的典型多尺度變換。稀疏編碼也是一種流行的圖像編碼方法,也已成功應(yīng)用于融合多模態(tài)圖像[13-15]。隨著深度學(xué)習(xí)的興起,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)或生成性對(duì)抗網(wǎng)絡(luò)(GAN)[16]已經(jīng)成為一種趨勢(shì)。在[16]中,一種基于生成性對(duì)抗網(wǎng)絡(luò)的方法同時(shí)保留了紅外圖像的輻射信息和可見光圖像中的細(xì)節(jié)紋理。該方法的缺點(diǎn)是計(jì)算效率低。
圖像融合中最重要的問題之一是計(jì)算一個(gè)包含來自不同源圖像像素活動(dòng)信息的加權(quán)映射。在大多數(shù)現(xiàn)有的圖像融合方法中,有兩方面的目標(biāo):即活動(dòng)水平測(cè)量和權(quán)重分配。在傳統(tǒng)的變換域融合方法中,分解系數(shù)的絕對(duì)值之和用于測(cè)量活動(dòng)水平,并根據(jù)獲取的測(cè)量結(jié)果,將“選擇的最大值”或“加權(quán)平均值”規(guī)則應(yīng)用于其他來源。顯然,這種活動(dòng)性測(cè)量和權(quán)重分配容易受到多種因素的影響,例如噪音,失真和強(qiáng)度差異。為了提高收斂性,最近的文章[17,18]中提出了幾種活動(dòng)水平設(shè)計(jì)和權(quán)重分配方法。但是,要設(shè)計(jì)出可行的活動(dòng)水平測(cè)量或權(quán)重分配策略來實(shí)際考慮所有收斂的關(guān)鍵問題并不容易。此外,在許多融合方法中,這兩個(gè)階段是單獨(dú)設(shè)計(jì)的,沒有有效的組合,這極大地限制了算法的性能。
在本文中,我們從不同的角度來解決這一問題,以克服(1)設(shè)計(jì)穩(wěn)健活動(dòng)水平測(cè)量和(2)權(quán)重分配策略的困難。具體來說,它訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)[19]來將一個(gè)圖像色塊編碼為特征,從而將源圖像直接映射到權(quán)重圖。CNN是一種多層神經(jīng)網(wǎng)絡(luò),它與通常的人工神經(jīng)網(wǎng)絡(luò)不同。它通過多層連接學(xué)習(xí)圖像數(shù)據(jù)的分層特征表示。具體來說,每個(gè)圖層都包含一定數(shù)量的特征圖,可以將其視為該圖層中特征維度的大小。特征圖中的每個(gè)權(quán)重稱為神經(jīng)元。應(yīng)用于神經(jīng)元的操作,例如卷積,激活和最大池,用于連接多層特征圖[19]。
針對(duì)圖像融合中的兩個(gè)主要困難,我們提出了一種新的基于深度學(xué)習(xí)的有效的卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練框架,該框架將活動(dòng)測(cè)量和權(quán)重圖生成相結(jié)合以進(jìn)行圖像融合。本文的主要貢獻(xiàn)可歸納如下:
(1)我們?cè)O(shè)計(jì)了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方案,以測(cè)量活動(dòng)量并根據(jù)源圖像對(duì)中每個(gè)像素的顯著性自動(dòng)生成權(quán)重圖。
(2)通過使用三階小波變換將源圖像對(duì)分解為低頻子帶和高頻子帶,并通過使用縮放后的權(quán)重圖重建小波圖像來獲得融合圖像。它產(chǎn)生的不良偽影更少,與人類的視覺感知具有良好的一致性。
(3)我們從數(shù)量和質(zhì)量?jī)蓚€(gè)角度系統(tǒng)地分析了實(shí)驗(yàn)結(jié)果。對(duì)12個(gè)基準(zhǔn)數(shù)據(jù)進(jìn)行了定量評(píng)估,并將結(jié)果與18種代表性現(xiàn)有技術(shù)方法的結(jié)果進(jìn)行了比較。此外,通過在公共基準(zhǔn)數(shù)據(jù)集上使用YOLOv3對(duì)象檢測(cè)器比較融合后的行人檢測(cè)結(jié)果,評(píng)估了所提出融合方法的視覺定性效果。
2.相關(guān)作品
[20]中概述了最新的紅外和可見光圖像融合技術(shù)。近年來,圖像融合技術(shù)已成為一個(gè)熱門的研究領(lǐng)域,紅外和可見光圖像融合技術(shù)是其中至關(guān)重要的組成部分。根據(jù)所使用的算法,通??梢詫⑺鼈兎譃槿箢悾合袼丶?jí),特征級(jí)和決策級(jí)。
首先,基于像素級(jí)的方法可以分為基于空間域的方法和基于變換域的方法。典型的基于空間域的算法有加權(quán)平均法和基于塊的方法。著名的基于變換的紅外和可見光融合的算法有錐波,輪廓波,非下采樣剪切波變換以及其他基于分解和重建的方法。除了上述方法外,還有其他多種紅外和可見光圖像融合方法,例如稀疏表示(SR),馬爾可夫隨機(jī)場(chǎng)(MRF)和基于主成分分析的方法。基于像素級(jí)的方法是整個(gè)圖像融合領(lǐng)域的一個(gè)研究熱點(diǎn)。
其次,基于特征級(jí)的方法依靠圖像的合成特征和結(jié)構(gòu)特征,例如邊緣,角點(diǎn)和紋理,來分割圖像或從圖像的局部區(qū)域獲得目標(biāo)分布信息。然后,運(yùn)用一定的融合規(guī)則,從源圖像中提取信息并進(jìn)行組合。典型的方法有基于對(duì)象檢測(cè),邊緣提取,顯著圖提取和圖像分割?;谔卣骷?jí)的融合方法需要手動(dòng)選擇特征以及人工設(shè)計(jì)融合規(guī)則,并且融合性能高度依賴于特征和融合規(guī)則。
第三,決策級(jí)融合是這三個(gè)級(jí)別中最先進(jìn)的選項(xiàng),它根據(jù)設(shè)計(jì)的融合規(guī)則,基于判別信息對(duì)目標(biāo)進(jìn)行融合。該融合決策基于學(xué)習(xí)的分類器,而分類器通常量化分類的可靠性。決策級(jí)的缺點(diǎn)是對(duì)分類結(jié)果的檢測(cè)高度依賴。
本文的其余部分安排如下。第3節(jié)介紹了基于活動(dòng)水平自動(dòng)測(cè)量和權(quán)重圖生成的圖像融合方案。第4節(jié)討論了性能評(píng)估和結(jié)果分析。最后,第5節(jié)總結(jié)了結(jié)論。
3.基于活動(dòng)水平自動(dòng)測(cè)量和權(quán)重圖生成的融合方案
本工作的目的是開發(fā)一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方案來測(cè)量活動(dòng)水平,并根據(jù)源圖像中每個(gè)像素的顯著性屬性自動(dòng)生成權(quán)重圖。在這項(xiàng)工作中,我們主要關(guān)注紅外和可見光圖像預(yù)注冊(cè)的情況。從圖1可以看出本文提出的方法包括三個(gè)主要步驟:(1)通過訓(xùn)練暹羅網(wǎng)絡(luò)生成卷積神經(jīng)網(wǎng)絡(luò)模型,(2)從一對(duì)紅外和可見光圖像生成權(quán)重圖,以及(3)圖像分解和圖像重建。我們?cè)O(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方案,以生成兩類分類模型,該模型可以計(jì)算每一類的概率。大量大小為16×16的紅外和可見光圖像色塊用作訓(xùn)練數(shù)據(jù)集。在權(quán)重圖生成階段,輸入的是一對(duì)紅外和可見光圖像,并使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型為該圖像對(duì)生成權(quán)重圖。權(quán)重圖是訓(xùn)練階段的輸出。將輸入圖像對(duì)分解為低頻子帶和高頻子帶,并縮放權(quán)重圖以平均分解后的圖像對(duì)。最后,通過加權(quán)平均和重建生成融合圖像。
3.1CNN設(shè)計(jì)
在本研究中,我們將紅外和可見光圖像融合視為兩類分類任務(wù)。目的是通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型來生成范圍為0到1的權(quán)重圖。權(quán)重圖中的系數(shù)可以看作是表示加權(quán)平均步驟中源圖像中每個(gè)對(duì)應(yīng)像素強(qiáng)度值的部分的融合規(guī)則。圖2顯示了所提出方法的權(quán)重圖生成方案。輸入圖像對(duì)通過暹羅網(wǎng)絡(luò)進(jìn)行編碼,并為其賦予一個(gè)代表每個(gè)源(VIS或IR)的顯著性的分?jǐn)?shù)。然后,使用Softmax計(jì)算的概率成為權(quán)重圖中的權(quán)重值。紅外圖像中具有熱輻射信息的像素或可見圖像中屬于細(xì)節(jié)紋理的像素獲得更高的概率。通過使用預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,計(jì)算出與輸入圖像對(duì)大小相同的權(quán)重圖。在權(quán)重圖W中,較亮的像素表示接近1的值,而較暗的像素表示接近0的值。例如,如果權(quán)重圖中的pixel(x,y)的值為0.95,則IR的權(quán)重像素為95%,在(x,y),VIS像素的權(quán)重為5%。平均像素值由IR_VIS(x,y)=IR(x,y)*W(x,y)+VIS(x,y)*(1-W(x,y))計(jì)算得出,其中IR_VIS(x,y),IR(x,y),VIS(x,y)和W(x,y)表示加權(quán)平均圖像,IR圖像,VIS圖像的像素值以及在某個(gè)位置(x,y)。
在這項(xiàng)工作中,選擇了一個(gè)暹羅神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)模型。暹羅神經(jīng)網(wǎng)絡(luò)被設(shè)計(jì)為孿生網(wǎng)絡(luò),它們的最后一層通過距離層連接,該距離層經(jīng)過訓(xùn)練以預(yù)測(cè)兩個(gè)圖像是否屬于同一類。例如,如圖3所示的卷積神經(jīng)網(wǎng)絡(luò)的兩個(gè)分支沒什么不同,但是是同一網(wǎng)絡(luò)的兩個(gè)副本。因此,它們共享相同的參數(shù)。圖1和圖2通過卷積神經(jīng)網(wǎng)絡(luò)編碼為固定長(zhǎng)度的特征向量。如果兩個(gè)輸入圖像來自同一類,則它們的特征向量也必須相似,而如果兩個(gè)輸入圖像不同,則它們的特征向量也將不同。因此,在圖3的情況下,兩個(gè)扁平化的全連接特征向量之間的逐個(gè)元素的絕對(duì)差必須非常不同。然后,將兩個(gè)網(wǎng)絡(luò)的完全連接的層饋送到基于歐幾里得距離的對(duì)比損失函數(shù),該函數(shù)計(jì)算兩個(gè)類別之間的相似度。歐幾里得距離越小,相似度越高。這是暹羅網(wǎng)絡(luò)的主要概念。
圖4展示了建議的融合方法中使用的卷積神經(jīng)網(wǎng)絡(luò)模型。暹羅網(wǎng)絡(luò)的每個(gè)分支中有3個(gè)卷積層和1個(gè)最大池層。表1給出了提出的卷積神經(jīng)網(wǎng)絡(luò)的具體參數(shù)。選擇圖像色塊大小非常重要。塊大小和分類性能之間存在折衷關(guān)系。神經(jīng)網(wǎng)絡(luò)編碼的圖像特征越多,塊尺寸越大,準(zhǔn)確率越高,但這會(huì)顯著增大全連通層的尺寸,影響效率。另一方面,使用小塊的訓(xùn)練精度不高??紤]到上述問題和數(shù)據(jù)集圖像的大小,我們?cè)谶@項(xiàng)工作中使用了16×16的塊。我們拼接了每個(gè)分支獲得的256個(gè)特征圖,并將其與256維特征向量完全連接。然后,將二維矢量進(jìn)一步與第一完全連接層完全連接,進(jìn)行Softmax操作。最后,將二維矢量反饋給雙向Softmax層,生成兩個(gè)類別的概率分?jǐn)?shù)。完全連接操作可以看成是卷積,其內(nèi)核大小等于輸入圖像的大小。假設(shè)輸入圖像的大小為h×w,則輸出權(quán)重圖的大小為[ceil(h/2-8+1]×[ceil(w/2-8+1],因?yàn)檩斎朐谧畲蟪夭僮髦?,圖像大小被減小為一半,從16×16到8×8。從概念上講,卷積,最大池和連接起了特征提取器的作用。然后,完全連接的層和Softmax函數(shù)將概率值介于0和1之間的圖像色塊對(duì)分類。
3.2訓(xùn)練
從TNO圖像融合數(shù)據(jù)集和OTBVS基準(zhǔn)數(shù)據(jù)集中收集用于訓(xùn)練的圖像色塊。我們使用2000幅紅外和可見光圖像對(duì),將它們分成小塊進(jìn)行訓(xùn)練,而不是使用整個(gè)圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。通過這樣做,我們可以使用任意大小的圖像,并且為了提高效率,我們提取步幅為2個(gè)像素的圖像色塊,而不用滑動(dòng)窗口的方式進(jìn)行處理。每個(gè)訓(xùn)練示例都是來自源圖像的圖像色塊對(duì)。令p1為紅外的補(bǔ)塊,p2為VIS的相應(yīng)補(bǔ)??;然后,如果訓(xùn)練標(biāo)簽{p1,p2}的標(biāo)簽為1,則將其定義為一個(gè)正例。相反,如果標(biāo)簽為0,則將該示例定義為一個(gè)負(fù)例。訓(xùn)練數(shù)據(jù)集包含400,000個(gè)正樣本和400,000個(gè)負(fù)樣本。
Softmax損失函數(shù)用作所提出網(wǎng)絡(luò)的目標(biāo)。采用隨機(jī)梯度下降法(SGD)對(duì)迭代次數(shù)為50000的損失函數(shù)進(jìn)行最小化。批次大小設(shè)置為128以進(jìn)行培訓(xùn)。我們?cè)诹餍械纳疃葘W(xué)習(xí)平臺(tái)上訓(xùn)練了我們的暹羅網(wǎng)絡(luò)[21],它基于Caffe庫(kù)。每個(gè)卷積層的初始權(quán)重使用Xavier算法設(shè)置[22],該算法根據(jù)輸入和輸出神經(jīng)元的數(shù)量自適應(yīng)地確定初始化的規(guī)模。每層中的偏差均初始化為0。我們?yōu)樗袑釉O(shè)置了相同的傾斜速率0.0001。利用800000個(gè)訓(xùn)練實(shí)例,經(jīng)過50000次迭代,通過損失函數(shù)優(yōu)化,我們得到暹羅網(wǎng)絡(luò)模型。該模型包含來自網(wǎng)絡(luò)各層的所有權(quán)重和偏差。通過迭代,Softmax損失的減少趨勢(shì)如圖5所示。
3.3最終權(quán)重圖生成和融合方案
通過使用大量紅外和可見光圖像色塊對(duì)進(jìn)行訓(xùn)練來生成卷積神經(jīng)網(wǎng)絡(luò)模型。由于卷積神經(jīng)網(wǎng)絡(luò)的輸出是使用Softmax分類器的兩類概率分布,因此獲得了權(quán)重圖w。在訓(xùn)練階段,由于最大池的內(nèi)核大小和步幅為2×2和2,因此權(quán)重圖的大小如3.1節(jié)中所述減小??紤]到這一點(diǎn),我們知道w中的每個(gè)相鄰系數(shù)都表示大小為16×16的圖像路徑對(duì)的顯著性。為了得到與源圖像大小相同的權(quán)重圖W,我們w的系數(shù)重新分配到2個(gè)像素步長(zhǎng)的16×16色塊,取重疊色塊的平均值??梢詫⑵湟暈榉聪蜃畲蟪夭僮?。圖6顯示的是權(quán)重圖生成方案的示例,權(quán)重圖w的大小為2×2。例如,假設(shè)權(quán)重圖w由四個(gè)像素組成,其值分別為R,O,Y和G。然后,最終的權(quán)重圖通過將w中的每個(gè)像素值分配給跨度為2個(gè)像素的16×16色塊來獲得W。然后對(duì)多個(gè)色塊重疊的像素值進(jìn)行平均計(jì)算。例如,在圖6,則W中中心像素的值為(R+O+Y+G)/4。如本節(jié)所述3.1,當(dāng)源圖像的尺寸為h×w時(shí),輸出權(quán)重圖的尺寸為[ceil(h/2-8)+1]×[ceil(w/2)?8+1]。在反向計(jì)算中,權(quán)重圖的大小應(yīng)為[(ceil(h/2?8+1)×2+14]×[(ceil(w/2?8+1)×2+14],最終等于源圖像的大小。
紅外和可見光圖像是通過不同的成像方式捕獲的,而變換域融合方法則適合于產(chǎn)生更少的意外偽像,從而與人類的視覺感知保持良好的一致性。為了解決這個(gè)問題,我們通過使用3階2維Haar小波變換來分解紅外和可見光圖像[23],然后將輸入圖像對(duì)分解為低頻和高頻子帶。由于在每個(gè)級(jí)別的小波變換期間都會(huì)對(duì)原始圖像的尺寸進(jìn)行下采樣,因此權(quán)重圖會(huì)按比例縮放以匹配下采樣圖像的尺寸。最后,通過重建3階小波圖像獲得融合圖像。級(jí)別數(shù)取決于要分解的圖像大小。在這項(xiàng)研究中,大多數(shù)圖像的尺寸為350-400×(400-450)像素。在每個(gè)級(jí)別對(duì)圖像進(jìn)行降采樣并進(jìn)行低通濾波。如果級(jí)別數(shù)太大,由于缺少高頻分量,圖像可能會(huì)模糊,從而影響重建性能。通過考慮這些因素來選擇級(jí)別數(shù)?;谛〔ㄗ儞Q的圖像分解和重構(gòu)的詳細(xì)內(nèi)容在[23]。圖7中說明了基于小波變換的融合方案。
4.實(shí)驗(yàn)結(jié)果
4.1基準(zhǔn)數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境
為了評(píng)估所提出方法的性能,我們從TNO圖像融合數(shù)據(jù)集和OTBVS基準(zhǔn)數(shù)據(jù)集中收集了用于訓(xùn)練和融合的圖像。TNO圖像融合數(shù)據(jù)集包含不同軍事相關(guān)場(chǎng)景的多光譜圖像,并在不同的多波段相機(jī)系統(tǒng)中注冊(cè)[24].OTCBVS是一個(gè)公共基準(zhǔn)測(cè)試數(shù)據(jù)集,用于測(cè)試和評(píng)估新穎和最新的計(jì)算機(jī)視覺算法[25].圖8中顯示了來自兩個(gè)圖像融合數(shù)據(jù)集的十二對(duì)測(cè)試圖像對(duì).可見光和紅外圖像嚴(yán)格對(duì)齊,以避免融合圖像中出現(xiàn)重影偽影。此外,我們使用了東京多光譜目標(biāo)檢測(cè)數(shù)據(jù)集[26]以評(píng)估所提出的方法在低能見度情況下行人檢測(cè)的有效性。
在Linux操作系統(tǒng)下,我們使用了一臺(tái)包含Intel i7 core CPU,16GB RAM(隨機(jī)存取存儲(chǔ)器)的計(jì)算機(jī)進(jìn)行了卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。NVIDIA TITAN X GEFORCE GTX GPU(美國(guó)加利福尼亞州 NVDIA)用于加速培訓(xùn)過程。融合實(shí)驗(yàn)是在具有Intel i7 core CPU和8GB內(nèi)存的Windows系統(tǒng)上進(jìn)行的,并采用MATLAB實(shí)現(xiàn)。為了進(jìn)行客觀的性能評(píng)估,我們?cè)谕粋€(gè)系統(tǒng)上運(yùn)行YOLOv3對(duì)象檢測(cè)器[27]和進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
4.2性能評(píng)估
多光譜圖像融合技術(shù)已經(jīng)在目標(biāo)檢測(cè),目標(biāo)跟蹤和監(jiān)視等多個(gè)領(lǐng)域廣泛應(yīng)用。然而,實(shí)際應(yīng)用在很大程度上取決于圖像融合方法的質(zhì)量。因此,對(duì)融合性能的評(píng)估應(yīng)采用定性和定量相結(jié)合的方式[28]。為了評(píng)估各種紅外和可見光圖像融合方法的性能,人們提出了許多評(píng)估方法,并可歸類為主觀方法和客觀方法[29]。主觀評(píng)估方法在基于視覺感知的融合圖像質(zhì)量評(píng)估中起著重要作用。主觀標(biāo)準(zhǔn)包括圖像細(xì)節(jié),對(duì)象完整性和圖像失真。盡管如此,最直接的主觀評(píng)估方法是在融合圖像上應(yīng)用特定的對(duì)象檢測(cè)器,正如本研究中所進(jìn)行的那樣。
相反,客觀評(píng)估方法可以定量評(píng)估圖像融合的性能。它們與視覺感知非常一致,不容易被觀察者偏頗。近年來,人們提出了多種基于融合度量的客觀方法。它們可以分為基于信息論的方法,基于圖像結(jié)構(gòu)相似性的方法,基于圖像特征的方法和基于人類感知的方法。實(shí)驗(yàn)中引入并利用了幾種代表性的圖像融合方法評(píng)估指標(biāo)。熵(EN)和互信息(MI)是典型的基于信息的方法。根據(jù)信息論,圖像的熵表示圖像內(nèi)的信息量[30]。互信息度量?jī)蓚€(gè)圖像之間的依賴性。更具體地說,它量化了源圖像傳輸?shù)饺诤蠄D像的信息量[31]。圖像的結(jié)構(gòu)相似性(SSIM)是一種感知度量,它量化了處理造成的質(zhì)量損失[32]?;谔荻刃畔⒌亩攘縌^ab/f[30]量化了從源圖像傳輸?shù)饺诤蠄D像的邊緣信息量。視覺信息保真度(VIF)是一種基于人類感知的度量[28],它解決了人類視覺系統(tǒng)提取的圖像信息的概念。對(duì)于上述每個(gè)評(píng)估指標(biāo),較大的值表示較好的融合結(jié)果。
4.3結(jié)果分析
我們選擇了18種具有代表性的現(xiàn)有技術(shù)方法(這些方法在最近的論文[33]中進(jìn)行了調(diào)查)并與我們所提出的方法進(jìn)行了可見光和紅外融合性能的比較。本文選擇現(xiàn)有技術(shù)方法的主要?jiǎng)訖C(jī)有兩個(gè):(1)本文調(diào)查的現(xiàn)有技術(shù)方法具有代表性,并且所有現(xiàn)有技術(shù)方法的測(cè)試代碼和評(píng)估指標(biāo)均可用于性能評(píng)估。(2)用于性能評(píng)估和CPU時(shí)間測(cè)量的測(cè)試圖像在覆蓋范圍和數(shù)量上是足夠的。在[32]中典型的調(diào)查方法有LP,Wavelet,NSCT3,雙樹多分辨率離散余弦變換(DTMDCT),交叉雙邊濾波器(CBF),混合多尺度分解(HMSD),基于引導(dǎo)濾波的融合(GFF),基于各向異性擴(kuò)散的融合(ADF),ASR,LP和SR(LPSR),方向信息驅(qū)動(dòng)的PCNN(OI-PCNN),NSCT域中SF驅(qū)動(dòng)的PCNN(NSCT-SF-PCNN),定向離散余弦變換和PCA(DDCTPCA),F(xiàn)PDE,基于視覺顯著性的兩尺度圖像融合(TSIFVS),局部邊緣保留LC(LEPLC),梯度轉(zhuǎn)移融合(GTF)和IFEVIP的兩尺度圖像融合。LP,Wavelet,NSCT,DTMDCT,CBF,HMSD,GFF和ADF是基于多尺度變換的典型方法,ASR和LPSR屬于基于SR的方法,OIPCNN和NSCT-SF-PCNN是基于神經(jīng)網(wǎng)絡(luò)的典型方法,DDCTPCA和FPDE是典型的基于子空間的方法,TSIFVS和LEPLC是典型的基于顯著性的方法,GTF和IFEVIP屬于其他方法類。
我們?cè)趤碜訲NO數(shù)據(jù)集的12對(duì)具有代表性的可見光和紅外圖像上測(cè)試了18種參考方法和我們所提出的方法,以進(jìn)行定性和定量比較。測(cè)試的圖像對(duì)與在[31]中測(cè)試的圖像完全相同.我們使用了五個(gè)典型的評(píng)估指標(biāo),即EN,MI,SSIM,Q^AB/F和VIF,來評(píng)估不同的紅外和可見光圖像融合方法的性能。對(duì)于每個(gè)評(píng)估指標(biāo),值越大表示融合性能越好。
我們測(cè)試和審查了18種參考方法的主觀視覺質(zhì)量的比較,并提出了12種紅外、可見光和紅外圖像對(duì)的檢測(cè)方法。我們根據(jù)亮度保持,偽影和細(xì)節(jié)紋理的標(biāo)準(zhǔn)評(píng)估了定性性能。圖9顯示了18種參考方法和我們所提出的方法的定性性能。DTMDCT的融合結(jié)果通常比其他方法更亮?;赟R的方法在亮度保持和偽影角度上都有相似的結(jié)果。基于神經(jīng)網(wǎng)絡(luò)的方法的結(jié)果與不同的測(cè)試圖像缺乏一致性?;谧涌臻g的方法和基于顯著性的方法在亮度和細(xì)節(jié)紋理保留方面也產(chǎn)生了相似的融合結(jié)果。我們所提出的方法在保持熱輻射強(qiáng)度和細(xì)節(jié)紋理的同時(shí)展現(xiàn)出極好的視覺質(zhì)量,而不會(huì)帶來意想不到的偽影。
為了進(jìn)一步證明所提方法在細(xì)節(jié)紋理和亮度保持方面的定性性能,我們選擇了三種典型方法與我們的方法進(jìn)行比較(如圖10所示)。從基準(zhǔn)數(shù)據(jù)集中選擇了四組圖像,即Bunker,Nato_camp,Kaptein和Street。NSCT是具有代表性的基于多尺度變換的方法,ASR是典型的基于SR的方法,而NSCT-SF-PCNN是具有代表性的基于神經(jīng)網(wǎng)絡(luò)的方法。在可見和紅外圖像中,分別使用黃色和品紅色矩形來標(biāo)記要比較的圖像子區(qū)域。而在融合圖像中,使用紅色矩形來標(biāo)記相應(yīng)的子區(qū)域。(1)Bunker:與其他三種方法相比,我們所提出的方法較好地保留了可見光圖像的細(xì)節(jié)紋理和亮度。(2)Nato_camp和Kaptein:與其他方法相比,我們所提出的方法不僅能更充分地將人體輻射的熱能從紅外圖像轉(zhuǎn)移到融合圖像,還在融合圖像中保留了可見圖像中的垂直碼模式。(3)Street:在我們所提出的方法和其他方法相比,招牌的亮度明顯不同。從亮度和細(xì)節(jié)紋理保留的角度來看,我們所提出的方法的整體性能顯示出良好的視覺質(zhì)量,且不會(huì)產(chǎn)生偽影。
為了進(jìn)行客觀的數(shù)量比較,我們使用18種參考方法和我們所提出的方法報(bào)告了5個(gè)指標(biāo)的結(jié)果。
表2采用建議的方法展示了12個(gè)圖像對(duì)的度量值,而在表3中比較了各個(gè)度量的平均值,其中每列的粗體顯示的最大值表示最佳性能。為了更好地觀察指標(biāo)值趨勢(shì),表3如圖11中的條形圖所示。由于OIPCNN和LEPLC方法顯示較高的EN值,所以融合圖像包含了大量的信息。基于神經(jīng)網(wǎng)絡(luò)的方法在MI中取得了較好的效果,但在SSIM中效果較差。該結(jié)果與定性實(shí)驗(yàn)中的不同偽影相吻合。在Q^ab/f中,GFF和OIPCNN獲得了良好的性能,這表明從源圖像到融合圖像傳輸了大量的邊緣信息。LEPLC和GFF方法顯示出良好的VIF值,也與定性結(jié)果相符。我們所提出的方法在EN,SSIM,Q^ab/f和VIF中都產(chǎn)生了最好的結(jié)果。對(duì)于MI,基于PCNN的方法表現(xiàn)出了最好的性能,但在SSIM中基于PCNN的方法顯示出了較低的值。
除了定性和定量性能比較之外,我們還通過使用夜間行人檢測(cè)測(cè)試了該方法的有效性。我們分別在可見光圖像,紅外圖像和融合圖像上應(yīng)用了與YOLOv3集成的行人檢測(cè)器。其中融合圖像是通過我們提出的方法獲得的。由于在弱光或夜間環(huán)境下能見度較低,所以錯(cuò)過了行人。相比之下,在紅外圖像和融合圖像中檢測(cè)到錯(cuò)過的行人(如圖12所示)。圖像中標(biāo)記的百分比數(shù)字表示檢測(cè)結(jié)果的置信度值,數(shù)值越高越好。在大多數(shù)情況下,融合圖像中的行人檢測(cè)置信度值比紅外圖像中的高,除了圖像b(81%對(duì) 91%)行人區(qū)域與背景物體重疊的情況外。我們所提出的融合方法在亮度和細(xì)節(jié)紋理保留方面具有優(yōu)勢(shì),這優(yōu)化了行人檢測(cè)性能。
表4中顯示了兩個(gè)序列上的CPU時(shí)間戳比較。序列的圖像大小為270×360,表中的每個(gè)值表示每種方法的CPU時(shí)間戳在兩個(gè)序列上的平均值和標(biāo)準(zhǔn)偏差。結(jié)果表明,基于多尺度變換的方法效率高且穩(wěn)定。但是,由于算法的復(fù)雜性,一些方法(例如ASR,NSCT_SF_PCNN和DDCTPCA)也相對(duì)較慢。我們的方法大約需要19s來處理一對(duì)圖像。對(duì)于實(shí)時(shí)操作,代碼傳輸和具有硬件加速的并行計(jì)算是必要的,這仍然是未來工作的主要部分。
5.結(jié)論
在本文中,我們提出了一種基于深度學(xué)習(xí)的紅外和可見光圖像融合方法。在我們的方法中,采用基于卷積神經(jīng)網(wǎng)絡(luò)的特征分類方法生成權(quán)重圖,該權(quán)重圖表示每個(gè)源像素從一對(duì)源圖像融合的概率。通過應(yīng)用所提出的方法,可以立即找出圖像融合中的關(guān)鍵問題(即活動(dòng)水平測(cè)量和融合規(guī)則設(shè)計(jì))。通過在公共基準(zhǔn)數(shù)據(jù)集上使用對(duì)象檢測(cè)器對(duì)性能進(jìn)行比較,證明了該方法的視覺質(zhì)量。定量評(píng)估結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡(luò)的融合方法在噪聲,失真和強(qiáng)度差異方面比人工設(shè)計(jì)的方法更有效。我們相信我們的方法是非常有效且穩(wěn)健的預(yù)注冊(cè)多光譜圖像的融合方法。未來工作中,我們打算為圖像融合開發(fā)新的深度神經(jīng)網(wǎng)絡(luò),并通過使用并行計(jì)算單元實(shí)現(xiàn)該算法來提高融合過程的效率。
作者貢獻(xiàn):JP提出了這個(gè)想法并實(shí)施了實(shí)驗(yàn)。YC在數(shù)據(jù)集準(zhǔn)備和驗(yàn)證方面進(jìn)行了合作。HS監(jiān)督研究并進(jìn)行了修訂和改進(jìn)。
資金:本材料基于貿(mào)易,工業(yè)和能源部(韓國(guó)MOTIE)在工業(yè)技術(shù)創(chuàng)新計(jì)劃(10080619)下的支持。利益沖突:作者聲明沒有利益沖突。
參考文獻(xiàn)
[1]Zhang,B.;Lu,X.;Pei, H.; Zhao, Y. A fusion algorithm for infrared and visible images based on saliency analysis and non-subsampled Shearlet transform. Infrared Phys. Technol. 2015, 73, 286-297. [CrossRef]
[2]Jin, H.; Wang, Y A fusion method for visible and infrared images based on contrast pyramid with teaching learning based optimization. Infrared Phys. Technol. 2014, 64,134-142. [CrossRef]
[3]Cui, G.; Feng, H.; Xu, Z.; Li, Q.; Chen, Y. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition. Opt. Commun. 2015, 341,199-209. [CrossRef]
[4]Fan, X.; Shi, P.; Ni, J.; Li, M. A thermal infrared and visible images fusion based approach for multi target detection under complex environment. Math. Probl. Eng. 2015. [CrossRef]
[5]Du, J.; Li, W.; Xiao, B.; Nawaz, Q. Union Laplacian pyramid with multiple features for medical image fusion. Neurocomputing 2016,194, 326-339. [CrossRef]
[6]Toet, A. A morphological pyramidal image decomposition. Pattern Recognit. Lett. 1989,9,255-261. [CrossRef]
[7]Singh, R.; Khare, A. Fusion of multimodal medical images using Daubechies complex wavelet transform c a multiresolution approach. Inf. Fusion 2014, 19, 49-60. [CrossRef]
[8]Li, H.; Manjunath, B.; Mitra, S. Multi sensor image fusion using the wavelet transform. Graph. Models Image Process. 1995, 57, 235-245. [CrossRef]
[9]Lewis, J.; Callaghan, O.; Nikolov, S.; Bull, D.; Canagarajah, N. Pixel- and region-based image fusion with complex wavelets. Inf. Fusion 2007, 8,119-130. [CrossRef]
[10]Yang, L.; Guo, B.; Ni, W. Multimodality medical image fusion based on multiscale geometric analysis of contourlet transform. Neurocomputing 2008, 72, 203-211. [CrossRef]
[11]Zheng, L.; Bhatnagar, G.; Wu, Q. Directive contrast based multimodal medical image fusion in nsct domain. IEEE Trans. Multimedia 2013,15,1014-1024.
[12]Wang, L.; Li, B.; Tan, L. Multimodal medical volumetric data fusion using 3-d discrete shearlet transform and global-to-local rule. IEEE Trans. Biomed. Eng. 2014, 61, 197-206. [CrossRef]
[13]Yang, B.; Li, S. Pixel-level image fusion with simultaneous orthogonal matching pursuit. Inf. Fusion 2012, 13, 10-19. [CrossRef]
[14]Li, S.; Yin, H.; Fang, L. Group-sparse representation with dictionary learning for medical image denoising and fusion. IEEE Trans. Biomed. Eng. 2012, 59, 3450-3459. [CrossRef]
[15]Liu, Y.; Wang, Z. Simultaneous image fusion and denosing with adaptive sparse representation. IET Image Process. 2015, 9, 347-357. [CrossRef]
[16]Ma, J.; Yu, W.; Liang, P.; Li, C.; Jiang, J. FusionGAN: A generative adversarial network for infrared and visible image fusion. Inf. Fusion 2019, 48, 11-26. [CrossRef]
[17]Shen, R.; Cheng, I.; Basu, A. Cross-scale coefficient selection for volumetric medical image fusion. IEEE Trans. Biomed. Eng. 2013, 60,1069-1079. [CrossRef]
[18]Liu, Y.; Liu, S.; Wang, Z. A general framework for image fusion based on multi-scale transform and sparse representation. Inf. Fusion 2015, 24,147-164. [CrossRef]
[19]LeCun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. Gradient-based leaning applied to document recognition. Proc. IEEE 1998, 86, 2278-2324. [CrossRef]
[20]Jin, X.; Jiang, Q.; Yao, S.; Zhou, D.; Nie, R.; Hai, J.; He, K. A survey of infrared and visible image fusion methods. Infrared Phys. Technol. 2017, 85,478-501. [CrossRef]
[21]DLP: Deep Learning Platform. Available online: http://www.ai-dlp.com/ (accessed on 1 March 2019).
[22]Glorot, X.; Bengio, Y. Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the thirteenth International Conference on Artificial Intelligence and Statistics, Sardinia, Italy, 13-15 May 2010.
[23]Liu, J.; Yin, Q.; Guo, P. A New Strategy to Improve Image Fusion Effect. In Proceedings of the 2016 International Conference on Machine Learning and Cybernetics, Dalian, China, 13-16 August 2006; pp. 3770-3775.
[24]FigShare. Available online: https://figshare.com/articles/TNO_Image_Fusion_Dataset/1008029 (accessed on 1 March 2019).
[25]OTCBVS Benchmark Dataset Collection. Available online: http://vcipl-okstate.org/pbvs/bench/ (accessed on 1 March 2019).
[26]Multispectral Object Detection Dataset. Available online: https://www.mLt.u-tokyo.ac.jp/projects/mil_ multispectral/ (accessed on 1 March 2019).
[27]YOLO: Real-Time Object Detection. Available online: https://pjreddie.com/darknet/yolo/ (accessed on 1 March 2019).
[28]Han, Y.; Cai, Y.; Cao, Y.; Xu, X. A new image fusion performance metric based on visual information fidelity. Inf. Fusion 2013,14,127-135. [CrossRef]
[29]Chen, Y.; Blum, R. A new automated quality assessment algorithm for image fusion. Image Vis. Comput. 2009,27,1421-1432. [CrossRef]
[30]Roberts, J.; Van Aardt, J.; Ahmed, F. Assessment of image fusion procedures using entropy, image quality, and multispectral classification. J. Appl. Remote Sens. 2008, 2, 023522.
[31]Qu, G.; Zhang, D.; Yan, P. Information measure for performance of image fusion. Electron. Lett. 2002, 38, 313-315. [CrossRef]
[32]Wang, Z.; Bovik, A. A universal image quality index. IEEE Signal Process. Lett. 2002, 9, 81-84. [CrossRef]
[33]Ma, J.; Ma, Y.; Li, C. Infrared and visible image fusion methods and applications: A survey. Inf. Fusion 2019, 14,153-178. [CrossRef]
2.外文資料原文(與課題相關(guān),至少1萬印刷符號(hào)以上):
Article
A New Deep Learning Based Multi-Spectral Image Fusion Method
Jingchun Piao *, Yunfan Chen and Hyunchul Shin *
Department of Electrical Engineering, Hanyang University, Ansan 15588, Korea; chenyunfan@hanyang.ac.kr
* Correspondence: kcpark1011@hanyang.ac.kr (J.P.); shin@hanyang.ac.kr (H.S.); Tel.: +82-31-400-4083 (J.P.); +82-31-400-5176 (H.S.)
Received: 12 May 2019; Accepted: 3 June 2019; Published: 5 June 2019
Abstract: In this paper, we present a new effective infrared (IR) and visible (VIS) image fusion method by using a deep neural network. In our method, a Siamese convolutional neural network(CNN) is applied to automatically generate a weight map which represents the saliency of each pixel for a pair of source images. A CNN plays a role in automatic encoding an image into a feature domain for classification. By applying the proposed method, the key problems in image fusion, which are the activity level measurement and fusion rule design, can be figured out in one shot. The fusion is carried out through the multi-scale image decomposition based on wavelet transform, and the reconstruction result is more perceptual to a human visual system. In addition, the visual qualitative effectiveness of the proposed fusion method is evaluated by comparing pedestrian detection results with other methods, by using the YOLOv3 object detector using a public benchmark dataset. The experimental results show that our proposed method showed competitive results in terms of both quantitative assessment and visual quality.
Keywords: image fusion; visible; infrared; convolutional neural network; Siamese network
1. Introduction
Infrared (IR) and visual (VIS) image fusion technology is utilized to generate a composite image from multiple spectral source images for combining complementary information of the same scene. The input source images are captured from different imaging modalities with different parameter settings. The fused image is expected to be more suitable for human perception than any of the individual input image. Due to this advantage, image fusion techniques have wide applications in image processing and computer vision areas to improve the visual ability of human and machine vision. The general framework of image fusion is extracting representative salient features from source images of the same scene, and then the salient features are integrated into a single image by a proper fusion method.
IR images are highly influenced by the external environment, such as light, fog, and smog. [1 , 2]. IR images are superior to VIS images in areas where the VIS image is invisible due to low-light conditions. [3 , 4]. Normal VIS imaging sensors capture the reflective properties of the objects, which can be edges and detail texture of objects. They are able to provide information for human visual perception. As stated above, due to differences in imaging mechanism, the intensities at the same pixel location in IR and VIS images often vary distinctly. A good IR and VIS image fusion method should be able to simultaneously keep the thermal radiation information in IR images and the texture detail information in VIS images.
In the last decade, many image processing methods have been proposed to extract salient features, such as multi-scale decomposition-based methods. In general, multi-scale decomposition consists of three steps, namely, decomposition, fusion, and reconstruction. Pyramids [5 , 6], wavelets [7-9], and shearlets [10-12] are the typical multi-scale transforms that are usually used in image fusion. Sparse coding is also a popular image encoding method, which has also been successfully applied to fuse multi-modality images [13-15]. With the prosperity of deep learning, using a convolutional neural network (CNN) or generative adversarial network (GAN) [16] has become a trend. In [16], a GAN-based method simultaneously keeps the radiation information from the IR images and the detail texture in VIS images. The drawback of this method is low computational efficiency.
One of the most important problems in image fusion is to calculate a weighted map that incorporates information about pixel activity from different source images. In most existing image fusion methods, the goal is two-fold: namely, activity level measurement and weight allocation. In a traditional transform domain fusion method, the sum of the absolute values of the decomposed coefficients is used to measure activity level, and the “selected maximum” or “weighted average” rule is applied to other sources, depending on the measure
收藏