本發(fā)明屬于視頻去噪處理,特別涉及一種用于視頻去噪的深度學(xué)習(xí)模型構(gòu)建方法。
背景技術(shù):
1、近些年來(lái)隨著圖像任務(wù)的迅速發(fā)展,人們對(duì)高質(zhì)量圖像和視頻的需求日益突出。但在很多較極端條件下很難保證獲得高質(zhì)量的成像,目前在低光照條件下,傳統(tǒng)的各種isp3d去噪算法都不能達(dá)到很好成像效果,面臨噪聲多,運(yùn)動(dòng)模糊、運(yùn)動(dòng)拖影等問(wèn)題遠(yuǎn)遠(yuǎn)不能滿足各種任務(wù)的使用需求,所以對(duì)于3d去噪任務(wù)出現(xiàn)了一系列深度學(xué)習(xí)模型來(lái)處理,相比較傳統(tǒng)的算法,效果要好很大。所以對(duì)于3d視頻去噪問(wèn)題,一個(gè)好的深度學(xué)習(xí)解決方案,具有十分重要的意義。
2、基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)3d視頻去噪算法已經(jīng)有許多學(xué)術(shù)上的方案,這類算法的效果各有優(yōu)劣,常見(jiàn)的多是類unet結(jié)構(gòu)的多幀融合模型。
3、然而,上述的常用的unet結(jié)構(gòu)對(duì)于具體的應(yīng)用場(chǎng)景,這類算法常常存在計(jì)算量大,難以部署落地的問(wèn)題;而一些計(jì)算量小,可以保持幀率的一些輕量級(jí)算法,又存在效果不能達(dá)到最優(yōu)的問(wèn)題,對(duì)于一般的場(chǎng)景可能表現(xiàn)尚可,但對(duì)于暗光場(chǎng)景下,效果往往不盡人意。
4、此外,現(xiàn)有技術(shù)常用的術(shù)語(yǔ)包括:
5、深度學(xué)習(xí):是機(jī)器學(xué)習(xí)(ml,machine?learning)領(lǐng)域中一個(gè)新的研究方向,它被引入機(jī)器學(xué)習(xí)使其更接近于最初的目標(biāo)——人工智能(ai,artificial?intelligence)。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過(guò)程中獲得的信息對(duì)諸如文字,圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識(shí)別文字、圖像和聲音等數(shù)據(jù)。深度學(xué)習(xí)是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法,在語(yǔ)音和圖像識(shí)別方面取得的效果,遠(yuǎn)遠(yuǎn)超過(guò)先前相關(guān)技術(shù)。
6、bayer格式:bayer格式圖片源自拜耳陣列,拜耳陣列是ccd或cmos傳感器拍攝彩色圖像的主要技術(shù)之一。拜耳陣列是由伊士曼·柯達(dá)公司科學(xué)家bryce?bayer發(fā)明的,被廣泛運(yùn)用數(shù)字圖像。對(duì)于彩色圖像,每個(gè)像素點(diǎn)可用rgb三種顏色來(lái)表示,最簡(jiǎn)單的采樣方法就是在每個(gè)像素點(diǎn)上用三個(gè)濾鏡,紅色的濾鏡透過(guò)紅色的波長(zhǎng),綠色的濾鏡透過(guò)綠色的波長(zhǎng),藍(lán)色的濾鏡透過(guò)藍(lán)色的波長(zhǎng)。這樣一來(lái)為了采集rgb三個(gè)基本色,每個(gè)點(diǎn)都需要三塊濾鏡,這種方式價(jià)格昂貴,而且因?yàn)槿龎K濾鏡都必須保證對(duì)齊到同一點(diǎn),也不好制造。而用bayer格式,就可以很好的解決了這個(gè)問(wèn)題。每個(gè)像素點(diǎn)只是用一種顏色的濾鏡,另外通過(guò)分析人眼對(duì)顏色的感知發(fā)現(xiàn),人眼對(duì)綠色比較敏感,所以在bayer格式的圖片中綠色較多,綠色的像素是是r和b像素的和。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問(wèn)題,本申請(qǐng)的目的在于:通過(guò)本方法構(gòu)建的模型結(jié)構(gòu)在3d去噪任務(wù)中,可以很好地?cái)M合時(shí)域去噪任務(wù)的要求;并且由于是一個(gè)輕量模型,計(jì)算量很小,可以在部署過(guò)程中達(dá)到實(shí)時(shí),與現(xiàn)有技術(shù)相比,本發(fā)明的一種用于視頻去噪的深度學(xué)習(xí)模型構(gòu)建方法可以兼顧效果與效率兩個(gè)方面。
2、具體地,本發(fā)明提供一種用于視頻去噪的深度學(xué)習(xí)模型構(gòu)建方法,所述方法包括以下步驟:
3、s1.輸入圖像處理:
4、模型的輸入為兩幀,其一為上一次模型融合輸出的結(jié)果,其二為視頻流當(dāng)前幀,整個(gè)流程是一個(gè)遞歸的過(guò)程,兩幀都為raw域圖像,表現(xiàn)為單通道圖像,為使模型的計(jì)算量減小,執(zhí)行兩次space_to_depth將圖像由一通道變?yōu)?6通道,而圖像的寬高也因此變?yōu)樵瓉?lái)的四分之一,從而減少輸入模型的feature大小;
5、假設(shè)原圖為f1,f2,形狀為(h,w,1),則經(jīng)過(guò)步驟s1后變?yōu)閒1,f2,形狀為(h/4,w/4,16),設(shè)為(h,w,c),此為第一尺度;
6、s2.下采樣塊,模型使用3個(gè)卷積構(gòu)建下采樣塊,將這個(gè)結(jié)構(gòu)命名為downblock,其中下采樣的方式通過(guò)步長(zhǎng)為2的卷積完成;
7、經(jīng)過(guò)此結(jié)構(gòu),輸出為(h/2,w/2,oc),oc為輸出通道數(shù),此為第二尺度;
8、后將輸出再次經(jīng)過(guò)相同的下采樣塊,輸出為(h/4,w/4,oc),此為第三尺度;
9、s3.特征融合模塊:對(duì)于經(jīng)過(guò)步驟s2處理后的圖像,在三個(gè)尺度上分別輸入特征融合模塊,特征融合模塊設(shè)計(jì)結(jié)構(gòu)命名為fusionblock,輸出為一通道的權(quán)重并傳遞給下一尺度;
10、s4.權(quán)重上采樣:
11、第三尺度經(jīng)過(guò)步驟s3,輸出的feature大小為(h/4,w/4,1),要傳給第二尺度則需要進(jìn)行上采樣,這里使用的結(jié)構(gòu)為最鄰近上采樣和卷積的結(jié)構(gòu),將這個(gè)結(jié)構(gòu)命名為upblock;
12、s5.圖像融合:
13、經(jīng)過(guò)三個(gè)尺度的提取與構(gòu)建,最終輸出一個(gè)大小為(h,w,1)的權(quán)重,設(shè)為gamma,值域在0-1,作為融合兩幀的權(quán)重,融合公式如下:
14、out=f1*gamma+f2*(1-gamma),
15、稱該公式為fusion;
16、s6.恢復(fù)大?。?/p>
17、經(jīng)過(guò)步驟s5的輸出為融合后的圖像,其形狀為(h/4,w/4,16),為恢復(fù)原圖的形狀,使用兩次depth_to_space,pytorch中為pixel_shuffle,即恢復(fù)成(h,w,1)的raw圖。
18、所述步驟s2中,所述模型使用3個(gè)卷積構(gòu)建下采樣塊,包括:
19、s2.1,進(jìn)行卷積:k:3*3,s:1*1;
20、s2.2,進(jìn)行卷積:k:3*3,s:2*2;
21、s2.3,進(jìn)行卷積:k:3*3,s:1*1;
22、所述相同的下采樣塊,即結(jié)構(gòu)與步驟s2.1到步驟s2.3構(gòu)成的downblock相同。
23、所述步驟s2中,設(shè)oc為32。
24、所述步驟s3中,所述特征融合模塊設(shè)計(jì)如下:
25、s3.1,進(jìn)行卷積,k:3*3,s:1*1;
26、s3.2,進(jìn)行卷積,k:3*3,s:1*1;
27、s3.3,進(jìn)行卷積,k:3*3,s:2*2;
28、s3.4,進(jìn)行卷積,k:3*3,s:1*1;
29、s3.5,進(jìn)行上采樣;
30、s3.6,進(jìn)行卷積,k:3*3,s:1*1;
31、s3.7,將步驟s3.2的輸出和s3.6的輸出結(jié)果進(jìn)行拼接concat;
32、s3.8,進(jìn)行卷積,k:3*3,s:1*1;
33、s3.9,執(zhí)行激活函數(shù)sigmoid。
34、所述步驟s4中,所述使用的結(jié)構(gòu),包括:
35、s4.1,最鄰近上采樣:upsample(nearest);
36、s4.2,進(jìn)行卷積:k:3*3,s:1*1。
37、由此,本申請(qǐng)的優(yōu)勢(shì)在于:使用本方法構(gòu)建的模型結(jié)構(gòu),可以兼顧效果與效率這兩個(gè)需求,實(shí)驗(yàn)證明對(duì)于低光場(chǎng)景同樣可以擬合,且計(jì)算量很低。
1.一種用于視頻去噪的深度學(xué)習(xí)模型構(gòu)建方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種用于視頻去噪的深度學(xué)習(xí)模型構(gòu)建方法,其特征在于,所述步驟s2中,所述模型使用3個(gè)卷積構(gòu)建下采樣塊,包括:
3.根據(jù)權(quán)利要求1所述的一種用于視頻去噪的深度學(xué)習(xí)模型構(gòu)建方法,其特征在于,所述步驟s2中,設(shè)oc為32。
4.根據(jù)權(quán)利要求1所述的一種用于視頻去噪的深度學(xué)習(xí)模型構(gòu)建方法,其特征在于,所述步驟s3中,所述特征融合模塊設(shè)計(jì)如下:
5.根據(jù)權(quán)利要求1所述的一種用于視頻去噪的深度學(xué)習(xí)模型構(gòu)建方法,其特征在于,所述步驟s4中,所述使用的結(jié)構(gòu),包括: