新聞中心
圖像預(yù)處理的一個重要操作就是resize,把不同大小的圖像縮放到同一尺寸,但目前用到的resize技術(shù)仍然是老舊的,無法根據(jù)數(shù)據(jù)變換。Google Research提出一個可學(xué)習(xí)的resizer,只需在預(yù)處理部分略作修改,即可提升CV模型性能!

神經(jīng)網(wǎng)絡(luò)要求輸入的數(shù)據(jù)的大小在每個mini-batch中是統(tǒng)一的,所以在做視覺任務(wù)的時候,一個重要的預(yù)處理步驟就是image resize,把它們調(diào)整到統(tǒng)一的大小進(jìn)行訓(xùn)練。
通??s放(image down-scaling)后的圖像不會太大,因為如果分辨率過高會導(dǎo)致訓(xùn)練過程中模型占用的內(nèi)存急劇上升,并且過高的分辨率也會導(dǎo)致訓(xùn)練速度和推理速度過慢。雖然近年來GPU的性能逐漸提升,但標(biāo)準(zhǔn)的輸入圖像仍然是224 × 224。
在大多數(shù)情況下,經(jīng)過處理的圖像的最終尺寸非常小,例如早期的deepfake生成的圖片只有80 × 80的分辨率。
在人臉數(shù)據(jù)集中,因為人臉很少有是正方形的,一張圖片中的像素會浪費比較多的空間,可用的圖像數(shù)據(jù)就更少了。
目前最常用的圖像大小調(diào)整方法包括最近鄰(nearest neighbor)、雙線性(bilinear)和雙三次(bicubic)。這些resize方法的速度很快,可以靈活地集成在訓(xùn)練和測試框架中。
但這些傳統(tǒng)方法是在深度學(xué)習(xí)成為視覺識別任務(wù)的主流解決方案之前幾十年發(fā)展起來的,所以并不是特別適合新時代的深度學(xué)習(xí)模型。
Google Research提出了一種新的方法,通過改進(jìn)數(shù)據(jù)集中的圖像在預(yù)處理階段縮放的方式,來提高基于圖像的計算機(jī)視覺訓(xùn)練流程的效率和準(zhǔn)確性。
圖像大小對任務(wù)訓(xùn)練精度的影響并沒有在模型訓(xùn)練中受到很大關(guān)注。為了提高效率,CV研究人員通常將輸入圖像調(diào)整到相對較小的空間分辨率(例如224x224) ,并在此分辨率下進(jìn)行訓(xùn)練和推理。
研究人員想到,這些resizer是否限制了訓(xùn)練網(wǎng)絡(luò)的任務(wù)性能呢?
通過一個簡單的實驗就可以證明當(dāng)這些傳統(tǒng)的resizer被可學(xué)習(xí)的resizer替代后,可以顯著提高性能。
傳統(tǒng)的resizer通??梢陨筛玫囊曈X上的縮放圖像,可學(xué)習(xí)的resizer對人來說可能不是特別容易看清楚。
文中提出的resizer模型架構(gòu)如下圖所示:
它主要包括了兩個重要的特性:(1) 雙線性特征調(diào)整大?。╞ilinear feature resizing),以及(2)跳過連接(skip connection),該連接可容納雙線性調(diào)整大小的圖像和CNN功能的組合。
第一個特性考慮到以原始分辨率計算的特征與模型的一致性。跳過連接可以簡化學(xué)習(xí)過程,因為重定大小器模型可以直接將雙線性重定大小的圖像傳遞到基線任務(wù)中。
與一般的編碼器-解碼器架構(gòu)不同,這篇論文中所提出的體系結(jié)構(gòu)允許將圖像大小調(diào)整為任何目標(biāo)大小和縱橫比。并且可學(xué)習(xí)的resizer性能幾乎不依賴于雙線性重定器的選擇,這意味著它可以直接替換其他現(xiàn)成的方法。
并且這個的resizer模型相對較輕量級,不會向基線任務(wù)添加大量可訓(xùn)練參數(shù),這些CNN明顯小于其他基線模型。
論文中的實驗主要分為三個部分。
1、分類性能。
將使用雙線性調(diào)整器訓(xùn)練的模型和輸出調(diào)整分辨率224×224稱為默認(rèn)基線。結(jié)果表明,在224×224分辨率的模型中,性能最好,使用文中提出的resizer訓(xùn)練的網(wǎng)絡(luò)對性能有所提升。
與默認(rèn)基線相比,DenseNet-121和MobileNet-v2基線分別顯示出最大和最小的增益。對于Inception-v2、DenseNet-121和ResNet-50,提出的resizer的性能優(yōu)于具有類似雙線性重定器。
2、質(zhì)量評估
研究人員使用3種不同的基線模型對AVA數(shù)據(jù)集進(jìn)行訓(xùn)練?;€模型根據(jù)ImageNet上預(yù)先訓(xùn)練的權(quán)重進(jìn)行初始化,并在AVA數(shù)據(jù)集上進(jìn)行微調(diào)。resizer權(quán)重是隨機(jī)初始化的。在這組實驗中,使用雙三次resizer為基線方法。通過平均基本真實分?jǐn)?shù)和平均預(yù)測分?jǐn)?shù)之間的相關(guān)性來衡量性能,相關(guān)性的評價采用使用皮爾遜線性相關(guān)系數(shù)(PLCC)和斯皮爾曼秩相關(guān)系數(shù)(SRCC)。
與基線模型相比,存在確定性的改進(jìn)。此外,對于Inception-v2和DenseNet-121型號,文中提出的resizer性能優(yōu)于雙三次resizer。在更高的失敗率下,對于學(xué)習(xí)型resizer來說,EfficientNet似乎是一個更難有所提升的基線模型。
3、泛化性
首先使用與resizer的默認(rèn)基線不同的目標(biāo)基線聯(lián)合微調(diào)的可學(xué)習(xí)resizer。然后,度量目標(biāo)基線在底層任務(wù)上的性能??梢杂^察到,對大約4個epoch的訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)足以使resizer適應(yīng)目標(biāo)模型。這個驗證是一個合理的指標(biāo),能夠表明經(jīng)過訓(xùn)練的resizer對各種體系結(jié)構(gòu)的通用性如何。
由分類和IQA結(jié)果可知,每列顯示resizer模型的初始化檢查點,每行表示一個目標(biāo)基線。這些結(jié)果表明,經(jīng)過最少次的微調(diào),就可以為一個基線訓(xùn)練的resizer可以有效地用于開發(fā)另一個基線的resizer。
在某些情況下,如DenseNet和MobileNet模型,微調(diào)的resizer實際上超過了通過隨機(jī)初始化獲得的分類性能。對于IQA的EffectiveNet模型也有同樣的觀察結(jié)果。
最后研究人員指出,這些實驗專門針對圖像識別任務(wù)進(jìn)行了優(yōu)化,并且在測試中,他們的 CNN驅(qū)動的可學(xué)習(xí)的resizer能夠在這類任務(wù)中降低錯誤率。
未來也許考慮在其他圖像任務(wù)中訓(xùn)練image resizer。
分享文章:一行預(yù)處理代碼,讓你的CV模型更強(qiáng)
標(biāo)題來源:http://m.5511xx.com/article/cdpicds.html


咨詢
建站咨詢
