當前位置:網站首頁>CV in Transformer學習筆記(持續更新)

CV in Transformer學習筆記(持續更新)

2022-01-27 18:11:19 ZRX_GIS

為什麼在cv中研究Transformer

研究背景

Transformer在CV領域剛開始嶄露頭脚,Transformer提出後在NLP方向取得良好成果,其全Attention結構,不僅增强了特征提取的能力,還保持了並行計算的特點,可以快速的完成NLP領域內多數任務,極大推動其發展。但是,幾乎並未過多應用在CV方向。在此之前只有Obiect detection種的DETR大規模使用Transformer,其他包括Semantic Segmentation在內的領域並未實質性應用,純粹Transformer結構的網絡則是沒有。

Transformer優勢

在這裏插入圖片描述
在這裏插入圖片描述

1、並行運算;2、全局視野;3、靈活的堆疊能力

Transformer+classfiaction

ViT

原文《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

ViT曆史意義

1、展示了在CV中使用純Transformer結構的可能
2、該領域開山之作

摘要

雖然Transformer體系結構已經成為自然語言處理任務的事實上的標准,但它在計算機視覺上的應用仍然有限。在視覺方面,注意力要麼與卷積網絡結合使用,要麼用於替代卷積網絡的某些組件,同時保持其整體結構不變。我們證明這種對cnn的依賴是不必要的,一個純變壓器直接應用於圖像塊序列可以很好地執行圖像分類任務。在對大量數據進行預訓練並將其傳輸到多個中小型圖像識別基准(ImageNet、CIFAR-100、VTAB等)時,與最先進的卷積網絡相比,Vision Transformer (ViT)獲得了優异的結果,而訓練所需的計算資源卻大大减少。
摘要總結:1、Transformer在NLP中已經成為經典;2,在CV中,Attention機制只是作為一個補充在使用;3、我們使用純Transformer結構就可以在圖像分類任務上取得不錯結果;4、在足够大的數據上訓練後,ViT可以拿到和CNN的SODA不相上下的結果

ViT結構

核心思想:切分重排
在這裏插入圖片描述

Attention

核心思想:加權平均(計算相似度)
在這裏插入圖片描述在這裏插入圖片描述

優點:1、並行運算;2、全局視野

MultiHead-Attention

核心思想:相似度計算,有多少W(Q,K,A)就重複運算多少次,結果concat一下
在這裏插入圖片描述
Q:query;K:key;V:Value
在這裏插入圖片描述

輸入端適配

核心思想:直接把圖片切分,然後編號輸入網絡
為什麼有Patch0: ** 需要一個整合信息的向量**:如果只有原始輸入的向量,會產生選取量的問題,即用哪個向量來分類都不好,全用計算量又很大,所以加入一個可學習的vector也就是Patch0來整合信息。

比特置編碼(Positional Encoding)

圖像切分重排後失去了比特置信息,並且Transformer的內部運算是空間信息無關的,所以需要把比特置信息編碼重新傳進網絡,ViT使用了一個可學習的vector來編碼,編碼vector和patch vector直接相加組成輸入。

訓練方法

大規模使用Pre-Train,先在大數據集上預訓練,然後到小數據集上Fine Tune
遷移過去後,需要把原本的MLP Head換掉,換成對應類別數的FC層(和過去一樣)
處理不同尺寸輸入的時候需要對Positional Encoding的結果進行插值。

Attention距離和網絡層數的關系

Attention的距離可以等價為Conv中的感受野大小 可以看到越深的層數,Attention跨越的距離越遠 但是在最底層,也有的head可以覆蓋到很遠的距離 這說明他們確實在負責Global信息整合

論文總結

模型結構 ——Transformer Encoder
輸入端適配——切分圖片再重排
比特置編碼 ——可學習的vector來錶示
純Transformer做分類任務
簡單的輸入端適配即可使用
做了大量的實驗揭示了純
Transformer做CV的可能性。

PVT

Swin Transformer

Transformer+detection

DETR

Deformable DETR

Sparse RCNN

版權聲明
本文為[ZRX_GIS]所創,轉載請帶上原文鏈接,感謝
https://cht.chowdera.com/2022/01/202201271811194776.html

隨機推薦