當前位置:網站首頁>多模態生成模型ERNIE-VILG

多模態生成模型ERNIE-VILG

2022-01-28 11:43:44 weixin_42001089

前言

多模態現在可真謂是一大研究熱點,之前我們已經介紹了比較多的多模態模型,感興趣的小夥伴可以穿梭看之前筆者微信公眾號的文章:

多模態預訓練模型綜述緊跟研究熱點,快來打卡多模態知識點吧~https://mp.weixin.qq.com/s/r95blN2q9OAr7wUfJBxTNQ最新圖文大一統多模態模型:FLAVA新年第一彈:最新多模態大一統模型FLAVA來咯~https://mp.weixin.qq.com/s/HxL-bJmM934a9SmVM3xBdw今天我們來介紹一篇最新百度出品的多模態生成模型,名字叫做ERNIE-VILG,話不多說,先上幾張文字生成圖片的效果

是不是很棒,當然這應該是挑出了效果比較好的幾張,大家可以自己親自去嘗試一下:

https://wenxin.baidu.com/wenxin/ernie-vilg

論文地址:

https://arxiv.org/pdf/2112.15283.pdf

不論體驗效果好與不好,技術出身的我們還是要去虛心學習一下~

那開始吧~

數據集收集

(1)Chinese Webpages

從各種Webpages收集帶有文字的配圖

(2)Image Search Engine

通過query-clicked這個邏輯去收集

(3)Public image-text Datase

一些公開數據比如CC、CC12M等等

框架

這裏采用的框架還是大家熟知的transformer,再具體點就是UniLM即沒有將encoder和decoder分開,而是通過mask來達到生成,說白了就是encoder端是bidirectional的,而decoder通過對角線mask來實現單向。

如果大家不熟悉上面說的,可以看下UniLM,由於不是本篇paper的創新點,這裏就不多述了。

從上面圖中我們看到對於image-to-text任務(左邊圖),encoder就是圖片,decoder生成的就是text,相反亦然。實際過程中兩個UniLM參數是共享的。下面我們詳細說說各個模型單元細節。

(1)Image Discrete Representation

我們要進行錶征,首先要做的就是將image和text進行量化,text大家都比較熟悉了,就是類似bert的tokenizer,而image這裏采用的是VQVAE進行編碼。

(2)Bidirectional Generative Model

這裏本來沒什麼好說的,就是個常見的生成loss,只不過是兩個即image-to-text和text-to-image如下:

t錶示text,z錶示image

但是這裏需要提一下的是sparse attention,這個是一個專門的研究方向,說白了就是transformer在attention的時候是全局attention,導致複雜度是二次方,所以能不能在attention的時候只attention部分?那attention哪部分呢?針對這個問題有很多paper,這裏作者采用的方案如下:

大家可以看到不論是在text-to-image中的IMG + img_tokens還是image-to-text 中的CLS + txt_tokens + SEP都是一個上三角MASK,這就是我們之前說的UniLM通過這種方式來完成生成任務,至於其他的MASK就是sparse attention部分,尤其大家可以看到在image-to-text中在對image encoder的時候,采取了一些特殊的MASK。

(3) Text-to-Image Synthesis

這一節著重提了一下文字生成圖片的時候一般都采用的是兩階段任務即discrete representation sequence generation和image reconstruction。先生成特征錶征z_{emb},然後再將其送到reconstructed decoder生成最終的圖片。這兩部分任務是單獨訓練的。區別於上述two-stage pipeline的方式,這裏作者提出了一種end-to-end的方式。

具體的這裏我們再把框架拿來看一下

紅線就是two-stage pipeline,可以看到其有一步是先要得到non-derivable ID即右上角那個帶數字的矩陣,然後第二步通過第一步生成的ID去 looked up得到 z_{emb} ,然後送到decoder生成圖片。

而作者采用的是綠色的方案即直接將transformer最後一個layer的embedding通過一個MLP層直接映射成 z_{emb},這樣整個網絡就可以直接梯度回傳進而實現end-to-end。

效果

直觀的效果就是開頭展示的,關於一些指標的對比如下

對比了一些之前的圖文生成模型比如DALL-E 和CogView,總之上就是有提昇吧。

總結

關注百度很長時間了,ERNIE系列真的是百花齊放,多模態、跨語種等等都拿到過SOTA,各大榜單頻頻可見ERNIE,屠榜届的扛霸子。

從其一些列發布的模型不難看出,一個大的基調就是:大力出奇迹。模型越做越大,包括最近其發布的文心大模型,更是史無前例的中文大模型,效果一次次刷新。但是真心希望還是能够全面落地,筆者自己也在ERNIE項目組實習過很長時間,大家確實不易,希望通過落地讓這些做技術的同學也可以切實地體會到所做研究的價值。

總之加油~

版權聲明
本文為[weixin_42001089]所創,轉載請帶上原文鏈接,感謝
https://cht.chowdera.com/2022/01/202201281143438933.html