本報訊?日前,北京智源人工智能研究院(簡稱智源研究院)悟道文瀾團隊發(fā)布“AI 文案大師”小程序,可以自動匹配生成相應(yīng)的文案。
據(jù)介紹,“AI 文案大師”小程序可以實現(xiàn)“輸入一張圖片,輸出一句文案”的功能。在這個過程中,“圖片”“文本”兩種數(shù)據(jù)分別對應(yīng)于“視覺”和“語言”兩種模態(tài)。
機器學(xué)習(xí)領(lǐng)域?qū)⑦@種輸入輸出數(shù)據(jù)分別屬于不同模態(tài)的任務(wù)稱為“跨模態(tài)”任務(wù)。例如,可以訓(xùn)練模型根據(jù)輸入圖片中提取出的視覺信息,自由地生成相應(yīng)的描述性自然語言文本,這樣的任務(wù)稱為“圖像描述”。此外,還可以把圖片作為輸入,提取其視覺特征,并在現(xiàn)有的文本庫中檢索最符合圖片特征的文字描述,這樣的任務(wù)稱為“圖文檢索”或“圖文匹配”。
智源研究院悟道文瀾團隊相關(guān)負責人表示,“視覺—語言”多模態(tài)預(yù)訓(xùn)練有助于提取到兩種模態(tài)數(shù)據(jù)中的關(guān)鍵信息,從而實現(xiàn)更高質(zhì)量的圖文匹配。為了實現(xiàn)“AI文案大師”系統(tǒng)要求的圖文匹配質(zhì)量,需要提升神經(jīng)網(wǎng)絡(luò)的表征能力。
得益于近年來自監(jiān)督學(xué)習(xí)在提取數(shù)據(jù)內(nèi)在關(guān)鍵知識方面的進展,智源研究院悟道文瀾團隊采用先進的跨模態(tài)對比學(xué)習(xí)(自監(jiān)督學(xué)習(xí)算法中的一種)算法 CMCL,利用某一個“圖文對”中的圖像模態(tài)或文本模態(tài)來構(gòu)建該“圖文對”的負樣本,并設(shè)計了一種基于隊列的詞典來擴大負樣本數(shù)目,從而得到更好的數(shù)據(jù)表征。
未來,智源研究院悟道文瀾團隊還將繼續(xù)發(fā)布各種基于大規(guī)模中文多模態(tài)預(yù)訓(xùn)練模型的研究成果和有趣應(yīng)用。(鄭金武)
向陽的花,努力生長,總會綻放,
心有所愛,有所期待,
剩下的就是努力扎根,
努力生長,靜待花開!
“AI 文案大師”演示的“圖文匹配”實例
《中國科學(xué)報》 (2021-05-06 第3版 信息技術(shù))