當前位置:網站首頁>北大、加州伯克利大學等聯合| Domain-Adaptive Text Classification with Structured Knowledge from Unlabeled Data(基於未標記數據的結構化知識的領域自適應文本分類)

北大、加州伯克利大學等聯合| Domain-Adaptive Text Classification with Structured Knowledge from Unlabeled Data(基於未標記數據的結構化知識的領域自適應文本分類)

2022-06-23 21:52:40智源社區

作者:Tian Li,Xiang Chen,Zhen Dong等

簡介:領域自適應文本分類是大規模預訓練的一個具有挑戰性的問題語言模型,因為它們通常需要昂貴的附加標記數據來適應新領域。現有作品通常無法利用跨域單詞之間的隱含關系。在本文中,作者提出了一種新方法,稱為結構化知識域適應 (DASK),通過利用詞級語義關系來增强域適應。DASK 首先構建一個知識圖譜來捕獲目標域中的主幹詞(與領域無關的詞)和非主幹詞之間的關系。然後在訓練期間,DASK 將與樞軸相關的知識圖譜信息注入到源域文本中。對於下遊任務,這些知識注入文本被輸入到能够處理知識注入文本數據的 BERT 變體中。感謝知識注入,作者的模型根據與樞軸的關系為非樞軸學習域不變特征。DASK 在使用偽標簽訓練期間通過候選樞軸的極性分數動態推斷,確保樞軸具有域不變的行為。作者在廣泛的跨域情感分類任務上驗證了 DASK,並觀察到 ​​20 個不同域對的基線絕對性能提昇高達 2.9%。代碼將在 https://github.com/hikaru-nara/DASK 上提供。 

 

論文下載:https://arxiv.org/pdf/2206.09591.pdf

版權聲明
本文為[智源社區]所創,轉載請帶上原文鏈接,感謝
https://cht.chowdera.com/2022/174/202206232132470077.html

隨機推薦