網上有很多關于pos機標注,基于細粒度知識融合的序列標注領域適應的知識,也有很多人為大家解答關于pos機標注的問題,今天pos機之家(www.tonybus.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
1、pos機標注
pos機標注
作者 | 南大NLP編輯 | 唐里
本文來自公眾號南大NLP,AI科技評論獲授權轉載,如需轉載請聯系原公眾號。
背景介紹
序列標注任務,例如中文分詞(CWS),詞性標注(POS),命名實體識別(NER)等是自然語言處理中的基礎任務。最近,隨著深度學習的發展,神經序列標注方案已經達到了很好的性能,同時也依賴于大規模的標注數據。然而大部分的規范標注數據來自于新聞領域,將在這些數據集上訓練的模型應用到其他領域時,模型的性能往往會大幅下降。領域適應(domain adaptation)利用源領域(source domain)的豐富知識來提升目標領域(target domain)的性能,適合用來解決這一問題。我們關注于有監督的領域適應,利用大規模的有標注的源領域數據來幫助僅有少量標注數據的目標領域的學習。
對于序列標注任務,我們觀察到一個有趣的現象:不同的目標域句子傾向于和源領域有不同的領域相關性(domain relevance),表1中展示了幾個twitter的句子,它們和源領域(新聞)的相關程度不同,同時,句子內部不同的單元(中英文詞)也有不同的領域相關性。
表1 來自于社交媒體領域的推特和源領域(新聞領域)有不同的領域相關性。在每個例子中,加粗的部分與源領域強相關,斜體的部分與源領域弱相關。
傳統的神經序列標注領域適應方案關注于減少源域和目標域集合層面的差異,忽略了樣本和元素層級的領域相關性。如圖1中,(左) 展示了之前的方案,對于目標域中具有不同領域相關性的樣本進行了相同的知識遷移,然而,理想的知識遷移過程如圖(右),對于和源領域強相關的樣本和元素應該遷移更多的知識,反之應該保持其目標域特性,從源領域學習更少的知識。
圖 1 知識遷移方法比較。(左) 之前的方法,(右)我們的方法
在本文中,我們提出了一個細粒度的知識融合方案來控制學習源領域和保持目標領域之間的平衡,通過建模樣本層面和元素層面的領域相關性,以及將其引入到領域適應過程中,有效的減少了負遷移(negative transfer),同時增強了領域適應的效果。
解決方案
相關性建模
圖2 相關性建模過程
(1)元素級的領域相關性
為了獲得元素級的相關性,我們引入了領域表示q,我們使用了兩種方式來獲得q:
(a)domain-q:q是可訓練的領域向量,領域內所有的元素共享q;(b)sample-q:q是從每個樣本抽出的領域相關的特征,每個樣本內部的元素共享q,這里我們使用膠囊網絡(capsule network)來抽取這個特征。通過計算隱層與領域表示的相似性得到元素級的領域相關性。
(2)樣本級的領域相關性
為了獲得樣本級的相關性,我們進行了樣本級別的領域分類,基于元素級的相關性對隱層加權求和得到樣本表示,對樣本進行領域分類得到樣本級的領域相關性。
細粒度的知識融合
圖3 知識蒸餾與細粒度的知識融合
知識蒸餾(knowledge distillation)為學生模型(student model)的每個樣本和元素提供了從老師模型(teacher model)學習的目標,在這里我們將源域模型作為老師模型,目標域模型作為學生模型。目標域模型的損失函數由兩部分組成:序列標注損失和知識蒸餾損失,其中序列標注損失可以看作從目標域數據學習的知識,知識蒸餾損失可以看作從源域模型學習到的知識,超參alpha用來平衡二者。
通過引入前面學習到的各層級的領域相關性,實現細粒度的知識融合,從而實現考慮到領域相關性的領域適應。
樣本級別的知識融合:根據每個目標域樣本不同的領域相關性得到其相應的alpha,從而實現樣本級別的知識融合。
元素級別的知識融合:根據每個目標域元素不同的領域相關性得到其相應的alpha,從而實現元素級別的知識融合。
多層級的知識融合:同時考慮樣本級別和元素級別的領域相關性,可以得到多層級的alpha,從而實現多層級的知識融合。
訓練過程
訓練過程主要分為四步:
(1)(可選)用源域數據預訓練源域模型和目標域模型;
(2)訓練源域模型,預測目標域數據的概率分布;
(3)計算各層次的領域相關性權重;
(4)按照細粒度知識融合的方案訓練目標域模型;
重復(2)(3)(4)步直到目標域模型收斂。
實驗分析
數據集
我們在兩種語言(中文和英文)和三個序列標注任務(中文分詞,詞性標注,命名實體識別)上進行了實驗,使用的數據集見表2。
表2 實驗中用到的數據集
實驗結果
我們使用F1-score和OOV recall來評價在中文分詞領域適應上的表現,我們比較了不同的領域表示方案和不同層次的知識融合方案,結果見表3??梢园l現在領域表示的層面上,樣本級別的領域表示(Sample-q)好于領域級別的領域表示(Domain-q),在知識融合的層面上,多層級的方式好于元素層面的融合,也好于樣本層面的融合。我們最終的方案為基于樣本級別領域表示的多層次知識融合方法(FGKF)。
表3 細粒度知識融合在中文分詞任務上的結果
我們在兩種語言,三個任務上復現了序列標注領域適應的相關工作,我們的方案均獲得了最好的結果。
表4 在三個任務上領域適應的結果,其中zh表示微博數據集,en表示推特數據集。
結果分析
(1)不同領域相關性的結果
將目標域元素根據訓練集中的相關權重均值劃分為領域強相關和領域弱相關兩類,結果見表5。從表中可以看出,相比于基本的知識蒸餾方案(BasicKD),通過引入了領域相關性,FGKF提升了領域強相關元素的性能,同時有效緩解了負遷移現象。
表5 推特測試集強/弱領域相關部分分別的結果
(2)相關性權重可視化
我們對兩種領域表示方案得到的元素級別的相關性權重進行了可視化,如圖4,樣本級別的領域表示(下方)相較于領域級別的領域表示(上方)能更好地提取出各樣本的領域特征,從而得到更好的元素級別的相關性權重。
圖4 元素級別領域相關性可視化
(3)消融實驗
我們在Twitter數據集上進行了消融實驗(見表6),發現在訓練目標域模型時固定源域模型的參數是十分重要的,同時共享embedding層,預訓練也對結果產生了一定影響。
表6 推特測試集消融實驗結果
(4)目標域數據規模的影響
我們也研究了不同的目標域數據規模對領域適應結果的影響(見圖5),當目標域數據較少時(20%),BasicKD與FGKF有較大的差距,說明此時領域相關性是十分重要的,隨著目標域數據規模的增加,BasicKD與FGKF仍然存在的一定的差距。
圖5 不同的目標域數據規模對領域適應結果的影響
總結
本文提出了細粒度的知識融合方案,將目標域數據的領域相關性引入到序列標注領域適應過程中,有效的增強了領域強相關部分的遷移,同時減少了負遷移。實驗結果表明我們的方案能有效的提升序列標注領域適應的效果,同時也展現出了其在其他領域適應任務上的潛力。
南大NLP研究組介紹
南京大學自然語言處理研究組從事自然語言處理領域的研究工作始于20世紀80年代。曾先后承擔過該領域的18項國家科技攻關項目、863項目、國家自然科學基金和江蘇省自然科學基金以及多項對外合作項目的研制。其中,承擔的國家七五科技攻關項目“日漢機譯系統研究”獲七五國家科技攻關重大成果獎、教委科技進步二等獎以及江蘇省科技進步三等獎。
分析理解人類語言是人工智能的重要問題之一,本研究組在自然語言處理的多個方向上做了大量、深入的工作。近年來集中關注文本分析、機器翻譯、社交媒體分析推薦、知識問答等多個熱點問題,結合統計方法和深度學習方法進行問題建模和求解,取得了豐富的成果。本研究組在自然語言處理頂級國際會議ACL上連續三年發表多篇論文,也在人工智能頂級國際會議IJCAI和AAAI上發表論文多篇,相關系統在機器翻譯、中文分詞、命名實體識別、情感計算等多個國際國內評測中名列前茅。
本實驗室立志于研究和解決在傳統文本和互聯網資源的分析處理中面臨的各項問題和挑戰,并積極探索自然語言處理的各種應用。如果你也和我們有共同興趣或目標,歡迎加入我們!
以上就是關于pos機標注,基于細粒度知識融合的序列標注領域適應的知識,后面我們會繼續為大家整理關于pos機標注的知識,希望能夠幫助到大家!
