pos機命名,外部知識在命名實體識別任務中的重要性研究

 新聞資訊  |   2023-03-13 08:00  |  投稿人:pos機之家

網上有很多關于pos機命名,外部知識在命名實體識別任務中的重要性研究的知識,也有很多人為大家解答關于pos機命名的問題,今天pos機之家(www.tonybus.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!

本文目錄一覽:

1、pos機命名

2、onq系統全稱是什么?

pos機命名

ACL 2018 Short Papers

外部知識在命名實體識別任務中的重要性研究

A Study of the Importance of External Knowledge in the Named Entity Recognition Task

伊利諾伊大學

University of Illinois


本文是伊利諾伊大學發表于 ACL 2018 的工作,討論了外部知識對于執行命名實體識別(NER)任務的重要性,提出了一個新穎的模塊化框架,根據知識傳遞的深度將知識分成四類。每個類別由一組從不同的信息源自動生成的特征組成,如知識庫、名稱列表或文檔特定的語義注釋。此外,我們展示當逐步增加更深的知識時對性能的影響,并討論了其有效性及效率間的關系。


引言


命名實體識別(Named Entity Recognition,NER)的任務是檢測文本中的命名實體引用,并給它們分配相應的類型。它是自然語言理解任務的重要組成部分,如命名實體消歧(NED)、問答等。

以前的工作認為NER是知識密集型任務,并且使用具有突出結果的先驗知識。在這項工作中,我們試圖量化外部知識對NER性能影響到了何種程度。盡管最近在端到端神經網絡方法上已經取得了卓越的成績,但是本文的目的是提供透明度和用戶可理解的可解釋性。

我們通過設計一個簡單的模塊化框架來開發不同的外部知識源。根據信息源所傳達的知識深度,我們將信息源分為四個不同的類別,每個類別攜帶的信息都比前一個類別多。每個類別由一組反映每個源中包含的知識程度的特征組成。然后,我們使用線性CRF,一種透明的、廣泛使用的方法用于NER。

我們通過測試知識類別的各種組合,在兩個標準數據集上執行實驗。結果表明,知識量與NER性能高度相關。具有更多外部知識的配置系統勝過更多不可知論的系統。


模型


接下來我們詳細描述了四個知識類別。下表給出了使用外部知識類別特征的概述,特征用于訓練線性鏈CRF,這一種簡單易懂、對NER十分有效的方法。




知識不可知論(A):這個類別包含“local”特征,可以在沒有任何外部知識的情況下直接從文本中提取。它們大多具有詞匯、句法或語言學性質,在文學界已有大量研究。我們實現了Finkel中描述的大部分特征:

(1)當前詞和大小為2的窗口中的詞;(2)當前詞的詞形和大小為2的窗口中的詞;(3)大小為2的窗口中詞的POS標記;(4)前綴(長度3和4)和后綴(長度1至4);(5)當前詞在大小為4的窗口中存在的次數;(6)句子的開始部分。

基于名字的知識(名稱):我們從命名實體名稱列表中提取知識。這些特征試圖識別名稱中的模式,并利用不同名稱集有限的事實。我們從YAGO中提取了總計超過2000萬個名稱,并導出了以下特征:

經常提及的tokens。反映給定token在實體名稱列表中的頻率。我們標記了列表并計算了頻率。該特征賦予對應于它們的歸一化頻率的文本中的每個token的權重。高權重應該被分配給指示命名實體的token。例如,我們在英語中找到的前5位的符號是“county”, “john”, “school”, “station” 和 “district”。沒有出現的所有tokens的權重被分配0。

頻繁POS標簽序列。識別命名實體常見的POS序列。例如,人名往往被描述為一系列專有名詞,而組織可能具有更豐富的模式?!癘rganization of American States” 和 “Union for Ethical Biotrade” 都具有NNP-IN-NNP-NNP模式。我們排序名稱POS標簽序列,保留前100名。通過查找輸入文本中最長的匹配序列并標記當前token是否屬于頻繁序列來實現該特征。

基于知識庫的知識(KB):該類別組特征從KB或實體注釋語料庫中提取。他們編碼關于命名實體本身或用法的知識。我們采用了三個特征:

類型注入地名匹配。查找在特定類型的地名詞典中最長出現的token序列。根據token是序列的一部分,它向每個token添加二進制指示符。我們使用由Ratinov和Roth發布的30本字典,其中包含英文的類型名稱信息。還可以通過將每個字典映射到一組KB類型,并提取相應的名稱來自動創建這些字典。這種自動生成在多語言設置中是有用的。

維基百科鏈接概率。此特征測量token鏈接到命名實體維基百科頁面的可能性。從直覺上說,鏈接到命名實體頁面的標記更傾向于指示命名實體。例如,token“Obama”通常是鏈接的,而“box”不是。引用命名實體的頁面列表是從YAGO中提取的。給定文本中的token,如果文檔d中的tokent鏈接到另一個Wikipedia文檔,則根據等式1為其分配鏈接概率,其中linkd(t)等于1。若t在d中出現,則presentd等于1。




類型概率。對屬于給定類型的token的可能性進行編碼。它抓住了這樣一個概念,例如,“Obama”這個符號更像是一個人而不是一個地點。給定YAGO中的一組實體E,其中提到Me和tokenTem,我們計算給定token t的c ∈ C類的概率,如下式所示,其中如果實體e屬于c類,則c(e)=1,否則c(e)=0。對于文本中的每個token,我們為每種類型創建一個特征,以各自的概率作為其值。




token類型位置。反映token可以根據實體類型出現在不同的位置。例如,“Supreme Court of the United States”是一個組織,“United”出現在最后。在“United States”中,一個地點,它出現在開始。這有助于命名實體嵌套。

這是使用BILOU(Begin, Inside, Last, Outside, Unit)編碼實現的,它針對每個token出現的位置標記每個token。特征的數量取決于數據集中類型的數量(4個BILU位置乘以n個類+O位置)。對于每個token,每個特征接收給定token和位置的類概率。利用上式計算類概率,還包括標記位置。

因此,對于每個token,我們現在有超過4n+1類別的概率分布。以token“Obama”為例。我們希望,對于“B-Person”(即,姓氏與姓氏的組合)和“UPerson”(即,沒有姓氏的姓氏)類,它具有高的概率。所有其他類的概率將接近于零。相比之下,單詞“box”對于類“O”應該有很高的概率,對于所有其他類,它應該接近于零,因為我們不希望在許多命名實體中發生這種情況。

基于實體的知識(實體):這個類別對在文本中發現的實體的文檔特定知識進行編碼,以利用NER和NED之間的關聯。以前的工作表明,這些系統之間的信息流動產生了顯著的性能改進。

相對而言,該模塊需要更多的計算資源。它需要首先運行NED,來基于已消除歧義的命名實體生成文檔特定特征。這些特征在NER的第二次運行中使用。

隨后,在NED首次運行之后,我們創建了一組源自消除歧義的實體的文檔專用地名錄。此信息有助于第二輪查找先前丟失的新命名實體。比如“Some citizens of the European Union working in the United Kingdom do not meet visa requirements for non-EU workers after the uk leaves the bloc”。我們可以想象,在第一輪NED中,European Union 和United Kingdom很容易被識別,但“EU”或大小寫不當的“uk”也可能被忽略。在消除歧義之后,我們知道這兩個實體都是組織,并且分別具有別名EU和UK。然后,在第二輪中,更容易發現“EU”和“uk”。

在第一次運行NER+NED之后,我們從YAGO中提取所有被識別的實體的表面形式。這些被標記并分配了相應實體的類型,加上它的BILOU位置。例如,“Barack Obama”導致“Barack”和“Obama”,分別指定為“B-Person”和“L-Person”。有17個二進制特征(BILU標記乘以4個粗粒度類型+O標記),當token是包含從token到類型-BILOU對的映射列表的一部分時觸發。


實驗分析


實驗使用線性鏈CRF。CRF是透明的,廣泛用于NER任務。基于實體的組件使用AIDA實體消歧系統實現。我們在兩個標準的NER數據集上進行評估:COLL2003,一個英文通訊社的集合,包括四種類型的實體(PER、ORG、LOC、MISC);MUC-7,紐約時報的一組文章,其中注釋了三種類型的實體(PER、ORG、LOC)。

我們分析逐步增加外部知識的影響。下圖示出了四種變體。每個都包含對應于給定類別的特征。在所有情況下,增加知識可以提高F1性能。對于MUC-7測試來說,效果尤其明顯,總體上增加了近10點。在兩個數據集中,當添加基于KB的特征時,效果明顯提升。作為參考,迄今為止最好的系統之一(基于神經網絡的)在CoNLL2013測試中F1達到91.62,而我們的全知CRF的F1達到91.12。




下表顯示了知識類別的不同組合。從KB到Entity的改進表明KB特征被后面的特征所包含。這在某種程度上是預期的,因為實體特定信息是從相同的KB中提取的,并且都依賴于實體類型。然而,正如我們所看到的,這是有代價的。



我們分別針對基于A、Name、KB和Entity的特征測量314ms、494ms、693ms和4139ms(如下圖)。由于基于KB的特征在性能上與基于實體的特征相當,但是后者昂貴得多,因此這些發現允許從業人員仔細地決定附加的計算成本是否值得相對小的性能改進。我們特征類的模塊化允許在有效性/效率方面進行權衡,對系統進行最優調整。




為了證明我們方法的普遍適用性,我們為另外兩種語言,即德語和西班牙語,實現了NER系統。Name、KB和Entity知識類的所有特征都源自相應語言的Wikipedia。在CoNLL2003g上為德文進行性能評估,在CoNLL2002上為西班牙語進行性能評估。結果如下圖。與英語數據的性能類似,我們可以看到添加更多的外部知識可以提高性能。作為參考,我們發現,性能接近于最先進的兩種語言。我們的系統在德語中僅落后1.56 F1得分,在西班牙語中落后1.98 F1得分。





總結


本文通過定義四個特征類別,研究了外部知識對于執行命名實體識別任務的重要性。除了現有文獻中常用的特征外,我們還定義了四個新特征,并將它們合并到我們的分類方案中。實驗結果表明,盡管更多的外部知識導致性能提高,但它在性能上取得了相當大的折衷。

onq系統全稱是什么?

OnQ系統是希爾頓酒店集團自行開發的系統,可以說是開創了酒店業自主研發的先河。

OnQ的功能自然是按照希爾頓所需兒工作的,也就是最適合希爾頓使用的唯一系統。其核心是System 21酒店管理系統,目前已經發展到2.11版本,將會被重新命名為OnQ V2系統,它作為一個統一的前端系統,除了完成日常的酒店業務外,還可以透明地訪問到由其他后臺系統提供的數據,這些系統包括Focus收益管理系統、Group 1客戶聯絡管理系統、E.piphany客戶關系數據分析系統等,同時具有與各種電話計費系統、程控交換機系統、語音信箱系統、高速互聯網系統、迷你吧系統、門鎖系統、POS系統、收費電影系統、能源管理系統、客房內傳真系統的接口。

以上就是關于pos機命名,外部知識在命名實體識別任務中的重要性研究的知識,后面我們會繼續為大家整理關于pos機命名的知識,希望能夠幫助到大家!

轉發請帶上網址:http://www.tonybus.com/news/8284.html

你可能會喜歡:

版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 babsan@163.com 舉報,一經查實,本站將立刻刪除。