<nav id="iekgq"></nav><nav id="iekgq"></nav>

<li id="iekgq"></li>

<menu id="iekgq"></menu>

<dd id="iekgq"><optgroup id="iekgq"></optgroup></dd>

POS機代理咨詢：18926793742

實錄鄉pos機辦理,預訓練模型在多語言

新聞資訊2 | 2023-06-14 09:17 | 投稿人：pos機之家

網上有很多關于實錄鄉pos機辦理,預訓練模型在多語言的知識，也有很多人為大家解答關于實錄鄉pos機辦理的問題，今天pos機之家(www.tonybus.com)為大家整理了關于這方面的知識，讓我們一起來看下吧!

本文目錄一覽：

1、實錄鄉pos機辦理

實錄鄉pos機辦理

8月29日至30日，由中國科學技術協會、中國科學院、南京市人民政府為指導單位，中國人工智能學會、南京市建鄴區人民政府、江蘇省科學技術協會主辦的主題為“智周萬物”的2020年中國人工智能大會（CCAI 2020）在江蘇南京新加坡·南京生態科技島舉辦。在大會上，微軟亞洲研究院副院長、國際計算語言學會（ACL）前任主席周明做了主題為《預訓練模型在多語言、多模態任務的進展》的特邀報告。

周明微軟亞洲研究院副院長、國際計算語言學會（ACL）前任主席

以下是周明老師的演講實錄：

自然語言處理（NLP），目的是使得計算機具備人類的聽、說、讀、寫、譯、問、答、搜索、摘要、對話和聊天等能力，并可利用知識和常識進行推理和決策，并支持客服、診斷、法律、教學等場景。自然語言理解，被認為是AI皇冠上的明珠。一旦有突破，則會大幅度推動AI在很多重要場景落地。

過去這五年，對自然語言是一個難忘的五年，它的一個標志就是神經網絡全面引入到了自然語言理解。從大規模的語言數據到強有力的算力，加上深度學習，把整個自然語言帶到一個新的階段。

今天我要講的預訓練模型，它使自然語言處理由原來的手工調參、依靠ML專家的階段，進入到可以大規模、可復制的大工業施展的階段，令我們這個領域的人感到非常振奮。而且預訓練模型從單語言、擴展到多語言、多模態任務。一路銳氣正盛，所向披靡。那么，預訓練模型到底是什么，它是怎么應用在很多產品里，未來又有哪些發展機會和挑戰呢。下面試圖由淺入深地給大家介紹一下。

一、預訓練模型

下面簡要介紹預訓練模型的基礎技術，包括Transformer、自監督學習、微調。然后詳細介紹預訓練模型在語言、圖像、文檔和視頻等任務中的進展，

預訓練通過自監督學習從大規模數據中獲得與具體任務無關的預訓練模型。體現某一個詞在一個特定上下文中的語義表征。第二個步驟是微調，針對具體的任務修正網絡。訓練數據可以是文本、文本-圖像對、文本-視頻對。預訓練模型的訓練方法可使用自監督學習技術（如自回歸的語言模型和自編碼技術）?？捎柧殕握Z言、多語言和多模態的模型。此類模型可經過微調之后，用于支持分類、序列標記、結構預測和序列生成等各項技術，并構建文摘、機器翻譯、圖片檢索、視頻注釋等應用。

為什么我們要做預訓練模型？首先，預訓練模型是一種遷移學習的應用，利用幾乎無限的文本，學習輸入句子的每一個成員的上下文相關的表示，它隱式地學習到了通用的語法語義知識。第二，它可以將從開放領域學到的知識遷移到下游任務，以改善低資源任務，對低資源語言處理也非常有利。第三，預訓練模型在幾乎所有 NLP 任務中都取得了目前最佳的成果。最后，這個預訓練模型+微調機制具備很好的可擴展性，在支持一個新任務時，只需要利用該任務的標注數據進行微調即可，一般工程師就可以實現。

下面介紹預訓練模型的三個關鍵技術。

首先，第一個關鍵技術是Transformer。它在NLP各個任務中都取得了優異的性能，它是預訓練語言模型的核心網絡。給定一句話或是一個段落作為輸入，首先將輸入序列中各個詞轉換為其對應的詞向量，同時加上每一個詞的位置向量，體現詞在序列的位置。然后將這些詞向量輸入到多層Transformer網絡中，通過自注意力（self-attention）機制來學習詞與詞之間的關系，編碼其上下文信息；再通過一個前饋網絡經過非線性變化，輸出綜合了上下文特征的各個詞的向量表示。每一層Transformer網絡主要由Multi-head self-attention層（多頭自注意力機制）和前饋網絡層兩個子層構成。Multi-head self-attention會并行地執行多個不同參數的self-attention，并將各個self-attention的結果拼接作為后續網絡的輸入，self-attention機制會在后面中做詳細介紹。此后，我們得到了蘊含當前上下文信息的各個詞的表示，然后網絡會將其輸入到前饋網絡層以計算非線性層次的特征。

在每一層Transformer網絡中，會將殘差連接（residual connection）把自注意力機制前或者前饋神經網絡之前的向量引入進來，以增強自注意力機制或者前饋網絡的輸出結果向量。并且還做一個layer normalization，也就是通過歸一化把同層的各個節點的多維向量映射到一個區間里面，這樣各層節點的向量在一個區間里面。這兩個操作加入在每個子層后，可更加平滑地訓練深層次網絡。

Transformer可以用于編碼，也可以用于解碼。所謂解碼就是根據一個句子的輸入得到一個預想的結果，比如機器翻譯（輸入源語言句子，輸出目標語言句子），或者閱讀理解（輸入文檔和問題，輸出答案）。解碼時，已經解碼出來的詞要做一個自注意力機制，之后和編碼得到的隱狀態的序列再做一個注意力機制。這樣可以做N層。然后通過一個線性層映射到詞表的大小的一個向量。每個向量代表一個詞表詞的輸出可能性，經過一個Softmax層得到每個詞的輸出概率。

接下來詳細介紹self-attention機制，以一個head作為示例。假定當前輸入包含三個詞，給定其輸入詞向量或是其上一層Transformer網絡的輸出，將其通過三組線性變換，轉換得到三組queries、keys 和 values向量。query和key向量用來計算兩兩詞之間的得分，也就是其依賴關系，這個得分會同其對應的value向量做加權和，以得到每個詞綜合上下文信息的表示。給定當前第一個詞的query向量，其首先同各個詞的key向量通過點積操作得到這兩個詞的得分，這些得分用來表示這兩個詞的依賴或是相關程度。這些得分之后會根據query等向量的維度做一定比例的縮放，并將這些得分通過softmax操作做歸一化。之后，各個得分會同其相對應的value向量相乘得到針對第一個詞加權的各個value向量，這些加權的value向量最終相加以得到當前第一個詞的上下文表示。

在得到第一個詞的上下文表示后，給定第二個詞的query向量，我們會重復之前的操作，計算當前query向量同各個詞key向量的得分，對這些得分做Softmax歸一化處理，并將這些得分同其對應的value向量做加權和，以得到其編碼上下文信息的表示。

下面是一個最簡化的例子以便簡單說明自注意力機制。為了簡單起見，這里假設Q、K和V的變化都不起作用，也就是不變。

輸入是The weather is nice today。利用自注意力機制調整每個詞的表示。比如The。我們認為它要受到其他所有詞的影響。但是影響力可大可小。那么每個詞的影響力是通過計算the 與每個詞的關聯度，然后通過一個softmax歸一化得到一個權值。每個詞一個權值。這樣the的最后表示就是和每個詞計算關聯度的結果之和。

多頭注意力機制就是對一個節點，可以設置幾組K、Q和V，分別計算關聯度（通過Q和K計算點積）和加權調整的值（通過V和關聯度計算）。幾組結果可以拼在一起，通過一個線性變換，體現多角度的特征抽取。多頭可以是16個頭、12個頭等。

第二個關鍵技術是自監督學習。在預訓練的模型中，AR（自回歸）LM 和 AE（自動編碼器）是最常用的自監督學習方法，其中，自回歸LM 旨在利用前面的詞序列預測下個詞的出現概率（語言模型）。自動編碼器旨在對損壞的輸入句子，比如遮掩了句子某個詞、或者打亂了詞序等，重建原始數據。通過這些自監督學習手段來學習單詞的上下文相關表示。

第三個關鍵技術就是微調。在做具體任務時，微調旨在利用其標注樣本對預訓練網絡的參數進行調整。以我們使用基于BERT（一種流行的預訓練模型）為例來判斷兩個句子是否語義相同。輸入是兩個句子，經過BERT得到每個句子的對應編碼表示，我們可以簡單地用預訓練模型的第一個隱節點預測分類標記判斷兩個句子是同義句子的概率，同時需要額外加一個線性層和softmax計算得到分類標簽的分布。預測損失可以反傳給 BERT再對網絡進行微調。當然也可以針對具體任務設計一個新網絡，把預訓練的結果作為其輸入。

下面介紹預訓練模型的歷史沿革。預訓練模型的發展雖然這幾年才大熱，但是我覺得源于早期的詞嵌入（word embedding）的工作。比如Word2Vec。它的訓練的結果是詞的嵌入，是一個靜態的表示；此后ULMFiT 是第一個使用RNN基于LM訓練的上下文相關的預訓練模型；CoVe利用翻譯任務來訓練編碼器-解碼器，并使用編碼器作為預訓練模型；ELMo 使用雙向 LSTM合并兩個方向的隱狀態獲得上下文相關表示；GPT采用LM進行訓練，它是基于Transformer的單向預訓練模型；BERT是基于Transformer的基于掩碼的預訓練模型；MT-DNN基于BERT增加了一些任務進行多任務訓練；MASS使用編碼-解碼器來訓練預訓練模型；UNILM嘗試同時支持語言理解和生成任務。把預訓練模型用于多語言任務：XLM是一種支持多語言的BERT模型；Unicoder引入若干新的任務改進了 XLM；T5把多種自然語言任務（比如機器翻譯、問答），用了更大的數據，在一個網絡訓練，同時支持這些任務；BART是一種編碼-解碼器模型，通過還原損壞的句子訓練；mBART將 BART理念擴展到多語言。另外還有最新的很多模型恕我這里沒有全部列出。此外也擴展到多模態。

這是一個更加詳細的總結。名稱、用途、架構、特點，這里就不詳細說明了。

總體來講，預訓練模型發展趨勢：第一，模型越來越大。比如Transformer的層數變化，從12層的Base模型到24層的Large模型。導致模型的參數越來越大，比如GPT 110 M，到GPT-2是1.5 Billion，圖靈是17 Billion，而GPT-3達到了驚人的175 Billion。一般而言模型大了，其能力也會越來越強。但是訓練代價確實非常大。第二，預訓練方法也在不斷增加，從自回歸LM，到自動編碼的各種方法，以及各種多任務訓練等。第三，還有從語言、多語言到多模態不斷演進。最后就是模型壓縮，使之能在實際應用中經濟的使用，比如在手機端。這就涉及到知識蒸餾和teacher-student models，把大模型作為teacher，讓一個小模型作為student來學習，接近大模型的能力，但是模型的參數減少很多。

預訓練模型舉例說明

BERT

這里用BERT舉例說明預訓練模型訓練方法。基于Transformer。其基本模型為 12 層模型，還有一個大型模型為 24 層模型。這里說明幾個關鍵地方。

1. tokenizer，簡單地理解為詞的切分，比如工具BPE。針對一個數據集合，BPE工具自動獲得該數據集的token的集合，取頻率最高的前N個token作為詞表，其他的token都看作是UNK（unknown word）。

2. 對數據集合的每個數據，通過BPE做tokenize，形成token的序列。

3. 訓練時，每個token有一個多維向量表示，比如1 024維。隨機初始化。

4. 計算預測的損失。該損失反向傳播來調整各層的網絡參數。也包括每個token的多維向量表示。

5. 最后訓練的結果，包括每個token的多維向量表示、每層的網絡參數，以及各個attention model的參數等。

6. 在用預訓練模型時，把輸入序列tokenize之后，對每個token，從詞典中得到多維向量表示。然后根據每層的網絡參數，計算輸出。

訓練任務：BERT使用了掩碼語言模型（就是蓋住一個單詞或者多個單詞，然后讓模型預測）。損失用來調整網絡。

BERT還使用NSP（下一句預測），旨在預測第二句是否是第一句的下一句。

UniLM

UniLM由微軟研究院自然語言計算組開發，是一種最先進的預訓練的模型，用于語言理解和生成任務。首先它是一個transformer機制。用了三個任務訓練：第一個任務就是掩碼語言模型（就是自編碼）類似于BERT，利用左右詞匯預測被蓋住的詞；第二個任務就是自回歸語言模型，類似GPT，利用前面的詞序列預測下一個詞；第三個任務就是編碼-解碼模型，利用輸入句子和已經輸出的詞來預測接下來的詞。這三個任務進行多任務訓練。通過一個掩碼矩陣控制哪些詞可以用來attention。訓練得到的模型具備了理解和生成兩種能力。在GLUE任務集合、文摘生成和答案抽取等任務上都取得了當時最好的水平。

預訓練模型已廣泛應用于產品，比如提高搜索的相關性等。上圖顯示必應搜索使用了我們預訓練模型的問答系統，給定一個NL問題，系統提取包含答案的文本并確定答案部分。它也可以用于問題生成。給定一個文本，生成關于這個文本的若干問題?？梢杂糜谡Z言教育等領域。

二、預訓練模型在多語言任務的應用

有許多語言中，它們都有大量的單一語言數據，并且某些語言對之間存在一些對照數據。我們可以學習一個跨語言的預訓練模型，其中來自兩種不同語言的單詞，如果具有相似的含義，將聯系在一起。然后，基于預訓練的模型要建立某個具體任務的系統。對某些語言，如果有帶標注的數據，利用之經微調可以得到一個系統。所得到的模型應用于其他語言的同一個任務，即使該語言沒有標注數據，也有一定效果。該語言如有標注數據也可進一部微調。這樣實現了跨語言之間的遷移學習。

下面介紹一個典型多語言預訓練模型XLM。它將BERT擴展到多語言理解任務。XLM中使用了兩個任務。第一個是掩碼（屏蔽）語言模型，它與BERT中類似，輸入是一個句子，可以是A語言、也可以是B語言。通過共享所有語言的模型參數和詞匯，XLM可以獲得跨語言功能。第二個任務是TLM（翻譯語言模型），它叫做翻譯，其實并沒有考慮對譯關系。輸入是雙語對照句對，看作一個語言，去訓練掩碼語言模型。

我們開發的Unicoder-1進一步增加了跨語言訓練新任務。除了在單語句子上進行單詞和短語層面的“掩碼LM”，以及對雙語句子進行掩碼LM（稱作翻譯LM）之外，我們增加一個新的訓練任務：在利用了Giza+做了單詞對齊之后，通過預測兩個單詞的對譯關系是否存在。這個任務可以在單詞級別做、短語級別做，也可以在句子級別做。不僅用正例，也引入了反例，通過對比式學習，加強學習效果。

我們還將 Unicoder 擴展到跨語言生成任務。這個預訓練模型UNICODER-2做了如下任務訓練：給定來自多語言語料庫的輸入句子，首先打亂其句子，對文本加噪音，然后通過解碼器嘗試恢復。解碼時可以傳統方法每次僅預測一個token，也可通過我們最近的Prophet（先知）網絡一起預測兩個token或者多個token，然后取第一個詞輸出，再預測下一位置的token。這樣做預測能力有新的提高。

我們建立了多語言任務的評測數據集XGLUE。XLGUE中的 11 個下游任務，其中包括NER（命名實體識別）、POS（詞性標注）等?，F在XGLUE已經發布。這些任務現在涵蓋 19 種語言。

我們在XGLUE上評測了多個跨語言預訓練模型（包括 MBERT、XLM、XLM-R 和 Unicoder），并在上表中列出比較結果?？梢钥吹?，我們的Unicoder 在許多理解和生成任務上實現了最佳的平均性能。

多語言預訓練模型可以把英語的模型應用到其他語言。英語的標注數據比較多，而其他語言往往缺少標注數據。因此，利用多語言預訓練模型可以對新的語言，做zero-shot或者few-shot的學習。比如這里展示了問答系統。英文問答數據finetune訓練的QA在法語、德語上也有很好的效果。也可以產生新聞的標題。同樣也是在英語標注集合finetune訓練之后的系統，也可以生成其他語言的標題。

這里總結一下多語言預訓練模型。它緩解了多種語言的資源短缺問題。多語言預訓練模型幫助多語言搜索、QA、廣告、新聞、文本摘要、低資源神經機器翻譯等取得新的提升。

多語言預訓練模型仍然面臨許多挑戰，首先最有效的預訓練任務仍然是掩碼LM（在多語種或雙語語料庫上），我們要拓展新的任務以便充分利用多語言/雙語的特點。第二，詞匯表比單語言的預訓練模型（例如BERT / RoBERTa）大得多，單語3萬，多語25萬。這樣導致要學的模型參數就會增加很多，訓練的開銷更大。第三，有的語言對有詞匯、語法的同源關系，遷移學習效果好，比如英語的finetune結果對法語、意大利語、西班牙語比較好，而對漢語的效果不太明顯。下一步可以考慮在語系內部進行多語言模型訓練。

三、預訓練模型在多模態任務的應用

圖像-語言的預訓練模型

圖像-語言的預訓練模型的目的，可以是用于理解或者生成。這里僅介紹理解用的預訓練模型。做法如下：給定一個包含一幅圖片和對應的caption（就是文字描述）的數據庫。比如這個例子包括圖片和對應的文字描述。首先對這個數據庫進行預處理，用FASTER-RCNN 得到圖片每個對象label的分布，以及對象的輸出向量表示（softmax之前的輸出向量表示）。一個圖片的所有對象按照從左到右、從上到下的順序排列，可以形成一個序列。和文本序列排列在一起。我們可以用BERT方式訓練一個預訓練模型，比如掩碼的方式，蓋住文字段的某個token來預測這個token?；蛘呱w住對象序列的某一個對象來預測這個對象的輸出向量表示，或者直接預測這個對象的label。另外預測對象序列和text是否是相互描述。

現有工作基于大致相似的網絡結構。我們是最早發表的工作之一。我們增加了一個新的訓練任務，即對象的輸出向量還原為對象的FASTER-RCNN的原始向量，取得了改進效果。

在Flickr30K（image retrieval和captioning的數據集），image2text和text2image兩個任務。Text2image任務是給定text，從1 K的圖片（給定）排序，得到最優的匹配。MSCOCO（微軟提供的數據集）任務完全與Flick30K一樣。Pre-training dataset是三百萬image-caption pairs 的谷歌提供的 Conceptual Captions。目前最好的系統：ViLBERT來自facebook，UNITER來自微軟產品組。UNICODER-VL由于增加了新的訓練任務（如前述），預訓練模型對圖片和文本的編碼能力有所提升，得到了較好效果。

文檔-語言的預訓練模型

我們開發的多模態的預訓練模型LayoutLM，通過對掃描的文檔，利用OCR識別之后的文字片段和文字對照的圖像同時進行預訓練。基于該預訓練模型，抽取表格里的重要信息，包括語義類別和值。獲得了目前在相關任務評測集的最高的水平（發表在KDD2020）。

這是目前可用的訓練數據集合，含有11 Million掃描文檔和識別的結果。NIST發表的，最主要的16類數據（信件、表格、收據等），包含了掃描文檔及其對應的OCR結果。我們重新用OCR（開源工具）https://github.com/tesseract-ocr/tesseract，以便得到識別對象的坐標信息。

我這里解釋一下我們做的LayoutLM預訓練模型。

首先一個掃描的文檔（digital burned doc），進入OCR引擎可以得到識別的結果，就是一個個的字符（以BPE分詞之后表示）串，以及在文檔中的起始位置坐標。字符串的序列和位置坐標（四個數字）作為預訓練輸入。然后通過類似BERT的掩碼方式（就是蓋住其中某些token）通過12層（或者24層）的Transformer來預測被蓋住的token。預測的損失回傳調整網絡的全部參數。當然可以增加其他的訓練任務，比如判斷文檔的分類。通過對大規模的OCR識別的數據進行訓練，可以得到一個預訓練模型。這個預訓練模型在進行下游任務時要微調。微調時，可以直接用預訓練模型作為輸入進行微調，也可以把文檔中的對應token的圖像編碼也作為輸入，增強預訓練的信號。

訓練任務1：掩碼訓練類似于BERT。預測被蓋住的token，其損失回傳，調整網絡。

預訓練任務2：判斷圖像的分類。按照原來數據集的分類標注，進行訓練。

下游任務之一是表單理解。給一個文檔，識別出文檔中包含key-value，就是實體語義類型（比如時間、地點、數目）和實體的值。通過標記BIO風格的序列，就可以得到識別結果。

我們的LayoutLM對幾個重要的下游任務都取得了最佳的結果。比如表單理解、收據信息抽取等等。這里不再贅述。

視頻-語言的預訓練模型

下面介紹Video-NL預訓練模型。對每個Video片段和對應的NL描述（語音識別的結果）建立這樣的網絡結構，左邊NL的token序列，右邊是視頻按照時間序列均勻切分（1.5 秒）的video clip的序列，可以用S3D等工具，每個video clip對應一個輸出向量表示。進入Video encoder。文本序列和video clip序列拼接起來進入Transformer。多層（比如三層、四層），后面跟著一個解碼，利用一個encoder-decoder結果來做預訓練。使用了如下四個任務進行預訓練。

? Video-text alignment任務用來判斷輸入的video clip和text是否相互描述。

? Masked language model任務用來預測transcript里被mask掉的單詞。

? Transcript generation任務基于輸入的video clip，生成對應的video transcript，這時還有NL段置空了。

? Masked frame model任務用來預測被mask掉的video clip對應的video feature vector。

UNICODER-VL擴展到video。與其他工作相比，我們把理解和生成集成在一個預訓練模型，既可以理解，也有生成能力。預訓練的語料是，HowTo100M作為pre-train語料。它是從Youtube上抓下來的1.2 M視頻，切分成136 M視頻片段，根據時間軸配上文字說明（youtube自帶的）。下游任務finetune目前我們使用YouCook2的菜譜視頻，以及MSR-VTT微軟發布的（視頻-caption）對的數據集合。

下游任務包括視頻搜索和視頻caption生成兩個任務。首先是檢索任務——給定NL的query，從一個固定視頻片段中搜索最匹配的視頻片段。然后是caption任務——給定一段視頻，加上transcript，生成對應的caption。我們的提交系統目前取得了最好的評測結果。

這樣的預訓練模型有很多應用。這里用Video chaptering來說明。它分為兩個任務，一個是video segmentation，用于對輸入video進行clip切分；一個是video captioning，用于對每個video clip生成一個總結性的內容。

我總結一下多模態預訓練模型。目前它尚處于初期階段。遵循大多數NLP預訓練模型，用Transformer機制，從有限的圖像/視頻-語言數據集中學習聯合表示，可以計算圖像/視頻片段和文字描述的距離，并實現圖像/視頻-文字之間的轉換。多模態預訓練模型雖然剛剛開始還不成熟，但是已經在圖像/視頻的搜索，以及生成文字描述當任務中顯示出不錯的前景。

當然，多模態預訓練模型仍然面臨許多挑戰。首先，圖像/視頻-語言對的數據的大小仍然比自然語言語料庫小得多。第二，CV僅僅用于特征提取，目前并沒有將CV模型和NLP模型共同訓練。當然目前沒有好的算法，而且訓練的cost非常大。第三，與之有關，就是CV的對象識別，目前的類別僅限于1 000類左右，對真實場景的覆蓋不夠，而且識別的精度也不夠，導致預訓練的輸入信號天然帶有誤差。第四，對于多模態預訓練模型，目前都是用Transformer機制，但是它的代價比較大，而且是否最合適對圖像/視頻-文字建立關聯，還需要進一步探索。第五，圖片和視頻的預訓練模型也不一樣，由于視頻有時序，因此視頻的分割按照固定時長分割，缺乏邏輯意義。而且視頻的token會比NL多很多，導致訓練的代價比圖片和文字的預訓練大很多。

結束語

NLP經歷了第一代的基于規則的NLP；第二代的基于統計的NLP；五年前進入到基于神經網絡的第三代NLP（NN-NLP），在大數據、大模型、神經網絡框架下取得了很好的進展，形成了一整套的技術。而現在更進一步，預訓練+微調形成了工業化可擴展的解決方案。預訓練模型把遷移學習很好地用起來了，讓我們感到眼前一亮。這和小孩子讀書一樣，一開始語文、數學、化學都學，讀書、網上游戲等，在腦子里積攢了很多。當他學習計算機時，實際上把他以前學到的所有知識都帶進去了。如果他以前沒上過中學，沒上過小學，突然學計算機就不懂這里有什么道理。這和我們預訓練模型一樣，預訓練模型就意味著把人類的語言知識，先學了一個東西，然后再代入到某個具體任務，就順手了，就是這么一個簡單的道理。這要感謝楊強老師做的遷移學習，真的是有效。

預訓練體現出所有的自監督的訓練。如果為了做預訓練要標數據則失去意義，因為標不了太大數據，很多知識體現不出來。恰好自然語言有幾乎無限的語料，用語言模型或者用自編碼方法自監督學習。一個預訓練模型，只要訓出來以后，后續所有任務，都可以得到很好的處理。對一個任務，只要數據足夠大的任務，預訓練加微調機制基本可以搞定了。當然還需要研究zero-shot，few-shot等問題，這些還有研究空間。

預訓練模型在多語言任務中，rich-resource 的模型會遷移到low-resource語言任務中，減輕了數據不足的問題。預訓練模型在文本中表現出色，基本可以實用。而在多模態任務中，則方興未艾，還有巨大探索空間。比如圖片/視頻的預處理、訓練任務的設計都將有很多有趣的研究。

要想邁向下一個階段也有很多問題，比如現有的預訓練模型是不是最優的？有沒有更好的訓練任務、更好的神經網絡架構？訓練是否可以更快？模型是否可以更?。楷F在瘋狂追求大模型，耗盡計算資源，同時也污染了環境，是不是我們可以接受的？還有現有的模型在利用知識、嘗試、進行推理，并且提供解釋等方面仍然沒有看到任何清晰的解決前景。這些都是難題。我希望大家一起繼續努力，把這些問題好好想想，努力把NLP推向一個新的高度。

致謝：

本文所涉及的許多研究項目為微軟亞洲研究院自然語言計算組的許多同事和同學共同完成。非常感謝他們的貢獻。這里要特別感謝段楠對本講座提供了豐富材料并幫助完善PPT。同時我也感謝韋福如、崔磊和王文輝提供了部分重要內容。

（本報告根據速記整理）

CAAI原創丨作者周明

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智能學會

以上就是關于實錄鄉pos機辦理,預訓練模型在多語言的知識，后面我們會繼續為大家整理關于實錄鄉pos機辦理的知識，希望能夠幫助到大家！

轉發請帶上網址：http://www.tonybus.com/newsone/67577.html

上一篇：銀行卡收到pos機轉賬,內幕丨黑客復制手機卡轉走14萬存款下一篇：有對公賬戶并辦了pos機,POS機公司笑了

亚洲欧美天堂网_精品日韩在线视频_国产三级在线观看播放大学生_中文字幕ヘンリー冢本全集

<nav id="iekgq"></nav><nav id="iekgq"></nav>

<li id="iekgq"></li>

<menu id="iekgq"></menu>

<dd id="iekgq"><optgroup id="iekgq"></optgroup></dd>

>