NLP預訓練模型的研究進展有哪些?
本文介紹了一種新的語言表征模型 BERT——來自 Transformer 的雙向編碼器表征。與最近的語言表征模型不同,BERT 旨在基于所有層的左、右語境來預訓練深度雙向表征。BERT 是首個在大批句子層面和 token 層面任務中取得當前最優性能的基于微調的表征模型,其性能超越許多使用任務特定架構的系統,刷新了 11 項 NLP 任務的當前最優性能記錄。
近日,谷歌 AI 的一篇NLP論文引起了社區極大的關注與討論,被認為是 NLP 領域的極大突破。如谷歌大腦研究科學家 Thang Luong Twitter 表示這是 NLP 領域的新時代。
Twitter 上也有眾多研究者參與討論、轉發了這篇論文:
這篇刷新了 11 項 NLP 任務的論文不久之前已經上線,讓我們一睹為快:
研究證明語言模型預訓練可以有效改進許多自然語言處理任務,包括自然語言推斷、復述(paraphrasing)等句子層面的任務,以及命名實體識別、SQuAD 問答等 token 層面的任務。前者通過對句子進行整體分析來預測句子之間的關系,后者則要生成 token 級別的細粒度輸出。
目前將預訓練語言表征應用于下游任務存在兩種策略:基于特征的策略和微調策略(fine-tuning)。基于特征的策略(如 ELMo)使用將預訓練表征作為額外特征的任務專用架構。微調策略(如生成預訓練 Transformer (OpenAI GPT))引入了任務特定最小參數,通過簡單地微調預訓練參數在下游任務中進行訓練。在之前的研究中,兩種策略在預訓練期間使用相同的目標函數,利用單向語言模型來學習通用語言表征。
本論文作者(即 Google AI Language 團隊的研究人員)認為現有的技術嚴重制約了預訓練表征的能力,微調策略尤其如此。其主要局限在于標準語言模型是單向的,這限制了可以在預訓練期間使用的架構類型。例如,OpenAI GPT 使用的是從左到右的架構,其中每個 token 只能注意 Transformer 自注意力層中的先前 token。這些局限對于句子層面的任務而言不是最佳選擇,對于 token 級任務(如 SQuAD 問答)則可能是毀滅性的,因為在這種任務中,結合兩個方向的語境至關重要。
本文通過 BERT(Bidirectional Encoder Representations from Transformers)改進了基于微調的策略。BERT 提出一種新的預訓練目標——遮蔽語言模型(masked language model,MLM),來克服上文提到的單向局限。MLM 的靈感來自 Cloze 任務(Taylor, 1953)。MLM 隨機遮蔽輸入中的一些 token,,目標在于僅基于遮蔽詞的語境來預測其原始詞匯 id。與從左到右的語言模型預訓練不同,MLM 目標允許表征融合左右兩側的語境,從而預訓練一個深度雙向 Transformer。除了 MLM,我們還引入了一個「下一句預測」(next sentence prediction)任務,該任務聯合預訓練文本對表征。
本文貢獻如下:
展示了雙向預訓練語言表征的重要性。不同于 Radford 等人(2018)使用單向語言模型進行預訓練,BERT 使用 MLM 預訓練深度雙向表征。本研究與 Peters 等人(2018)的研究也不同,后者使用的是獨立訓練的從左到右和從右到左 LM 的淺層級聯。
證明了預訓練表征可以消除對許多精心設計的任務特定架構的需求。BERT 是首個在大批句子層面和 token 層面任務中取得當前最優性能的基于微調的表征模型,其性能超越許多使用任務特定架構的系統。
BERT 刷新了 11 項 NLP 任務的當前最優性能記錄。本論文還報告了 BERT 的模型簡化測試(ablation study),證明該模型的雙向特性是最重要的一項新貢獻。代碼和預訓練模型將發布在 goo.gl/language/bert。
論文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
論文地址:https://arxiv.org/pdf/1810.04805.pdf
摘要:本文介紹了一種新的語言表征模型 BERT,意為來自 Transformer 的雙向編碼器表征(Bidirectional Encoder Representations from Transformers)。與最近的語言表征模型(Peters et al., 2018; Radford et al., 2018)不同,BERT 旨在基于所有層的左、右語境來預訓練深度雙向表征。因此,預訓練的 BERT 表征可以僅用一個額外的輸出層進行微調,進而為很多任務(如問答和語言推斷任務)創建當前最優模型,無需對任務特定架構做出大量修改。
BERT 的概念很簡單,但實驗效果很強大。它刷新了 11 個 NLP 任務的當前最優結果,包括將 GLUE 基準提升至 80.4%(7.6% 的絕對改進)、將 MultiNLI 的準確率提高到 86.7%(5.6% 的絕對改進),以及將 SQuAD v1.1 的問答測試 F1 得分提高至 93.2 分(提高 1.5 分)——比人類表現還高出 2 分。
BERT本節介紹 BERT 及其實現細節。
模型架構
BERT 的模型架構是一個多層雙向 Transformer 編碼器,基于 Vaswani 等人 (2017) 描述的原始實現,在 tensor2tensor 庫中發布。由于 Transformer 的使用最近變得很普遍,而且我們的實現與原始版本實際相同,我們將不再贅述模型架構的背景。
在本文中,我們將層數(即 Transformer 塊)表示為 L,將隱藏尺寸表示為 H、自注意力頭數表示為 A。在所有實驗中,我們將前饋/濾波器尺寸設置為 4H,即 H=768 時為 3072,H=1024 時為 4096。我們主要報告在兩種模型尺寸上的結果:
BERTBASE: L=12, H=768, A=12, 總參數=110M
BERTLARGE: L=24, H=1024, A=16, 總參數=340M
為了比較,BERTBASE 的模型尺寸與 OpenAI GPT 相當。然而,BERT Transformer 使用雙向自注意力機制,而 GPT Transformer 使用受限的自注意力機制,導致每個 token 只能關注其左側的語境。我們注意到,雙向 Transformer 在文獻中通常稱為「Transformer 編碼器」,而只關注左側語境的版本則因能用于文本生成而被稱為「Transformer 解碼器」。圖 1 直觀顯示了 BERT、OpenAI GPT 和 ELMo 的比較結果。
圖 1:預訓練模型架構之間的區別。BERT 使用雙向 Transformer,OpenAI GPT 使用從左到右的 Transformer,ELMo 使用獨立訓練的從左到右和從右到左 LSTM 的級聯來生成下游任務的特征。三種模型中,只有 BERT 表征會基于所有層中的左右兩側語境。
預訓練任務
與 Peters 等人 (2018) 和 Radford 等人 (2018) 不同,我們不使用傳統的從左到右或從右到左的語言模型來預訓練 BERT,而是使用兩個新型無監督預測任務。
任務 #1:Masked LM
為了訓練深度雙向表征,我們采取了一個直接的方法,隨機遮蔽輸入 token 的某些部分,然后預測被遮住的 token。我們將這一步驟稱為「masked LM」(MLM),不過它在文獻中通常被稱為 Cloze 任務 (Taylor, 1953)。在這種情況下,對應遮蔽 token 的最終隱藏向量會輸入到 softmax 函數中,并如標準 LM 中那樣預測所有詞匯的概率。在所做的所有實驗中,我們隨機遮住了每個序列中 15% 的 WordPiece token。與去噪自編碼器 (Vincent et al., 2008) 相反,我們僅預測遮蔽單詞而非重建整個輸入。
任務 #2:下一句預測
很多重要的下游任務(如問答(QA)和自然語言推斷(NLI))基于對兩個文本句子之間關系的理解,這種關系并非通過語言建模直接獲得。為了訓練一個理解句子關系的模型,我們預訓練了一個二值化下一句預測任務,該任務可以從任意單語語料庫中輕松生成。具體來說,選擇句子 A 和 B 作為預訓練樣本:B 有 50% 的可能是 A 的下一句,也有 50% 的可能是來自語料庫的隨機句子。
實驗這部分,我們將展示 BERT 在 11 個 NLP 任務上的微調結果。
圖 3:我們的任務特定模型是由向 BERT 添加了一個額外的輸出層而形成的,因此一小部分參數需要從頭開始學習。在眾多任務中,(a) 和 (b) 任務是序列級任務,(c) 和 (d) 是 token 級任務,圖中 E 表示輸入嵌入,T_i 表示 token i 的語境表征,[CLS] 是分類輸出的特殊符號,[SEP] 是分割非連續 token 序列的特殊符號。
表 1:GLUE 測試結果,評分由 GLUE 評估服務器得到。每個任務下面的數字表示訓練樣本的數量。「Average」列與 GLUE 官方分數略微不同,因為我們排除了有問題的 WNLI 集。OpenAI GPT = (L=12, H=768, A=12);BERT_BASE = (L=12, H=768, A=12);BERT_LARGE = (L=24, H=1024, A=16)。BERT 和 OpenAI GPT 是單個模型、單個任務。所有結果來自于以下地址:https://gluebenchmark.com/leaderboard 和 https://blog.openai. com/language-unsupervised/。
表 2:SQuAD 結果。BERT 集成是使用不同預訓練檢查點和微調種子(fine-tuning seed)的 7x 系統。
表 3:CoNLL-2003 命名實體識別結果。超參數通過開發集來選擇,得出的開發和測試分數是使用這些超參數進行五次隨機 restart 的平均值。