新聞中心
在即將過(guò)去的 2018 年中,自然語(yǔ)言處理有很多令人激動(dòng)的想法與工具。從概念觀點(diǎn)到實(shí)戰(zhàn)訓(xùn)練,它們?yōu)?NLP 注入了新鮮的活力。

創(chuàng)新互聯(lián)專注于網(wǎng)站建設(shè)|網(wǎng)站建設(shè)維護(hù)|優(yōu)化|托管以及網(wǎng)絡(luò)推廣,積累了大量的網(wǎng)站設(shè)計(jì)與制作經(jīng)驗(yàn),為許多企業(yè)提供了網(wǎng)站定制設(shè)計(jì)服務(wù),案例作品覆蓋門(mén)簾等行業(yè)。能根據(jù)企業(yè)所處的行業(yè)與銷售的產(chǎn)品,結(jié)合品牌形象的塑造,量身制作品質(zhì)網(wǎng)站。
前一段時(shí)間,Sebastian Ruder 介紹了他心中 10 個(gè)最有影響力的想法,并且每一個(gè)都提供了具體論文與核心思想。正如 Ruder 所說(shuō),他的清單必然是主觀的,主要涵蓋了遷移學(xué)習(xí)和泛化相關(guān)的想法。其中有的想法在過(guò)去一年非常受關(guān)注,大家圍繞這些***的觀點(diǎn)展開(kāi)了很多研究工作與實(shí)踐。而有的想法并不是當(dāng)前趨勢(shì),不過(guò)它們有可能在未來(lái)變得流行。因此,機(jī)器之心在 Ruder 介紹的基礎(chǔ)上,重點(diǎn)關(guān)注今年的前沿趨勢(shì),并推薦一些真正好用的 NLP 新工具。
在本文中,我們會(huì)重點(diǎn)關(guān)注 2018 年里的 神經(jīng)機(jī)器翻譯 與預(yù)訓(xùn)練模型,這兩個(gè)概念真的非常 Excited!而后對(duì)于實(shí)戰(zhàn)裝備,數(shù)百種中文預(yù)訓(xùn)練詞嵌入向量、BERT預(yù)訓(xùn)練模型和建??蚣?PyText 等工具真的令人忍不住想做一個(gè)新穎的 NLP 應(yīng)用。
1. 神經(jīng)機(jī)器翻譯
在 2018 年, 神經(jīng)機(jī)器翻譯 似乎有了很大的改變,以前用 RNN 加上注意力機(jī)制打造的 Seq2Seq 模型好像都替換為了 Tramsformer。大家都在使用更大型的 Transformer,更高效的 Transformer 組件。例如阿里會(huì)根據(jù)最近的一些新研究對(duì)標(biāo)準(zhǔn) Transformer 模型進(jìn)行一些修正。這些修正首先體現(xiàn)在將 Transformer 中的 Multi-Head Attention 替換為多個(gè)自注意力分支,其次他們采用了一種編碼相對(duì)位置的表征以擴(kuò)展自注意力機(jī)制,并令模型能更好地理解序列元素間的相對(duì)距離。
有道翻譯也采用了 Transformer,他們同樣會(huì)采取一些修正,包括對(duì)單語(yǔ)數(shù)據(jù)的利用,模型結(jié)構(gòu)的調(diào)整,訓(xùn)練方法的改進(jìn)等。例如在單語(yǔ)數(shù)據(jù)的利用上,他們嘗試了回譯和對(duì)偶學(xué)習(xí)等策略,在模型結(jié)構(gòu)上采用了相對(duì)位置表征等。所以總的而言,盡管 Transformer 在解碼速度和位置編碼等方面有一些缺點(diǎn),但它仍然是當(dāng)前效果***的 神經(jīng)機(jī)器翻譯 基本架構(gòu)。
在 Ruder 的介紹中,它非常關(guān)注兩種無(wú)監(jiān)督機(jī)器翻譯模型,它們都被接受為 ICLR 2018 論文。如果無(wú)監(jiān)督機(jī)器翻譯模型是能行得通的,那么這個(gè)想法本身就很驚人,盡管無(wú)監(jiān)督翻譯的效果很可能遠(yuǎn)比有監(jiān)督差。在 EMNLP 2018 中,有一篇論文在無(wú)監(jiān)督翻譯上更進(jìn)一步提出了很多改進(jìn),并獲得極大的提升。Ruder 筆記中提到了以下這篇論文:
論文:Phrase-Based & Neural Unsupervised Machine Translation
-
論文鏈接: https://arxiv.org/abs/1804.07755
這篇論文很好地提煉出了無(wú)監(jiān)督 MT 的三個(gè)關(guān)鍵點(diǎn):優(yōu)良的參數(shù)初始化、語(yǔ)言建模和通過(guò)回譯建模反向任務(wù)。這三種方法在其它無(wú)監(jiān)督場(chǎng)景中也有使用,例如建模反向任務(wù)會(huì)迫使模型達(dá)到循環(huán)一致性,這種一致性已經(jīng)應(yīng)用到了很多任務(wù),可能讀者最熟悉的就是CycleGAN。該論文還對(duì)兩種語(yǔ)料較少的語(yǔ)言做了大量的實(shí)驗(yàn)與評(píng)估,即英語(yǔ)-烏爾都語(yǔ)和英語(yǔ)-羅馬尼亞語(yǔ)。
無(wú)監(jiān)督 MT 的三個(gè)主要原則:A)兩種單語(yǔ)數(shù)據(jù)集、B)參數(shù)初始化、C)語(yǔ)言建模、D)回譯。
這篇論文獲得了 EMNLP 2018 的***長(zhǎng)論文獎(jiǎng),它在遵循上面三個(gè)主要原則的情況下簡(jiǎn)化了結(jié)構(gòu)和損失函數(shù)。得到的模型優(yōu)于以前的方法,并且更易于訓(xùn)練和調(diào)整。
2. 預(yù)訓(xùn)練模型
2018 年,使用預(yù)訓(xùn)練的語(yǔ)言模型可能是 NLP 領(lǐng)域最顯著的趨勢(shì),它可以利用從無(wú)監(jiān)督文本中學(xué)習(xí)到的「語(yǔ)言知識(shí)」,并遷移到各種 NLP 任務(wù)中。這些預(yù)訓(xùn)練模型有很多,包括 ELMo、ULMFiT、OpenAITransformer 和BERT,其中又以BERT***代表性,它在 11 項(xiàng) NLP 任務(wù)中都獲得當(dāng)時(shí)***的性能。不過(guò)目前有 9 項(xiàng)任務(wù)都被微軟的新模型超過(guò)。
機(jī)器之心曾解讀過(guò)BERT的的核心過(guò)程,它會(huì)先從數(shù)據(jù)集抽取兩個(gè)句子,其中第二句是***句的下一句的概率是 50%,這樣就能學(xué)習(xí)句子之間的關(guān)系。其次隨機(jī)去除兩個(gè)句子中的一些詞,并要求模型預(yù)測(cè)這些詞是什么,這樣就能學(xué)習(xí)句子內(nèi)部的關(guān)系。***再將經(jīng)過(guò)處理的句子傳入大型 Transformer 模型,并通過(guò)兩個(gè)損失函數(shù)同時(shí)學(xué)習(xí)上面兩個(gè)目標(biāo)就能完成訓(xùn)練。
如上所示為不同預(yù)訓(xùn)練模型的架構(gòu),BERT可以視為結(jié)合了OpenAIGPT 和 ELMo 優(yōu)勢(shì)的新模型。其中 ELMo 使用兩條獨(dú)立訓(xùn)練的 LSTM 獲取雙向信息,而OpenAIGPT 使用新型的 Transformer 和經(jīng)典語(yǔ)言模型只能獲取單向信息。BERT的主要目標(biāo)是在OpenAIGPT 的基礎(chǔ)上對(duì)預(yù)訓(xùn)練任務(wù)做一些改進(jìn),以同時(shí)利用 Transformer 深度模型與雙向信息的優(yōu)勢(shì)。
這種「雙向」的來(lái)源在于BERT與傳統(tǒng)語(yǔ)言模型不同,它不是在給定所有前面詞的條件下預(yù)測(cè)最可能的當(dāng)前詞,而是隨機(jī)遮掩一些詞,并利用所有沒(méi)被遮掩的詞進(jìn)行預(yù)測(cè)。
此外,值得注意的是,最近微軟發(fā)布了一種新的綜合性模型,它在 GLUE 的 11 項(xiàng)基準(zhǔn)NLP 任務(wù)中的 9 項(xiàng)超過(guò)了BERT,且評(píng)分也超過(guò)了BERT。除了準(zhǔn)確率外,微軟的新模型只有 1.1 億的參數(shù)量,遠(yuǎn)比BERT-Large 模型的 3.35 億參數(shù)量少,和BERT-Base 的參數(shù)量一樣多。
在「Microsoft D36***I & MSR AI」模型的描述頁(yè)中,新模型采用的是一種多任務(wù)聯(lián)合學(xué)習(xí)。因此所有任務(wù)都共享相同的結(jié)構(gòu),并通過(guò)多任務(wù)訓(xùn)練方法聯(lián)合學(xué)習(xí)。目前新模型的信息還非常少,如果經(jīng)過(guò)多任務(wù)預(yù)訓(xùn)練,它也能像BERT那樣用于更廣泛的 NLP 任務(wù),那么這樣的高效模型無(wú)疑會(huì)有很大的優(yōu)勢(shì)。
Sebastian Ruder 非常欣賞 ELMo 的創(chuàng)新性想法,它同樣也是今年的論文(NAACL 2018):
論文:Deep contextualized word representations (NAACL-HLT 2018)
-
論文鏈接: https://arxiv.org/abs/1802.05365
這篇論文提出了廣受好評(píng)的 ELMo,除了令人印象深刻的實(shí)驗(yàn)結(jié)果外,最吸引人的就是論文的分析部分,它剔除了各種因素的影響,并對(duì)表征所捕獲的信息進(jìn)行了分析。在下圖左中語(yǔ)義消歧(WSD)執(zhí)行得很好,它們都表明語(yǔ)言模型提供的語(yǔ)義消歧和詞性標(biāo)注(POS)表現(xiàn)都接近當(dāng)前***水平。
***層和第二層雙向語(yǔ)言模型的語(yǔ)義消歧(左)和詞性標(biāo)注(右)與基線模型對(duì)比的結(jié)果。
3. 常識(shí)推理數(shù)據(jù)集
將常識(shí)融入模型是 NLP 最重要的研究方向之一。然而,創(chuàng)建好的數(shù)據(jù)集并非易事,即使是流行的數(shù)據(jù)集也存在很大的偏好問(wèn)題。今年已經(jīng)出現(xiàn)了一些試圖教機(jī)器學(xué)習(xí)常識(shí)的數(shù)據(jù)集,如華盛頓大學(xué)的 Event2Mind 和 SWAG。但 SWAG 很快就被BERT打敗了。有代表性的研究成果包括:
論文:From Recognition to Cognition: Visual Commonsense Reasoning
-
論文地址: https://arxiv.org/abs/1811.10830
這是***包含每個(gè)答案的基本原理(解釋)的可視化 QA 數(shù)據(jù)集。而且,回答問(wèn)題需要復(fù)雜的推理。創(chuàng)作者竭盡全力解決可能出現(xiàn)的偏好,確保每個(gè)答案作為正確答案的先驗(yàn)概率為 25%(每個(gè)答案在整個(gè)數(shù)據(jù)集中出現(xiàn) 4 次,其中 3 次作為錯(cuò)誤答案,1 次作為正確答案);這需要利用可以計(jì)算相關(guān)性和相似性的模型來(lái)解決約束優(yōu)化問(wèn)題。
給定一幅圖像、一系列地點(diǎn)和一個(gè)問(wèn)題,模型必須回答該問(wèn)題,并提供合理的推理解釋答案為什么是正確的(Zellers et al., 2018)
4.元學(xué)習(xí)
元學(xué)習(xí) 是目前機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)令人振奮的研究趨勢(shì),它解決的是學(xué)習(xí)如何學(xué)習(xí)的問(wèn)題。元學(xué)習(xí)在少樣本學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和機(jī)器人學(xué)方面有很多應(yīng)用,其中最突出的應(yīng)用是與模型無(wú)關(guān)的元學(xué)習(xí)(model-agnostic meta-learning,MAML),但在 NLP 中的成功應(yīng)用卻非常少。元學(xué)習(xí)在訓(xùn)練樣本有限時(shí)非常有用。有代表性的研究成果包括:
論文 1:Meta-Learning for Low-Resource Neural Machine Translation
-
論文鏈接: http://aclweb.org/anthology/D18-1398
作者利用 MAML 來(lái)學(xué)習(xí)一個(gè)好的用于翻譯的初始化,將每個(gè)語(yǔ)言對(duì)看成一個(gè)獨(dú)立的元任務(wù)。資源較少的語(yǔ)言或許是元學(xué)習(xí)在 NLP 領(lǐng)域最有應(yīng)用價(jià)值的場(chǎng)景。將多語(yǔ)言遷移學(xué)習(xí)(如多語(yǔ)言BERT)、無(wú)監(jiān)督學(xué)習(xí)和元學(xué)習(xí)相結(jié)合是一個(gè)有前景的研究方向。
遷移學(xué)習(xí)、多原因遷移學(xué)習(xí)和元學(xué)習(xí)之間的差異。實(shí)線:初始化的學(xué)習(xí)。虛線:微調(diào)路徑。
論文 2:Meta-Learning a Dynamical Language Model
-
論文地址: https://arxiv.org/abs/1803.10631
作者提出,用于優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的元學(xué)習(xí)器的行為和循環(huán)神經(jīng)網(wǎng)絡(luò)類似,它會(huì)提取一系列模型訓(xùn)練過(guò)程中的參數(shù)和梯度作為輸入序列,并根據(jù)這個(gè)輸入序列計(jì)算得到一個(gè)輸出序列(更新后的模型參數(shù)序列)。他們?cè)谡撐闹性敿?xì)描述了該相似性,并研究了將元學(xué)習(xí)器用于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中,以實(shí)現(xiàn)中期記憶:經(jīng)過(guò)學(xué)習(xí),元學(xué)習(xí)器能夠在標(biāo)準(zhǔn) RNN(如 LSTM)的權(quán)重中,編碼中期記憶(除了短期記憶在 LSTM 隱藏狀態(tài)中的傳統(tǒng)編碼方式以外)。
他們的元學(xué)習(xí)語(yǔ)言模型由 3 層記憶層級(jí)組成,自下而上分別是:標(biāo)準(zhǔn) LSTM、用于更新 LSTM權(quán)重以存儲(chǔ)中期記憶的元學(xué)習(xí)器,以及一個(gè)長(zhǎng)期靜態(tài)記憶。他們發(fā)現(xiàn),元學(xué)習(xí)語(yǔ)言模型可以通過(guò)訓(xùn)練來(lái)編碼最近輸入的記憶,就像一篇維基百科文章的開(kāi)始部分對(duì)預(yù)測(cè)文章的結(jié)尾部分非常有幫助一樣。
5. 魯棒無(wú)監(jiān)督方法
今年,我們觀察到,跨語(yǔ)言嵌入方法在語(yǔ)言相似性低時(shí)會(huì)失效。這是遷移學(xué)習(xí)中的常見(jiàn)現(xiàn)象,源語(yǔ)言和目標(biāo)語(yǔ)言設(shè)置(例如,域適應(yīng)中的域、持續(xù)學(xué)習(xí)和多任務(wù)學(xué)習(xí)中的任務(wù))之間存在差異,導(dǎo)致模型退化或失效。因此,使模型對(duì)這些變化更加魯棒非常重要。有代表性的研究成果包括:
-
論文:A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
-
論文鏈接: http://www.aclweb.org/anthology/P18-1073
這篇論文根據(jù)其理解構(gòu)建了一個(gè)更好的初始化,而沒(méi)有使用元學(xué)習(xí)作為初始化。特別地,他們將兩種語(yǔ)言中擁有相似詞分布的單詞配對(duì)。這是從分析中利用領(lǐng)域知識(shí)和 insight 以使模型更加魯棒的***范例。
三個(gè)單詞的相似性分布:與不相關(guān)的單詞(「two」和「cane」(狗))相比,等效翻譯(「two」和「due」)有更加相似的詞分布。(Artexte et al. 2018 http://www.aclweb.org/anthology/P18-1073)
6. 理解表征
今年,人們?cè)诟玫乩斫獗碚鞣矫孀隽撕芏喙ぷ?。特別地,《Fine-grained Analysis of Sentence Embeddings Using Auxiliary Prediction Tasks》這篇論文提出了「診斷分類器」(度量學(xué)習(xí)到的表征是否能預(yù)測(cè)特定屬性的任務(wù)),之后在其它研究中變得常見(jiàn),如《What you can cram into a single vector: Probing sentence embeddings for linguistic properties》。有代表性的研究成果包括:
論文:Dissecting Contextual Word Embeddings: Architecture and Representation
-
論文鏈接: http://aclweb.org/anthology/D18-1179
這篇論文在更好理解預(yù)訓(xùn)練語(yǔ)言模型表征方面做出了很大貢獻(xiàn)。他們廣泛地研究了精心設(shè)計(jì)的無(wú)監(jiān)督和有監(jiān)督任務(wù)上學(xué)習(xí)到的單詞和跨度表征。結(jié)果發(fā)現(xiàn):預(yù)訓(xùn)練表征會(huì)在較低層學(xué)習(xí)到與低級(jí)形態(tài)和句法任務(wù)相關(guān)的任務(wù),在較高層學(xué)習(xí)到更大范圍的語(yǔ)義。對(duì)我而言,該研究表明了預(yù)訓(xùn)練語(yǔ)言模型確實(shí)能捕捉文本的相似屬性,正如計(jì)算機(jī)視覺(jué)模型在 ImageNet 上預(yù)訓(xùn)練后,能捕捉圖像之間的相似屬性。
BiLSTM 和 Transformer 的預(yù)訓(xùn)練表征的每一層的性能,從左到右依次是:POS 標(biāo)記、選區(qū)解析和無(wú)監(jiān)督共指解析 (Peters et al. 2018 http://aclweb.org/anthology/D18-1179 )。
7. 輔助任務(wù)
在很多設(shè)置中,我們都看到人們?cè)絹?lái)越多使用帶有仔細(xì)選擇的輔助任務(wù)的多任務(wù)學(xué)習(xí)方法。其中最重要的一個(gè)案例是BERT。其使用了下一句預(yù)測(cè)來(lái)實(shí)現(xiàn)優(yōu)越性能(近期被用在 Skip-thoughts 以及 Quick-thoughts 等)。有代表性的研究成果包括:
論文 1:Syntactic Scaffolds for Semantic Structures
-
論文鏈接: http://aclweb.org/anthology/D18-1412
這篇論文通過(guò)為每個(gè)跨度預(yù)測(cè)對(duì)應(yīng)的句法成分類型,以此提出了一種預(yù)訓(xùn)練跨度表征的輔助任務(wù)。盡管在概念上很簡(jiǎn)單,該輔助任務(wù)可以在跨度級(jí)預(yù)測(cè)任務(wù)中取得極大提升,例如語(yǔ)義角色標(biāo)注和共指解析等。該論文表明,通過(guò)目標(biāo)任務(wù)在所需級(jí)別學(xué)習(xí)的專用表征有極大的用處。
論文 2:pair2vec: Compositional Word-Pair Embeddings for Cross-Sentence Inference
-
論文鏈接: https://arxiv.org/abs/1810.08854
依據(jù)相似的思路,這篇論文通過(guò)***化詞對(duì)以及語(yǔ)境的逐點(diǎn)互信息預(yù)訓(xùn)練詞對(duì)表征。相比更加通用的表征(例如語(yǔ)言建模),這鼓勵(lì)模型學(xué)習(xí)更有意義的詞對(duì)表征。這些預(yù)訓(xùn)練表征在諸如 SQuAD、和 MultiNLI 等需要跨句推理的任務(wù)中很有效。我們可以期待看到更多可捕捉適用于特定下游任務(wù)的預(yù)訓(xùn)練模型,并且和更加通用的任務(wù)互補(bǔ)(例如語(yǔ)言建模)。
OntoNotes 的句法、***語(yǔ)料庫(kù)和共指標(biāo)注。***語(yǔ)料庫(kù)SRL參數(shù)和共指在句法成分之上標(biāo)注。幾乎每個(gè)參數(shù)都與句法成分有關(guān) (Swayamdipta et al., 2018 http://aclweb.org/anthology/D18-1412 )
8.半監(jiān)督學(xué)習(xí)結(jié)合遷移學(xué)習(xí)
最近,遷移學(xué)習(xí)取得***進(jìn)展,我們不應(yīng)該忘記使用目標(biāo)任務(wù)特定數(shù)據(jù)更明確的方式。其實(shí),預(yù)訓(xùn)練表征與多種形式的半監(jiān)督學(xué)習(xí)是互補(bǔ)的。已經(jīng)有研究者探索半監(jiān)督學(xué)習(xí)的一個(gè)特定類別——自標(biāo)注方法。有代表性的研究包括:
論文:Semi-Supervised Sequence Modeling with Cross-View Training
-
論文鏈接: http://aclweb.org/anthology/D18-1217
這篇論文表明,一個(gè)概念上非常簡(jiǎn)單的想法——即確保對(duì)不同輸入視圖的預(yù)測(cè)與主模型的預(yù)測(cè)一致——可以在一系列不同的任務(wù)中獲得收益。這一想法與 word dropout 類似,但允許利用未標(biāo)注數(shù)據(jù)來(lái)加強(qiáng)模型的魯棒性。與 mean teacher 等其他 self-ensembling 模型相比,它是專門(mén)為特定 NLP 任務(wù)設(shè)計(jì)的。
輔助預(yù)測(cè)模塊看到的輸入:輔助 1:They traveled to __________________. 輔助 2:They traveled to Washington _______. 輔助 3: _____________ Washington by plane. 輔助 4: ________________________ by plane
9. 利用大型文本的問(wèn)答和推理
在一系列新的問(wèn)答(QA)數(shù)據(jù)集的幫助下,問(wèn)答系統(tǒng)取得了很多進(jìn)展。除對(duì)話問(wèn)答和多步驟推理之外,問(wèn)答系統(tǒng)***挑戰(zhàn)性的一個(gè)方面是合成敘述和含有大量信息的本文。有代表性的研究包括:
論文:The NarrativeQA Reading Comprehension Challenge
-
論文鏈接: http://aclweb.org/anthology/Q18-1023
本文作者根據(jù)對(duì)整個(gè)電影劇本和書(shū)籍的問(wèn)答提出了一個(gè)頗具挑戰(zhàn)性的 QA 數(shù)據(jù)集。雖然目前的方法仍無(wú)法完成這項(xiàng)任務(wù),但模型可以選擇使用摘要(而不是整本書(shū))作為上下文,選擇答案(而不是生成答案),以及使用 IR 模型的輸出。這些變體提高了任務(wù)的可行性,使得模型可以逐漸擴(kuò)展到完整的語(yǔ)境。
QA 數(shù)據(jù)集對(duì)比。
10. 歸納偏向
CNN 中的卷積、正則化、dropout 以及其他機(jī)制等歸納偏向都是神經(jīng)網(wǎng)絡(luò)模型做為正則化項(xiàng)的核心部分,也使得模型采樣更為高效。然而,提出一種普遍可用的歸納偏向并把它融入到模型中非常具有挑戰(zhàn)性。有代表性的研究成果包括:
論文 1:sequence classification with human attention (CoNLL 2018)
-
論文鏈接: http://aclweb.org/anthology/K18-1030
該論文提出使用來(lái)自人類眼球追蹤語(yǔ)料庫(kù)的人類注意力來(lái)正則化RNN 中的注意。如今許多 Transformers 這樣的現(xiàn)有模型都在使用 attention,找到更高效訓(xùn)練的合適方式是很重要的方向。也很高興看到人類語(yǔ)言學(xué)習(xí)能幫助我們改進(jìn)計(jì)算模型。
論文 2:Linguistically-Informed Self-Attention for Semantic Role Labeling (EMNLP 2018)
-
論文鏈接: http://aclweb.org/anthology/D18-1548
該論文有很多喜人的地方:在句法與語(yǔ)義任務(wù)上同時(shí)訓(xùn)練一個(gè) Transformer;訓(xùn)練時(shí)加入高質(zhì)量解析的能力以及領(lǐng)域外評(píng)估。通過(guò)訓(xùn)練一個(gè)注意力 head 來(lái)關(guān)注每個(gè) token 的 syntactic parents,這篇論文也正則化了 Transformer 的多 head 注意力,使其對(duì)句法更為敏感。我們未來(lái)可能會(huì)看到更多 Transformer 注意 head 示例,做為專注輸入特定方面的輔助詞預(yù)測(cè)器。
過(guò)去十年的 PropBank 語(yǔ)義角色標(biāo)記。在領(lǐng)域外數(shù)據(jù)上,Linguistically-Informed Self-Attention (LISA) 方法與其他方法的對(duì)比。
不論是采用 Mask 的語(yǔ)言模型還是通過(guò)回譯的無(wú)監(jiān)督機(jī)器翻譯,這 10 個(gè)想法都非常優(yōu)美。但是在實(shí)際應(yīng)用中,我們更希望直接使用已有的工具構(gòu)建高效應(yīng)用,只有這樣,這些想法才能轉(zhuǎn)化為真正有意思的東西。
11. 上百種預(yù)訓(xùn)練中文詞向量
做自然語(yǔ)言處理,詞嵌入基本是繞不開(kāi)的步驟,各種任務(wù)都需要?dú)w結(jié)到詞層面才能繼續(xù)計(jì)算。因此對(duì)于國(guó)內(nèi)自然語(yǔ)言處理的研究者而言,中文詞向量語(yǔ)料庫(kù)是需求很大的資源。為此,北京師范大學(xué)等機(jī)構(gòu)的研究者開(kāi)源了「中文詞向量語(yǔ)料庫(kù)」,該庫(kù)包含經(jīng)過(guò)數(shù)十種用各領(lǐng)域語(yǔ)料(百度百科、維基百科、人民日?qǐng)?bào) 1947-2017、知乎、微博、文學(xué)、金融、古漢語(yǔ)等)訓(xùn)練的詞向量,涵蓋各領(lǐng)域,且包含多種訓(xùn)練設(shè)置。
中文詞向量項(xiàng)目地址: https://github.com/Embedding/Chinese-Word-Vectors
該項(xiàng)目提供使用不同表征(稀疏和密集)、上下文特征(單詞、n-gram、字符等)以及語(yǔ)料庫(kù)訓(xùn)練的中文詞向量(嵌入)。我們可以輕松獲得具有不同屬性的預(yù)訓(xùn)練向量,并將它們用于各類下游任務(wù)。
12.BERT開(kāi)源實(shí)現(xiàn)
盡管如前所述BERT的效果驚人,但預(yù)訓(xùn)練所需要的計(jì)算力同樣驚人,一般的開(kāi)發(fā)者基本就不要想著能復(fù)現(xiàn)了。BERT的作者在 Reddit 上也表示預(yù)訓(xùn)練的計(jì)算量非常大,Jacob 說(shuō):「OpenAI的 Transformer 有 12 層、768 個(gè)隱藏單元,他們使用 8 塊 P100 在 8 億詞量的數(shù)據(jù)集上訓(xùn)練 40 個(gè) Epoch 需要一個(gè)月,而B(niǎo)ERT-Large 模型有 24 層、2014 個(gè)隱藏單元,它們?cè)谟?33 億詞量的數(shù)據(jù)集上需要訓(xùn)練 40 個(gè) Epoch,因此在 8 塊 P100 上可能需要 1 年?16 Cloud TPU 已經(jīng)是非常大的計(jì)算力了?!?/p>
但是,谷歌團(tuán)隊(duì)開(kāi)源了BERT的預(yù)訓(xùn)練模型,我們可以將它們用于不同的 NLP 任務(wù)。這節(jié)省了我們大量計(jì)算力,同時(shí)還能提升已有模型的效果,因此做 NLP 任務(wù)前,你可以先用預(yù)訓(xùn)練的BERT試試水?
BERT實(shí)現(xiàn)地址: https://github.com/google-research/bert
其實(shí)目前已經(jīng)有很多開(kāi)發(fā)者將BERT預(yù)訓(xùn)練模型應(yīng)用到它們自己的項(xiàng)目中,包括抽取句向量、句子相似性判斷或情感分析等。
13. Facebook 開(kāi)源 NLP 建模框架 PyText,從論文到產(chǎn)品部署只需數(shù)天
為了降低人們創(chuàng)建、部署自然語(yǔ)言處理系統(tǒng)的難度,F(xiàn)acebook 開(kāi)源了一個(gè)建??蚣堋?nbsp;PyText ,它模糊了實(shí)驗(yàn)與大規(guī)模部署之間的界限。PyTex 是 Facebook 正在使用的主要自然語(yǔ)言處理(NLP)建??蚣?,每天為 Facebook 及其應(yīng)用程序系列的用戶提供超過(guò) 10 億次 AI 任務(wù)處理。這一框架基于 PyTorch,可以 1)簡(jiǎn)化工作流程,加快實(shí)驗(yàn)進(jìn)度;2)提供一大批預(yù)構(gòu)建的模型架構(gòu)和用于文本處理和詞匯管理的工具,以促進(jìn)大規(guī)模部署;3)提供利用 PyTorch 生態(tài)系統(tǒng)的能力,包括由 NLP 社區(qū)中的研究人員、工程師預(yù)構(gòu)建的模型和工具。利用該框架,F(xiàn)acebook 在幾天內(nèi)就實(shí)現(xiàn)了 NLP 模型從理念到完整實(shí)施的整個(gè)過(guò)程,還部署了依賴多任務(wù)學(xué)習(xí)的復(fù)雜模型。
Yann LeCun 對(duì)此介紹道,「PyText 是一個(gè)工業(yè)級(jí)的開(kāi)源 NLP 工具包,可用于在 PyTorch 中開(kāi)發(fā) NLP 模型,并通過(guò) ONNX 部署。其預(yù)訓(xùn)練模型包括文本分類、序列標(biāo)注等?!?/p>
項(xiàng)目地址: https://github.com/facebookresearch/pytext
參考鏈接: http://ruder.io/10-exciting-ideas-of-2018-in-nlp/
網(wǎng)頁(yè)標(biāo)題:從想法到實(shí)干,2018年13項(xiàng)NLP絕美新研究
文章位置:http://m.5511xx.com/article/djpjsgc.html


咨詢
建站咨詢
