為什么說自然語言處理是人工智能的核心?
非科班出身,自學擼出中文分詞庫HanLP,在GitHub標星1.5萬,成為最受歡迎的自然語言處理項目。他將學習經驗總結成書《自然語言處理入門》,幫助小白快速入門NLP。
針對題主的提問,HanLP自然語言處理類庫的開發者何晗的經驗很值得借鑒。
截至 2019 年 11月初,HanLP項目在 GitHub Star 數達到了 15.6 K,超過了賓夕法尼亞大學的 NLTK、斯坦福大學的 CoreNLP。
貼上GitHub地址:https://github.com/hankcs/HanLP
何晗在開發這款 NLP 工具包時,還是上海外國語大學一名日語專業的大二學生,HanLP項目脫胎他大學時接的一份兼職,何晗也因緣從一個非科班專業的小白逐步成長為NLP領域的專家。如今,正在攻讀CS博士的他(研究方向:句法分析、語義分析與問答系統),結合自己的學習歷程和HanLP的開發經驗創作出版了《自然語言處理入門》一書,得到了周明、劉群、王斌等業內頂級 NLP 專家的推薦。
從著手開發HanLP,到HanLP達到工業使用的水準,何晗對自學NLP有深刻的見解。如果用一句話來總結,那就是:自頂而下,從工程去切入,由應用層往下面的基礎層拓展,遞歸補充理論知識,才能事半功倍。以下入門NLP的建議,皆來自于何晗的經驗,分享給像題主這樣的初學者,希望能對大家有所啟發。
一、初學者,請避開自學NLP的常見誤區有的初學者排斥基礎理論——認為學校教的都是沒用的,公司里都用不到;有的初學者對基礎理論敬而遠之——認為理論太高深了,自己基礎不好,學了也白學;有的初學者,特別是已經工作的程序員,基本方向正確但學習路徑錯誤,比較容易走極端:在工作很忙的情況下,只是抱著經典書籍苦啃,直到筋疲力盡項目也毫無進展,從而喪失了學習NLP的興趣;或者,俗稱調庫小能手,跟風潮流,缺少理論基礎,缺乏獨立思考能力(比如,認為深度學習最牛,其他的基礎理論都是垃圾;認為CNN/RNN/BERT會調參就行了)。而實際上,自然語言處理是計算機科學、人工智能和語言學學科的交集,這三方面的學科知識都是需要儲備的,基礎理論的學習必不可少。但很多初學者都是在工作之后才入坑NLP,既難以靜下心來啃書啃課,又缺少很好的老師傳授知識經驗。所以,有效可行的入門方式就是從工程切入,遵循這樣的邏輯:延遲加載,只在使用的時候才去加載必要的資料:
你首先看到的是一個摸得著的實際問題,為了解決該問題才去接觸一個具體的方案;為了理解這個方案,才會引入必要的背景知識;為了實現這個方案,才會引入相關細節;為了克服這個方案的問題,才會過渡到新的方案。二、想快速入門NLP,邊學邊做療效好何晗入門NLP,讀過的經典書有:《統計自然語言處理》(宗成慶 著)(對應語言學知識)、《統計學習方法》(李航 著)(對應人工智能知識),《挑戰程序設計競賽》(秋葉拓哉、鹽田陽一、北川宜稔 著)(對應計算機算法知識)。
不過,在看經典書籍的過程中,他發現,學習自然語言處理并不需要完全把這幾本書看透,最好是可以邊看書邊做項目。這些書都是非常牛的好書,然而可惜的是,看完書中的章節,不知該如何應用其中的知識點,即使實現了文章中提到的模型,也很難直接將其運用于工程項目。
想必很多初學者都面臨類似的學習困惑。為了解決這個問題,何晗動手寫了《自然語言處理入門》,目的就是希望學習者看完一章后,便可以將知識點直接用于項目,適合NLP初學者入門并快速布置到生產環境中。成效快,痛苦小,疑問少。
何晗在《自然語言處理入門》一書中,以自己的HanLP開源項目為案例,代碼對照公式講解每一個算法每一個模型,讓入門者帶著工程思維理解NLP的知識要點,試圖在目前市面上艱深晦澀的教科書和簡單的入門書之間作出平衡。
《自然語言處理入門》帶領學習者從基本概念入手。逐步介紹中文分詞、詞性標注、命名實體識別、信息抽取、文本聚類、文本分類、句法分析這幾個熱門問題的算法原理和工程實現。通過對多種算法的講解和實現,比較各自的優缺點和適用場景。這些實現并非教學專用,而是生產級別的成熟代碼,可以直接用于實際項目。
在理解這些熱門問題的算法后,這本書會引導學習者根據自己的項目需求拓展新功能,最終達到理論和實踐上的同步入門。
何晗認為,NLP的學習路徑,應該尊重一般人的認知規律,而不是學術上的綱目順序,以此為宗旨來編排圖書的內容。因此,面向普通程序員,這本書內容分為以下三大部分:
第一部分介紹一些字符串算法,讓普通程序員從算法的角度思考中文信息處理。
第二部分由易到難地講解一些常用的機器學習模型,讓算法工程師晉級為機器學習工程師。由中文分詞貫穿始終,構成一種探索式的遞進學習。這些模型也并非局限于中文分詞,會在第三部分應用到更多的自然語言處理問題上去。
第三部分新增了許多與文本處理緊密相關的算法,讓機器學習工程師進化到自然語言處理工程師。特別地,最后一章介紹了當前流行的深度學習方法,起到擴展視野、承上啟下的作用。學習者可根據自身情況,靈活跳過部分章節。
何晗在自學過程中走過不少彎路,深知數學語言的艱深晦澀,并且痛恨羅列公式故作高深的文章,所以他在書中只保留了必不可少的公式和推導,并且公式與代碼相互印證。配套代碼由Java和Python雙語言寫成,與GitHub上最新代碼同步更新,所以你只要具備基本的編程經驗,就可以跟隨書本零起點入門。
此外,何晗還總結出一份最為詳盡的NLP+ML“雙生樹”思維導圖,導圖中的關聯知識點不僅涵蓋NLP領域的核心知識,甚至涉及許多前沿研究和應用,印刷尺寸寬60cm,高74cm,隨書附贈供學習者參考。
三、進階NLP的學習資料和工具推薦推薦讀這些經典書籍:多讀論文,推薦用Google Scholar和Papers檢索:克服語言障礙,推薦用歐路詞典:追蹤前沿動態,推薦NLP-progress,在各項NLP任務上的排行榜網址:https://nlpprogress.com/
一個中肯的建議:NLP沒有通用的解法,算法不夠,語料來補算法不是萬能的。(想想:一兩個百分點對實際業務有多少幫助,又增加了多少成本?)不要完全相信論文。(a. 不要相信不公開源代碼的論文; b. 不要相信公開源代碼但數據預處理作假的論文; c. 即使能跑出作者宣稱的分數,請考慮:模型是否能泛化到你的行業領域? 又增加了多少成本?)語料極其重要。(a. 語料幾乎可以把準確率提升到你期望的任何水準,只要數量質量足夠; b. 目前通用語料幾乎都是新聞,誰能標注出行業語料,誰就是大王; c. 深度學習時代,無標注的純文本語料也大有用場; d. 軟件工程2.0:用數據編程。)