離真正意義上的人工智能還有多遠?
針對這個問題,我們邀請了微軟亞洲研究院機器學習組的首席研究員劉鐵巖博士,為大家帶來他眼中人工智能現狀,包括面臨的挑戰與機遇。
微軟亞洲研究院機器學習組包含機器學習的各個主要方向,在理論、算法、應用等不同層面推動機器學習領域的學術前沿。該組目前的研究重點為深度學習、增強學習、分布式機器學習和圖學習。其研究課題還包括排序學習、計算廣告和云定價。在過去的十幾年間,該組在頂級國際會議和期刊上發表了大量高質量論文,幫助微軟的產品部門解決了很多復雜問題,并向開源社區貢獻了
微軟分布式機器學習工具包(DMTK)
和微軟圖引擎(Graph Engine)
,LightLDA、LightGBM等
,并受到廣泛關注。該組正在招賢納士,誠邀各路英雄好漢加盟,共同逐鹿AI天下。聯系我們。
——這里是正式回答的分割線——
要說人工智能發展到了什么程度,我們先來看看人工智能的歷史進程。
人工智能從1956年的達特茅斯會議開始,到現在61年的歷史,發展過程中風風雨雨,可以看到幾起幾落,至少我們經歷過兩個所謂人工智能的冬天。
每一次人工智能的崛起都是因為某種先進的技術發明,而每一次人工智能遇到了它的瓶頸,也都是因為人們對于人工智能技術的期望太高,超出了它技術能達到的水準。所以政府、基金會等撤資,導致了研究人員沒有足夠的資金去從事研究。
那么今天我們處在一個什么階段呢?有人說現在是人工智能的春天,有人說是夏天,還有人悲觀一點,說是秋天,秋天的意思就是冬天馬上就來了。作為人工智能的學者,我們該怎么看待這件事情,我們能做些什么?不管大家怎么預測,至少今天還是一個人工智能的黃金時代。
為什么這么講呢?接下來先給大家展示一些最近人工智能取得的成果,確實是之前十幾年我們完全想不到的。
首先,我們講人工智能在語音方面的突破,人工智能在語音識別,語音合成上面最近都取得了非常矚目的結果。2016年10月份由微軟美國研究院發布的一個語音識別的最新結果實現了錯誤率為5.9%的新突破,這是第一次用人工智能技術取得了跟人類似的語音識別的錯誤率。
其次,在圖像方面,人工智能也有很多長足的進步,比如圖像識別的ImageNet比賽,用計算機去識別數據集中1000個類別的圖像。在2015年,來自微軟亞洲研究院的技術——ResNet,獲得了2015年ImageNet的冠軍,錯誤率是3.5%,而人的錯誤率大概是5.1%。所以可看出在特定領域、特定類別下,其實計算機在圖像識別上的能力已經超過了人的水平。2016年我們微軟亞洲研究院再接再勵,在比圖像識別更難的一個任務——物體分割上面取得了冠軍。
除了語音和圖像以外,其實人工智能在自然語言上面也取得了很大的進展。左邊這張圖描述了各大公司都在不斷地提高各自語音機器翻譯的水準和技術,右邊這張圖展示的是去年12月微軟發布了Microsoft Translator的一個新功能,它支持50多種語言,可以實現多個人多種語言的實時翻譯,比如大家每個人可能來自不同的國家,只要拿著手機用這個APP我們就可以互相交流。你說一句話或者輸入文字,對方聽到/看到的就是他的母語。
前面說的這些語音、圖像、語言,聽起來還都是一些感知方面的東西。大家也知道,最近這段時間,人工智能在一些傳統我們認為可能很難由機器來取得成功的領域也獲得了突破。比如左邊這張圖描述的是用人工智能技術來打游戲,大家可以看到這個敲磚塊的游戲,在120分鐘訓練的時候,人工智能就找到了很有效的得分的途徑。當我們繼續去訓練這個人工智能的機器人,到了240分鐘以后,它又達到了那種所謂骨灰級玩家的水準,它發現了一些平時我們自己都玩不出來的竅門。
右邊展示的是圍棋比賽,大家都知道AlphaGo非常火,使用了深度增強學習的技術,經過了非常長的訓練時間,引用了大量數據做self-play,最終是以壓倒性的優勢,4:1戰勝了當時的世界冠軍李世石。在去年的IJCAI上面,AlphaGo主要的開發人員做了一個keynote,說自戰勝了李世石之后,AlphaGo并沒有停下腳步,因為它是一個self-play的process,可以繼續訓練,只要給他足夠的運算時間和樣例,它就可以不斷地去訓練。所以也能理解為什么今年年初Master重新回到大家視野里,可以對圍棋高手60連勝,因為這個差距太大了。
這些事情都是以前人們覺得人工智能不可以去企及的領域。但正是因為這些計算機科學家、人工智能科學家不斷地去模仿人的決策過程,比如他們訓練了value network,訓練了policy network,就是怎么樣根據現在的棋局去評估勝率,去決定下一步該走什么子,而不是走簡單的窮舉,用這些value network來對搜索樹進行有效的剪枝,從而在有限的時間內完成一個非常有意義的探索,所有這些都是人工智能技術取得的本質的進展,讓我們看到了一些不一樣的結果。
說了人工智能的這些輝煌之后,其實有很多問題是需要我們去冷靜思考和回答的。
我們的主題是開啟智能計算的研究之門,我想從一個研究者的角度跟大家討論一下我們還能做些什么,甚至是更有意義的是去做些什么。人工智能表面看起來很火,其實如果把這張魔術的臺布展開,你就會發現它千瘡百孔,各種各樣非常基礎的問題其實并沒有解決,甚至有很多哲學的方法論的東西從我們的角度來看可能也不準確。
面對這樣的情況,更有意義的事情可能是冷靜下來,去從事一些能夠改變人工智能現狀以及未來的很本質的基礎研究工作,甚至是去反思人工智能發展的路線圖,看看我們是不是應該重啟一條道路。這些事情才能使得我們不僅僅是隨波逐流,不僅僅是變點現,騙點錢,而是在人工智能發展的真正道路上留下我們自己的足跡,過了幾十年當大家回憶的時候,另外一個人站在臺上講述人工智能一百年的時候,他會在那個圖上標著一個星星,那里面講的是你的故事。
前面這些人工智能現象的背后是什么?說到技術層面,現在最火的兩個詞,一個叫Deep Learning(深度學習),一個叫Reinforcement Learning(增強學習)。深度學習是什么?通俗地講,它就是一個端到端的學習,我們不需要一些feature engineering,而是用一個非常復雜的、容量很大的模型去直接擬合輸入輸出,讓模型自己探索有意義的中間表達。
什么是增強學習?通俗地講,就是學習機器不斷地跟環境做自主的互動,在互動的過程中用長遠的收益來指導當下該做什么決策,通過不斷的跟環境互動去調整決策的最優性。
之所以現在深度學習和增強學習能夠取得很大的成功,背后有一個很大的原因,就是基于巨大的數據和巨大的運算量訓練出的擁有巨大容量的模型,所以它們的成功離不開硬件系統,這也是為什么現在GPU這么火,包括云計算、多機協作已經成了我們必不可少的環節。
這是現在人工智能的現狀。面對這樣的現狀,我們是按照大家指定的這條道路去走,多搞幾個GPU去訓練一些模型跟別人PK,還是反思一下這條路對不對,有沒有什么問題,接下來我想跟大家討論的就是人工智能的諸多問題。我只列了一些其中的代表,但其實問題遠遠不止這些。
第一件事,現今的人工智能技術,尤其是以深度學習為代表的,需要大量的標注數據,來讓我們能夠訓練一個有效的模型,它不太依賴于人的先驗知識,要learning from scratch。如果想從零開始學習就需要有大量的樣本提供規律。比如,圖像分類,現在通常會用上千萬張圖像來訓練;語音識別,成千上萬小時的有標注的語音數據;機器翻譯一般都是在千萬量級的雙語語對上去做訓練,這樣的數據之前是不可想象的,但是我們這個時代是大數據時代,所以有了這些數據,就使得深度學習訓練成為了可能。但這是不是一劑萬能的靈藥呢?其實在很多領域里是不可能或者是很難獲得類似的數據的。比如醫療上面,很多疑難雜癥,全世界也沒有幾例,那怎么能夠對這個類別搜集大數據。所以從這個意義上講,如果我們能夠找到一種方法克服對大的標注數據的需求,我們才能夠使得現在的人工智能技術突破目前數據給它劃定的邊界,才能夠深入到更多的領域里面去。
第二個挑戰是關于模型大小以及模型訓練難度的問題,前面提到了深度神經網絡有很多層,而且一般參數都很大,幾十億的參數是家常便飯。面對這樣的網絡,至少有兩個困難,一個是我們經常提到的梯度消減和梯度爆炸的問題,當深層網絡有非常多層次的時候,輸出層和標簽之間運算出來的殘差或者是損失函數,是很難有效地傳遞到底層去的。所以在用這種反向傳播訓練的時候,底層的網絡參數通常不太容易被很有效的訓練,表現不好。人們發明了各種各樣的手段來解決它,比如加一些skip-level connection,像我們微軟亞洲研究院發明的ResNet技術就是做這件事情的,還有很多各種各樣的技巧。但這些其實都只是去解決問題的技巧,回過頭來,原來的這個問題本身是不是必要的,是需要我們反思的。
再有就是模型爆炸。前面說了幾十億的參數是家常便飯,幾十億甚至上百億個參數意味著什么,意味著模型本身的存儲量是非常大的。舉一個簡單的例子,如果我們用神經網絡來做語言模型,給出的訓練數據集是Clueweb整個網絡上的網頁,大概有十億個網頁的量級。 這樣的一個數據,如果要去用循環神經網絡去訓練一個語言模型,簡單計算一下就會知道,它需要用到的模型的大小大概是80G到100G的大小,聽起來好像不太大,但是現在主流的GPU板上的存儲24G已經算是高配,換句話說,80G到100G的大小已經遠遠超過一個GPU卡的容量,那么就一定要做分布式的運算,還要做模型并行,有很多技術難度在里面。即便有一個GPU卡,能夠放下這80G或100G的模型,如此大的訓練數據過一遍也可能要用上百年的時間,這聽起來也相當不靠譜。到底需不需要這么大的模型,有沒有必要我們非要把自己放在一個內存也不夠用,計算時間也非常長,也不能忍受的境地呢,這個是值得思考的問題。
說到大模型,標注數據很大,那必然要提到分布式運算,分布式運算聽起來是一個相對成熟的領域,因為系統領域已經對分布式計算研究了很多年。但是回到我們分布式機器學習這件事情上是有所不同的:這里我們做分布式運算的目的是為了讓我們能夠用更多的資源來容納更大的模型,使得運算的時間縮短到能接受的程度,但是我們不想丟掉運算的精度。
舉個例子,原來用上百年的時間可以得到一個非常精準的語言模型,現在有100臺機器,雖然算的很快,但出來的語言模型不能用了,這件得不償失。
說到分布式運算有兩個主流的方式,一個是同步的并行方式,一個是異步的并行方式。同步的并行方式是什么,就是很多機器都分了一個子任務,大家每計算一步之后要互相等待,交換一下計算的結果,然后再往前走。這個過程能夠保證對整個分布式運算的流程是可控的,可以知道發生了什么,在數學上可以做建模,能夠在理論上有所保證。但它的問題就是所謂的木桶原理,這個集群里面只要有一臺機器很慢,分布式運算就會被這臺機器拖垮,就不會得到好的加速比。
所以人們開始做異步的并行方式,異步的意思就是每臺機器各自做自己的事情,互相不等待,把當前按照各自的數據訓練出來的模型更新推到某一個服務器上,再更新整體模型。但這時候又出現了一個新的問題,就是亂序更新的問題,這個過程是不能被我們原來的數學模型所描述的,違背了優化技術的一些基本假設。比如當我們使用隨機梯度下降法的時候,可以證明當時用一個不斷減小的學習率時,優化過程是有收斂性的。這是因為我們每一次增加的那個梯度是在上一次計算的模型基礎上算出來的梯度。一旦加上去的梯度可能是舊的,不是依據前一個模型算出來的,到底優化過還能不能收斂,就不那么清楚了,所以雖然速度快,精度卻可能沒有保證。
第四個,我把它叫做調參黑科技,難言之隱。這件事情特別有趣,我前一段時間參加過一個論壇,一位嘉賓的一句話給我印象特別深,他說大家知道為什么現在很多公司都有深度學習實驗室嗎,以前沒聽說過有一個叫支持向量機實驗室的,為什么?這是因為像SVM這樣的技術訓練過程非常簡單,需要調節的超參數很少,基本上只要按部就班去做,得到的結果都差不多。
但深度學習這件事情,如果不來點調參黑科技,就得不到想要的結果。所謂深度學習實驗室,就是一批會調參的人,沒有他們深度學習就沒那么好用。雖然是句玩笑,但是深度學習力要調的東西確實太多了,比如說訓練數據怎么來,怎么選,如果是分布式運算怎么劃分,神經網絡結構怎么設計,10層、100層還是1000層,各層之間如何連接,模型更新的規則是什么,學習率怎么設,如果是分布式運算各個機器運算出來的結果怎么聚合,怎么得到統一的模型,等等,太多需要調的東西,一個地方調不好,結果可能就大相徑庭。這就是為什么很多論文里的結果是不能重現的,不是說論文一定不對,但至少人家沒有把怎么調參告訴你,他只告訴了你模型長什么樣而已。
下一個挑戰,叫做黑箱算法,不明就里。這不僅僅是神經網絡的問題,更是統計機器學習多年來一直的頑疾,就是用一個表達能力很強的黑盒子來擬合想要研究的問題,里面參數很多。這樣一個復雜的黑盒子去做擬合的時候,結果好,皆大歡喜。如果結果不好,出現了反例,該怎么解決呢,這里面幾億、幾十億個參數,是誰出了問題呢,其實是非常難排錯的事情。相反,以前有很多基于邏輯推理的方法,雖然效果沒有神經網絡好,但是我們知道每一步是為什么做了決策,容易分析、排錯。所以最近幾年有一個趨勢,就是把基于統計學習的方法和基于符號計算的方法進行結合,造出一個灰盒子,它既具備很強的學習能力,又能在很大程度上是可理解、可支配、可調整的。
到現在為止,這幾件事都是現在人工智能技術層面的問題。接下來,談的是更像方法論和哲學的問題,僅為個人的觀點,跟大家一起分享。
其中一條,我叫做蠻力解法,舍本逐末。這句話什么意思?剛才我提到過深度學習之所以這么成功,是因為它有一個特別強的表達能力,在歷史上人們證明過深層神經網絡有universal approximation theorem,只要隱結點的數目足夠多,任意給一個連續函數,它都可以無限逼近這個函數,換言之,有了很強的表達能力,什么問題都可以學的很好。聽起來好像是挺美好的事,但實際上它背后存在一個問題:它擬合的是數據的表象,數據表象可以非常復雜,但是數據背后驅動的規律是不是真的那么復雜呢,如果我們只看到表象不去研究數據產生的本質,很可能你花了很大的力氣去擬合,但是浪費了很多時間,得到的結果也不魯棒。
舉個例子,我們發現大自然也好,人類社會也好,其實沒有想象的那么復雜,雖然你看到的很多數據很復雜,它們背后的規律可能非常簡單。像量子力學有薛定諤方程、量子化學、流體力學、生物遺傳學、經濟學、社會學也都有類似的簡單方程,科學家發現那么紛繁復雜的現象都可以被一個動態系統所刻劃,而動態系統背后的規律可能就是一個最高二階的偏微分方程。大家可以想象,如果不知道這些機理,不對動態系統做建模,只對動態系統的產出數據做建模,就會覺得這個問題非常復雜,要有一個容量非常大的神經網絡去逼近這個數據。但反過來,如果目光焦點在這個動態系統身上,可能就兩三個參數的一個二階微分方程就搞定了。
下面也是一個值得思考的問題——動物智能,南轅北轍,雖然前面提到人工智能產生了很多的進步,但其實目前所做的還主要是認知的事情,做一個Pattern Recognition,聽聽聲音,看看圖像,這是動物也能做的事。今天的人工智能沒有回答一個關鍵的問題,就是動物和人的區別。可能有人會講,據說猴子的大腦比人的大腦小很多,有可能是體量的不同。但人的祖先跟大猩猩在包容量上應該沒有本質的區別,那到底為什么經過漫長的進化,人能成為萬物之靈主宰地球了呢?
我自己的觀點是因為人類發明了很多動物界沒有的機制和規律。比如我們有文字,我們可以把我們對世界的認知,總結出來的規律寫下來,把它變成書,變成資料傳給我們的下一代。當老一輩的人去世之后,孩子們讀讀書,就掌握了之前幾百年幾千年人們對世界的認識。但是老一代大猩猩死掉之后,它的孩子就要從頭學起。另外,我們人類有強大的教育體系,人從幼兒園開始,小學,中學,一直進入大學,用了十幾年的時間,就把幾百年、幾千年的知識都掌握在身上了,可以站在巨人的肩膀上繼續往前走,這非常了不起。好的老師,會教出好的學生,教學相長,薪火相傳。
這些人類的精髓在今天的人工智能技術里面是并沒有充分體現,而沒有它們我們怎么能指望深度神經網絡達到人的智商呢?
前面列了很多方面,是我們對人工智能領域的一些看法,不管是從技術層面,還是方法論層面,都有很多值得進一步挖掘的點,只有這些問題真正解決了,人工智能才可能穩穩妥妥的往前走,而不只是曇花一現。
基于這些考慮,我所在的微軟亞洲研究院機器學習組,對研究方向做了一個相應的布局,比如
對偶學習
,它解決的就是沒有大規模標注數據的時候,該怎么訓練一個神經網絡、怎么訓練一個增強學習模型。該論文發表在去年的NIPS大會上,獲得了很大的反響。還有,我們叫精深學習(Light Learning),為什么叫Light?前面提到很多模型太大,放不到GPU里,訓練時間很長,我們這個研究就是去回答是否真的需要那么大的模型。我們展示了一個很有趣的深度學習算法,叫
Light RNN
,用該技術,只需要用一個非常小的模型在幾天之內就可以把整個Clueweb數據學完,而且它得到的結果要比用大模型訓練很長時間得到的結果還要好。并行學習,之前提到并行學習有很多同步異步之間的權衡,我們發明了一個技術,它有異步并行的效率,但是能達到同步并行的精度,中間的技術解決方案其實很簡單,在網上也有論文。我們用了泰勒展開,一個非常簡單的數學工具,把這兩者給結合在一起。
符號學習,就是想去解決黑白之間的那個灰盒子問題。
自主學習,是想去解決深度學習調參的黑科技,既然調參這么復雜,能不能用另外一個人工智能算法來調呢,能不能用增強學習的方法來調呢,所以我們做了一系列的工作來解決怎么去調各種各樣的參數,怎么用另外一個機器學習來做這個機器學習。
最后一個方向,我們叫做超人類學習,我們想受大自然的啟發,受人類社會發展的啟發,去使得我們的人工智能技術接近人類,甚至超過人類,這背后是整個人工智能方法論的變化。
如果大家感興趣,可以關注我們微軟亞洲研究院機器學習組,跟我們共同從事機器學習的基礎研究。