人工智能視頻分析關(guān)鍵技術(shù)有哪些?
計(jì)算機(jī)視覺 計(jì)算機(jī)視覺是指計(jì)算機(jī)從圖像中識(shí)別出物體、場(chǎng)景和活動(dòng)的能力。計(jì)算機(jī)視覺技術(shù)運(yùn)用由圖像處理操作及其他技術(shù)所組成的序列,來(lái)將圖像分析任務(wù)分解為便于管理的小塊任務(wù)。比如,一些技術(shù)能夠從圖像中檢測(cè)到物體的邊緣及紋理,分類技術(shù)可被用作確定識(shí)別到的特征是否能夠代表系統(tǒng)已知的一類物體。 計(jì)算機(jī)視覺有著廣泛的應(yīng)用,其中包括:醫(yī)療成像分析被用來(lái)提高疾病預(yù)測(cè)、診斷和治療;人臉識(shí)別被Facebook用來(lái)自動(dòng)識(shí)別照片里的人物;在安防及監(jiān)控領(lǐng)域被用來(lái)指認(rèn)嫌疑人;在購(gòu)物方面,消費(fèi)者現(xiàn)在可以用智能手機(jī)拍攝下產(chǎn)品以獲得更多購(gòu)買選擇。 機(jī)器視覺作為相關(guān)學(xué)科,泛指在工業(yè)自動(dòng)化領(lǐng)域的視覺應(yīng)用。在這些應(yīng)用里,計(jì)算機(jī)在高度受限的工廠環(huán)境里識(shí)別諸如生產(chǎn)零件一類的物體,因此相對(duì)于尋求在非受限環(huán)境里操作的計(jì)算機(jī)視覺來(lái)說(shuō)目標(biāo)更為簡(jiǎn)單。計(jì)算機(jī)視覺是一個(gè)正在進(jìn)行中的研究,而機(jī)器視覺則是“已經(jīng)解決的問題”,是系統(tǒng)工程方面的課題而非研究層面的課題。因?yàn)閼?yīng)用范圍的持續(xù)擴(kuò)大,某些計(jì)算機(jī)視覺領(lǐng)域的初創(chuàng)公司自2011年起已經(jīng)吸引了數(shù)億美元的風(fēng)投資本。 機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)指的是計(jì)算機(jī)系統(tǒng)無(wú)須遵照顯式的程序指令,而只依靠數(shù)據(jù)來(lái)提升自身性能的能力。其核心在于,機(jī)器學(xué)習(xí)是從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)模式,模式一旦被發(fā)現(xiàn)便可用于預(yù)測(cè)。比如,給予機(jī)器學(xué)習(xí)系統(tǒng)一個(gè)關(guān)于交易時(shí)間、商家、地點(diǎn)、價(jià)格及交易是否正當(dāng)?shù)刃庞每ń灰仔畔⒌臄?shù)據(jù)庫(kù),系統(tǒng)就會(huì)學(xué)習(xí)到可用來(lái)預(yù)測(cè)信用卡欺詐的模式。處理的交易數(shù)據(jù)越多,預(yù)測(cè)就會(huì)越準(zhǔn)確。 機(jī)器學(xué)習(xí)的應(yīng)用范圍非常廣泛,針對(duì)那些產(chǎn)生龐大數(shù)據(jù)的活動(dòng),它幾乎擁有改進(jìn)一切性能的潛力。除了欺詐甄別之外,這些活動(dòng)還包括銷售預(yù)測(cè)、庫(kù)存管理、石油和天然氣勘探,以及公共衛(wèi)生等。機(jī)器學(xué)習(xí)技術(shù)在其他的認(rèn)知技術(shù)領(lǐng)域也扮演著重要角色,比如計(jì)算機(jī)視覺,它能在海量圖像中通過(guò)不斷訓(xùn)練和改進(jìn)視覺模型來(lái)提高其識(shí)別對(duì)象的能力。 現(xiàn)如今,機(jī)器學(xué)習(xí)已經(jīng)成為認(rèn)知技術(shù)中最炙手可熱的研究領(lǐng)域之一,在2011~2014年這段時(shí)間內(nèi)就已吸引了近10億美元的風(fēng)險(xiǎn)投資。谷歌也在2014年斥資4億美元收購(gòu)Deepmind這家研究機(jī)器學(xué)習(xí)技術(shù)的公司。 自然語(yǔ)言處理 自然語(yǔ)言處理是指計(jì)算機(jī)擁有的人類般的文本處理的能力。比如,從文本中提取意義,甚至從那些可讀的、風(fēng)格自然、語(yǔ)法正確的文本中自主解讀出含義。一個(gè)自然語(yǔ)言處理系統(tǒng)并不了解人類處理文本的方式,但是它卻可以用非常復(fù)雜與成熟的手段巧妙處理文本。例如,自動(dòng)識(shí)別一份文檔中所有被提及的人與地點(diǎn);識(shí)別文檔的核心議題;在一堆僅人類可讀的合同中,將各種條款與條件提取出來(lái)并制作成表。以上這些任務(wù)通過(guò)傳統(tǒng)的文本處理軟件根本不可能完成,后者僅針對(duì)簡(jiǎn)單的文本匹配與模式就能進(jìn)行操作。 自然語(yǔ)言處理像計(jì)算機(jī)視覺技術(shù)一樣,將各種有助于實(shí)現(xiàn)目標(biāo)的多種技術(shù)進(jìn)行了融合。建立語(yǔ)言模型來(lái)預(yù)測(cè)語(yǔ)言表達(dá)的概率分布,舉例來(lái)說(shuō),就是某一串給定字符或單詞表達(dá)某一特定語(yǔ)義的最大可能性。選定的特征可以和文中的某些元素結(jié)合來(lái)識(shí)別一段文字,通過(guò)識(shí)別這些元素可以把某類文字同其他文字區(qū)別開來(lái),比如垃圾郵件同正常郵件。以機(jī)器學(xué)習(xí)為驅(qū)動(dòng)的分類方法將成為篩選的標(biāo)準(zhǔn),用來(lái)決定一封郵件是否屬于垃圾郵件。 因?yàn)檎Z(yǔ)境對(duì)于理解“timeflies”(時(shí)光飛逝)和“fruitflies”(果蠅)的區(qū)別是如此重要,所以自然語(yǔ)言處理技術(shù)的實(shí)際應(yīng)用領(lǐng)域相對(duì)較窄,這些領(lǐng)域包括分析顧客對(duì)某項(xiàng)特定產(chǎn)品和服務(wù)的反饋,自動(dòng)發(fā)現(xiàn)民事訴訟或政府調(diào)查中的某些含義,自動(dòng)書寫諸如企業(yè)營(yíng)收和體育運(yùn)動(dòng)的公式化范文,等等。 機(jī)器人 將機(jī)器視覺、自動(dòng)規(guī)劃等認(rèn)知技術(shù)整合至極小卻高性能的傳感器、制動(dòng)器以及設(shè)計(jì)巧妙的硬件中,這就催生了新一代的機(jī)器人,它有能力與人類一起工作,能在各種未知環(huán)境中靈活處理不同的任務(wù)。例如,無(wú)人機(jī)、可以在車間為人類分擔(dān)工作的“cobots”等。 語(yǔ)音識(shí)別 語(yǔ)音識(shí)別主要是關(guān)注自動(dòng)且準(zhǔn)確地轉(zhuǎn)錄人類的語(yǔ)音技術(shù)。該技術(shù)必須面對(duì)一些與自然語(yǔ)言處理類似的問題,在不同口音的處理、背景噪聲、區(qū)分同音異形/異義詞(“buy”和“by”聽起來(lái)是一樣的)方面存在一些困難,同時(shí)還需要具有跟上正常語(yǔ)速的工作速度。語(yǔ)音識(shí)別系統(tǒng)使用一些與自然語(yǔ)言處理系統(tǒng)相同的技術(shù),再輔以其他技術(shù),比如描述聲音和其出現(xiàn)在特定序列與語(yǔ)言中概率的聲學(xué)模型等。語(yǔ)音識(shí)別的主要應(yīng)用包括醫(yī)療聽寫、語(yǔ)音書寫、電腦系統(tǒng)聲控、電話客服等。比如Domino抯Pizza,最近推出了一個(gè)允許用戶通過(guò)語(yǔ)音下單的移動(dòng)APP。 上述5項(xiàng)技術(shù)的產(chǎn)業(yè)化,是人工智能產(chǎn)業(yè)化的要素。人工智能將是一個(gè)萬(wàn)億級(jí)的市場(chǎng),甚至是10萬(wàn)億級(jí)的市場(chǎng),將會(huì)為我們帶來(lái)一些全新且容量巨大的子產(chǎn)業(yè),比如機(jī)器人、智能傳感器、可穿戴設(shè)備等,其中最令人期待的是機(jī)器人子產(chǎn)業(yè)。 機(jī)器人應(yīng)用的分法有很多種,從應(yīng)用層面可以粗略地分為以下幾個(gè)類別。第一個(gè)類別是工業(yè)級(jí)機(jī)器人,像富士康這種公司已經(jīng)運(yùn)用得很好了,因?yàn)閯诠こ杀驹絹?lái)越高,用工風(fēng)險(xiǎn)越來(lái)越高,而機(jī)器人則可以解決這些問題。第二個(gè)類別是監(jiān)護(hù)級(jí)機(jī)器人,它可以在家里和醫(yī)院里作為病人、老人或孩子的護(hù)理,幫助他們做一定復(fù)雜程度的事情。中國(guó)對(duì)監(jiān)護(hù)級(jí)機(jī)器人需求其實(shí)更迫切一些,因?yàn)橹袊?guó)人口紅利在下降,同時(shí)老齡化又不斷地上升,這兩個(gè)矛盾,機(jī)器人都可以幫助解決。因此,這個(gè)領(lǐng)域的需求在民用市場(chǎng)占比很大。第三個(gè)類別就是探險(xiǎn)級(jí)機(jī)器人,用來(lái)采礦或者探險(xiǎn)等,大大避免了人所要經(jīng)歷的危險(xiǎn)。此外還有用來(lái)打仗的軍事機(jī)器人等。 網(wǎng)絡(luò)媒體Business Insider預(yù)測(cè),機(jī)器人將在許多崗位上取替人類:電話營(yíng)銷員、校對(duì)員、手工裁縫師、數(shù)學(xué)家、保險(xiǎn)核保人、鐘表修理師、貨運(yùn)代理商、報(bào)稅員、圖像處理人員、銀行開戶員、圖書館員、打字員等。因?yàn)樗鼈兊膬r(jià)格競(jìng)爭(zhēng)力驚人。麥肯錫全球研究院的研究表明,當(dāng)中國(guó)制造業(yè)工資每年增長(zhǎng)10%~20%時(shí),全球機(jī)器人的價(jià)格每年下調(diào)10%,一臺(tái)最便宜的低階機(jī)器人只需花費(fèi)美國(guó)人年平均工資的一半。國(guó)際研究機(jī)構(gòu)顧能預(yù)測(cè):2020年機(jī)器人將導(dǎo)致全球新一波失業(yè)潮。 同時(shí),人工智能技術(shù)的發(fā)展還將讓許多舊產(chǎn)業(yè)獲得改頭換面式的新生,其中最典型的是汽車產(chǎn)業(yè)。汽車產(chǎn)業(yè)已存在上百年了,其間的變革也是非常大的,但駕駛汽車的始終是人,可最近幾年,隨著谷歌等公司的大力投入,機(jī)器或者說(shuō)某種自動(dòng)化的系統(tǒng)已經(jīng)有望取代人來(lái)駕駛汽車,從而形成一個(gè)市場(chǎng)容量巨大的新產(chǎn)業(yè),即無(wú)人駕駛汽車產(chǎn)業(yè)。這個(gè)產(chǎn)業(yè)的規(guī)模也將是萬(wàn)億級(jí)甚至是10萬(wàn)億級(jí)的。而且,這個(gè)產(chǎn)業(yè)還將與新能源產(chǎn)業(yè)疊加、融合在一起,形成“車聯(lián)網(wǎng)+能聯(lián)網(wǎng)+互聯(lián)網(wǎng)+電動(dòng)汽車”的復(fù)合產(chǎn)業(yè)——未來(lái),我們會(huì)把插電式汽車和氫燃料汽車作為發(fā)電廠使用,從而使新能源汽車成為電網(wǎng)的一部分,成為新能源的供給者,與現(xiàn)在一些裝有太陽(yáng)能發(fā)電系統(tǒng)的房屋是太陽(yáng)能的供給者一樣。 毫無(wú)疑問,與互聯(lián)網(wǎng)一樣,智能技術(shù)會(huì)向幾乎所有舊產(chǎn)業(yè)滲透。華泰證券在一份人工智能產(chǎn)業(yè)的研究報(bào)告中提及了九大行業(yè):生活服務(wù)O2O、醫(yī)療、零售業(yè)、金融業(yè)、數(shù)字營(yíng)銷業(yè)、農(nóng)業(yè)、工業(yè)、商業(yè)和在線教育。實(shí)際上,將獲得新生的舊產(chǎn)業(yè)還有許多,如軍事、傳媒、家居、醫(yī)療健康業(yè)、生命科學(xué)、能源、公共部門……甚至包括受VR/AR(虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí))技術(shù)發(fā)展影響而產(chǎn)生的虛擬產(chǎn)業(yè)。近日,國(guó)務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,提出了面向2030年我國(guó)新一代人工智能發(fā)展的指導(dǎo)思想、戰(zhàn)略目標(biāo)、重點(diǎn)任務(wù)和保障措施,部署構(gòu)筑我國(guó)人工智能發(fā)展的先發(fā)優(yōu)勢(shì),加快建設(shè)創(chuàng)新型國(guó)家和世界科技強(qiáng)國(guó)。
今天,國(guó)信大數(shù)據(jù)帶您劃重點(diǎn),全面解析《新一代人工智能發(fā)展規(guī)劃》。
戰(zhàn)略目標(biāo)重點(diǎn)任務(wù)
構(gòu)建開放協(xié)同的人工智能科技創(chuàng)新體系,從前沿基礎(chǔ)理論、關(guān)鍵共性技術(shù)、創(chuàng)新平臺(tái)、高端人才隊(duì)伍等方面強(qiáng)化部署。培育高端高效的智能經(jīng)濟(jì),發(fā)展人工智能新興產(chǎn)業(yè),推進(jìn)產(chǎn)業(yè)智能化升級(jí),打造人工智能創(chuàng)新高地。建設(shè)安全便捷的智能社會(huì),發(fā)展高效智能服務(wù),提高社會(huì)治理智能化水平,利用人工智能提升公共安全保障能力,促進(jìn)社會(huì)交往的共享互信。加強(qiáng)人工智能領(lǐng)域軍民融合,促進(jìn)人工智能技術(shù)軍民雙向轉(zhuǎn)化、軍民創(chuàng)新資源共建共享。構(gòu)建泛在安全高效的智能化基礎(chǔ)設(shè)施體系,加強(qiáng)網(wǎng)絡(luò)、大數(shù)據(jù)、高效能計(jì)算等基礎(chǔ)設(shè)施的建設(shè)升級(jí)。前瞻布局重大科技項(xiàng)目,針對(duì)新一代人工智能特有的重大基礎(chǔ)理論和共性關(guān)鍵技術(shù)瓶頸,加強(qiáng)整體統(tǒng)籌,形成以新一代人工智能重大科技項(xiàng)目為核心、統(tǒng)籌當(dāng)前和未來(lái)研發(fā)任務(wù)布局的人工智能項(xiàng)目群。人工智能熱不可擋,隨著刷臉支付、無(wú)人駕駛等人工智能領(lǐng)域的發(fā)展……人工智能已經(jīng)被看作是繼蒸汽機(jī)、電力和計(jì)算機(jī)之后,人類社會(huì)的第四次革命。
那么,哪些人工智能技術(shù)突破可以應(yīng)用到實(shí)踐中呢?且聽國(guó)信大數(shù)據(jù)君一一道來(lái)。
1、強(qiáng)化學(xué)習(xí)
解析:在典型的強(qiáng)化學(xué)習(xí)案例中,代理者通過(guò)觀察當(dāng)前所處的狀態(tài),進(jìn)而采取行動(dòng)使得長(zhǎng)期獎(jiǎng)勵(lì)的結(jié)果最大化。每執(zhí)行一次動(dòng)作,代理者都會(huì)收到來(lái)自環(huán)境的反饋信息,需要平衡根據(jù)經(jīng)驗(yàn)尋找最佳策略和探索新策略兩方面,以期實(shí)現(xiàn)最終的目標(biāo)。
應(yīng)用:城市道路的自動(dòng)駕駛;三維環(huán)境的導(dǎo)航;多個(gè)代理者在同樣的環(huán)境中交互和學(xué)習(xí)等。
2、生成模型
解析:生成模型從訓(xùn)練樣本中學(xué)到一個(gè)概率分布,通過(guò)從高維的分布中采樣,生成模型輸出與訓(xùn)練樣本類似的新樣本。
應(yīng)用:仿真時(shí)間序列的特征(例如,在強(qiáng)化學(xué)習(xí)中規(guī)劃任務(wù));超分辨率圖像;從二維圖像復(fù)原三維結(jié)構(gòu);小規(guī)模標(biāo)注數(shù)據(jù)集的泛化;預(yù)測(cè)視頻的下一幀;生成自然語(yǔ)言的對(duì)話內(nèi)容;藝術(shù)風(fēng)格遷移;語(yǔ)音和音樂的合成等。
3、記憶網(wǎng)絡(luò)
解析:一些網(wǎng)絡(luò)結(jié)構(gòu)可以讓模型具備不同程度的記憶能力。如Deep Mind團(tuán)隊(duì)的微神經(jīng)計(jì)算機(jī),結(jié)合了神經(jīng)網(wǎng)絡(luò)和記憶系統(tǒng),從復(fù)雜的數(shù)據(jù)結(jié)構(gòu)中學(xué)習(xí),通過(guò)漸進(jìn)式神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)各個(gè)獨(dú)立模型之間的側(cè)向關(guān)聯(lián),從這些已有的網(wǎng)絡(luò)模型中提取有用的特征,用來(lái)完成新的任務(wù)。
應(yīng)用:訓(xùn)練能夠適應(yīng)新環(huán)境的代理者;機(jī)器人手臂控制任務(wù);自動(dòng)駕駛車輛;時(shí)間序列預(yù)測(cè)(如金融市場(chǎng)、視頻預(yù)測(cè));理解自然語(yǔ)言和預(yù)測(cè)下文等。
4、微數(shù)據(jù)學(xué)習(xí)微模型
解析:這種技術(shù)的優(yōu)勢(shì)在于更高效的分布式訓(xùn)練過(guò)程,用更少的模型參數(shù)建立更小的深學(xué)習(xí)架構(gòu),而模型的效果卻保持最佳。訓(xùn)練過(guò)程中需要傳輸?shù)膮?shù)減少了,也能方便地將模型部署在內(nèi)存大小受限制的嵌入式硬件上。
應(yīng)用:訓(xùn)練淺層模型來(lái)模擬在大規(guī)模的已標(biāo)注訓(xùn)練數(shù)據(jù)集上訓(xùn)練得到的深度網(wǎng)絡(luò)模型;構(gòu)建效果相當(dāng)?shù)珔?shù)更少的模型結(jié)構(gòu);機(jī)器翻譯等。
5、學(xué)習(xí)/推理硬件
解析:促進(jìn)人工智能發(fā)展的催化劑之一就是圖形處理器(GPU)的升級(jí),GPU支持大規(guī)模的并行架構(gòu),可以同時(shí)處理多個(gè)任務(wù),效率遠(yuǎn)高于CPU。因此需要專門為高維機(jī)器學(xué)習(xí)任務(wù)設(shè)計(jì)的芯片。芯片設(shè)計(jì)的改進(jìn)點(diǎn)包括更大的內(nèi)存帶寬,更高的計(jì)算密度,更低的能源消耗。
應(yīng)用:模型的快速訓(xùn)練;低能耗預(yù)測(cè)運(yùn)算;持續(xù)性監(jiān)聽物聯(lián)網(wǎng)設(shè)備;云服務(wù)架構(gòu);自動(dòng)駕駛車輛;機(jī)器人等。
6、仿真環(huán)境
解析:開發(fā)數(shù)字環(huán)境來(lái)模擬真實(shí)的物理世界和行為將提供測(cè)試人工智能系統(tǒng)適應(yīng)性的機(jī)會(huì)。在這些模擬環(huán)境中的訓(xùn)練可以幫助我們了解人工智能系統(tǒng)的學(xué)習(xí)原理,如何改進(jìn)系統(tǒng),也為我們提供了可以應(yīng)用于真實(shí)環(huán)境的模型。
應(yīng)用:模擬駕駛;工業(yè)設(shè)計(jì);游戲開發(fā);智慧城市等。
毫無(wú)疑問,人工智能的迅速發(fā)展將深刻改變?nèi)祟惿鐣?huì)生活、改變世界。
在人工智能領(lǐng)域,我國(guó)語(yǔ)音識(shí)別、視覺識(shí)別技術(shù)世界領(lǐng)先,自適應(yīng)自主學(xué)習(xí)、直覺感知、綜合推理等初步具備跨越發(fā)展的能力,生物特征識(shí)別、工業(yè)機(jī)器人、無(wú)人駕駛逐步進(jìn)入實(shí)際應(yīng)用……加速積累的技術(shù)能力與海量的數(shù)據(jù)資源、巨大的應(yīng)用需求、開放的市場(chǎng)環(huán)境有機(jī)結(jié)合,形成了我國(guó)人工智能發(fā)展的獨(dú)特優(yōu)勢(shì)。
未來(lái),政府和企業(yè)必須主動(dòng)求變應(yīng)變,牢牢把握人工智能發(fā)展的重大歷史機(jī)遇,研判大勢(shì)、主動(dòng)謀劃、把握方向、搶占先機(jī),引領(lǐng)世界人工智能發(fā)展新潮流,服務(wù)經(jīng)濟(jì)社會(huì)發(fā)展和支撐國(guó)家安全,帶動(dòng)國(guó)家競(jìng)爭(zhēng)力整體躍升和跨越式發(fā)展。