什么叫算法?
在互聯(lián)網(wǎng)時代,每時每刻都有大量的內(nèi)容被生產(chǎn)出來,不論是短視頻還是傳統(tǒng)影視作品,都是人窮盡一生也無法看完的。將內(nèi)容與其目標(biāo)受眾連接起來,是影視平臺的主要任務(wù)。除了用戶主動的檢索行為之外,通過推薦算法所得出的主頁展示是另外一條途徑。
在眾多影視平臺之中,Netflix算是影像內(nèi)容個性化推薦的先行者。它從2006年懸賞百萬美元進(jìn)行推薦算法大賽開始,就一直致力于不斷優(yōu)化面向用戶消費需求的影像內(nèi)容推薦系統(tǒng)。如今,Netflix用戶平均每3個小時的視頻播放時長中就有2個小時是來自于首頁的推薦內(nèi)容。
Netflix的現(xiàn)行的推薦算法綜合考慮到短期熱點,用戶的興趣點以及用戶的觀看場景。除了用于推薦內(nèi)容本身之外,推薦算法還用于平臺選擇推薦方式。Netflix針對每一部電影都制作了30-40份海報,每份海報的側(cè)重點不同。由于每一部電影對于不同人的吸引點也各不相同,有的因為類型對胃口,有的因為某位明星加盟,所以Netflix通過將側(cè)重點各異的海報分發(fā)到不同的受眾群體,以提升播放的轉(zhuǎn)化率。
相較而言,國內(nèi)的視頻平臺的推薦算法起步較晚,但是發(fā)展迅猛。愛奇藝于2013年推出了業(yè)界第一個智能推薦的客戶端,僅兩年之后,用戶瀏覽的推薦內(nèi)容就占到了總流量的30%。
優(yōu)酷的個性化推薦則從2017年下半年開始部分推行,2018年才全面推廣。不過憑借阿里的龐大用戶數(shù)據(jù),優(yōu)酷在用戶肖像上有著天然的優(yōu)勢。2018年優(yōu)酷認(rèn)知實驗室成立,在視頻結(jié)構(gòu)分析和內(nèi)容智能生成上進(jìn)行了提升改進(jìn)。視頻的結(jié)構(gòu)分析也就是直接從聲畫中提取信息,進(jìn)一步精細(xì)化視頻元素;而內(nèi)容智能生成主要應(yīng)用于海報,以達(dá)到前述Netflix推薦方式個性化的效果。
可以說,推薦算法是各大影視平臺博弈中的重要戰(zhàn)場。
人工智能還是人工智障
說起來,推薦算法自誕生伊始就跟影視有著深厚的淵源。
推薦算法的研究起源于20世紀(jì)90年代,由美國明尼蘇達(dá)大學(xué) GroupLens研究小組最先開始研究,他們想要制作一個名為 Movielens的電影推薦系統(tǒng),從而實現(xiàn)對用戶進(jìn)行電影的個性化推薦。首先研究小組讓用戶對自己看過的電影進(jìn)行評分,然后小組對用戶評價的結(jié)果進(jìn)行分析,并預(yù)測出用戶對并未看過的電影的興趣度,從而向他們推薦從未看過并可能感興趣的電影。
也就是說,早在彼時算法的邏輯就已經(jīng)初具雛形了,互聯(lián)網(wǎng)時代的到來為算法提供了大量的可供處理的信息,此后,推薦算法才成為視頻平臺的制勝法寶。
總結(jié)起來,現(xiàn)在各影視平臺所用的紛繁復(fù)雜的推薦算法不外乎兩條根本邏輯:一個是協(xié)同過濾算法,一個是基于內(nèi)容的推薦算法。
協(xié)同過濾算法(Collaborative Filtering,簡稱CF),也就是根據(jù)所有用戶的歷史數(shù)據(jù),來推測每個用戶當(dāng)下所可能感興趣的內(nèi)容。這種方法將用戶-內(nèi)容的評級矩陣作為輸入數(shù)據(jù),輸出的則是用戶對每一個尚未接觸過的內(nèi)容的預(yù)估興趣值,并依次將內(nèi)容排序推薦給用戶。
協(xié)同過濾算法的優(yōu)勢是不需要關(guān)于內(nèi)容本身的任何參數(shù),也就是說,內(nèi)容是什么不重要,誰喜歡它才重要。因此,許多平臺的相似推薦會采用“喜歡這部電影的人也喜歡”這種表述。同樣,當(dāng)韓國導(dǎo)演洪尚秀的電影《引見》的相似推薦中,同時出現(xiàn)蔡明亮、濱口龍介和赫爾佐格的作品時,我們也就不必驚訝,因為在協(xié)同過濾的邏輯下,正是影迷的選擇造就了不同時期、不同國別、不同風(fēng)格的導(dǎo)演之間強(qiáng)有力的連結(jié)。
由于不需要關(guān)于內(nèi)容的任何信息,協(xié)同過濾算法被廣泛應(yīng)用于電影和音樂這種難以量化的內(nèi)容的推薦上。它最大的問題就是需要豐富的歷史數(shù)據(jù)和龐大的用戶群體,因此難以應(yīng)用于平臺誕生之初。
第二種是基于內(nèi)容的推薦算法(Content-Based Filtering簡稱CBF),也就是根據(jù)內(nèi)容的分類信息為用戶推薦相似的內(nèi)容。此時的輸入數(shù)據(jù)是用戶的偏好,以及內(nèi)容的屬性,輸出的是最符合用戶偏好的內(nèi)容。
不難想象,對于影視而言,基于內(nèi)容的推薦算法最大的挑戰(zhàn)來源于影視內(nèi)容的難以量化,往往要使用高昂的人工成本。在這方法做到極致的仍是Netflix。
早在2006年,Netflix產(chǎn)品副總裁托德·耶林便帶領(lǐng)團(tuán)隊為影視內(nèi)容貼上“微標(biāo)簽”。這一方法也被其設(shè)計者賦予一個極具數(shù)理色彩的名稱——“Netflix量子理論”。在具體操作中,Netflix雇傭獨立評論者來看片,并從1000多個標(biāo)簽中進(jìn)行選擇以描述他們所看到的內(nèi)容,如血腥程度,浪漫程度,情節(jié)結(jié)論性等,由此生成了豐富的“微類型”。微類型的總量竟達(dá)76897種之多,比如“情感充沛的反體制紀(jì)錄片”“基于真實生活的皇室掠影”,都是所謂的“微類型” ,其描述方式幾乎要突破語言的極限。
基于內(nèi)容的推薦算法需要耗費大量人力,協(xié)同過濾算法則難以應(yīng)對缺乏數(shù)據(jù)的“冷啟動”過程。此外,兩種算法所共同面臨的另一個難題是用戶興趣漂移,即用戶的興趣點隨著時間變化,長期推送相似的內(nèi)容會讓用戶感到乏味。為此,許多模型通過加入艾賓浩斯遺忘曲線,滑動窗口,長短期興趣模型等方法進(jìn)行改進(jìn)。
不過,有時算法所設(shè)定的過快的更換速度也容易讓用戶措手不及。假如用戶本著好奇心進(jìn)入了自己本不熟悉的內(nèi)容,又一不小心看完了,結(jié)果第二天首頁可能被相似內(nèi)容全部占領(lǐng)。說到底每個人的遺忘速度也是不一樣的。人心難測,和所有現(xiàn)在的弱人工智能一樣,推薦算法距離測量人心還有相當(dāng)?shù)木嚯x。