欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

word2vec有什么應用

江奕云2年前20瀏覽0評論

word2vec有什么應用?

用Word2vec(NLP的一種常用工具)表示復調音樂的過程了解一下?希望對你有幫助!

全文共2760字,預計學習時長6分鐘或更長

圖片來源:pexels

機器學習算法變革了視覺領域與NLP(自然語言處理)領域,那音樂領域呢?近年來,音樂信息檢索(MIR)發展勢頭迅猛。本文將探討如何將NLP領域的技術應用到音樂領域。

近期, 在Chuan、Agres和 Herremans (2018)聯合發表的一篇論文中,他們論述了用Word2vec(NLP的一種常用工具)表示復調音樂的過程。下文將對該過程展開深入探究。

Word2vec

有了詞嵌入模型,就可以用代表語義的向量來表示詞語,機器學習模型也能夠更輕松地對其進行處理。而托馬斯·米科洛夫等人在2013年提出的嵌入模型Word2vec,能夠高效地創造語義向量空間(Mikolov et al., 2013)。

Word2vec模型的本質是一個簡單的單層神經網絡,該網絡的構建方式有兩種:1) 使用連續詞袋(CBOW);2)使用Skip-gram 模型。這兩種方式效率都很高,訓練耗時也相對較短。此次研究用到了Skip-gram 模型,因為米科洛夫等人曾表示,該模型在處理較小的數據集方面更為高效。Skip-gram 模型選取當前詞w_t作為輸入層,并在輸出層context window(上下文窗口)顯示預測的關聯詞。

數據來自Chuan et al (2018)。上圖表示的是單詞t的預測結果及它的context window。

網上流傳的一些圖片讓人誤以為Skip-gram網絡輸出的只是context window中的一個單詞,而非多個。那么怎樣讓Skip-gram表示整個context window呢?

訓練Skip-gram網絡時,我們使用了樣本對,包括當前輸入詞和從context window隨機選取的一個詞。Skip-gram的傳統訓練目標是使用Softmax函數計算

但這種方法運算量過大,成本過高。所幸,噪聲對比估計 (Gutmann & Hyv?rine, 2012)以及負采樣 (Mikolov et al, 2013b)能夠解決這一問題。先用負采樣大致定義一個新目標,即將真實詞的概率最大化,將噪聲樣本的概率最小化。之后只需要一個簡單的二進制的邏輯回歸,就能把噪聲樣本從真實詞中分離出來。

Word2vec模型經過訓練后,其隱層的權重主要表示經過學習的多維嵌入。

能否用單詞形式表示音樂?

音樂與語言本質上是相互聯系的。二者均包含遵循一套語法規則的連續事件。更重要的是,二者均能使人產生預想。比如,如果有人說:“我要去披薩店買個……”,顯然,你會預想他要買的是披薩。而如果有人現在哼一句“祝你生日”,然后戛然而止……正如話語一樣,旋律也能引起人的預想,而這些預想能夠通過腦電圖進行測量,比如測量大腦中事件的相關電位N400(Besson & Sch?n, 2002)。

既然語言與單詞間存在一定的相似度,那么語言表示常用模型可否有效地表示音樂呢?為了將MIDI(音序)文件轉換為“語言”,要對音樂“片段”進行定義,這里的音樂片段相當于語言中的單詞。將數據集中的音樂全部切分為相同長度,相互間不重疊的片段,每個片段長度為一個節拍。每個節拍的長度由MIDI 工具箱進行估算,不同片段的節拍長度可以不同。所有片段音高的等級都會保留下來,這里音高等級指的是不包含音階信息的音高。

下圖為肖邦作品67第4首,即A小調第47號瑪祖卡舞曲第一小節,圖中展示了如何決定片段的長度。在這里,一個節拍長度為一個四分音符。

數據來自Chuan et al (2018)——通過音樂片段創造詞。

Word2vec學習調性——音樂的分布式語義假設

在語言中,分布式語義假設是向量嵌入的驅動力。根據該假設,“在同一上下文中出現的詞往往有相同的意思(Harris, 1954) ”。這些詞轉換到向量空間后,幾何位置相近。那么Word2vec模型是否會用類似的方式表示音樂呢?

數據集

Chuan 等人用了包含八種不同音樂流派的MIDI 數據集,包含古典樂、重金屬樂,他們從130,000支曲子中根據流派分類挑選出23,178首作為數據集。在挑選出的曲子中,總共分出了4,076種不同的片段。

超參數

Word2vec模型的訓練只用到數據集中最常出現的500個片段(或詞),其他詞都用一個偽字代替。這一步驟提高了Word2vec模型的精確度,因為模型內的詞可以包含更多的信息。此外還有其他超參數,如學習速率(設為0.1),window_size(設為4),訓練步驟的數量(設為1,000,000),嵌入大?。ㄔO為256)。

和弦

要評價Word2vec模型是否成功地獲取了音樂片段的語義,還需要了解和弦。

從音樂片段構成的詞匯表中,識別出所有包含三和弦的音樂片段。用羅馬數字標記這些片段的音級(這在樂理中很常見),比如,在C調中,和弦C為I級,和弦G為V級。之后,用余弦距離計算在向量空間中,不同音級和弦的相互距離。

在一個N維空間中,兩個非零向量A和B之間的余弦距離的計算方式為:

其中θ為A和B的夾角,Ds為余弦相似度:

按樂理校對來講,I級和弦和V級和弦之間的“調性”距離應當小于I級和弦和III級和弦之間的“調性”距離。下圖表示一個C大調三和弦與其他和弦之間的距離。

數據來自Chuan et al (2018)——三和弦與主音和弦之間的余弦距離=C大調三和弦。

顯然,I級三和弦與V級和弦, IV級和弦還有vi和弦之間的距離更小,這與音樂中這幾個和弦間“調性相近”的理論吻合。也就是說,Word2vec模型學會了表現音樂片段之間的關系。

Word2vec空間中和弦之間的余弦距離似乎反映了和弦在樂理中的功能!

調

巴赫的十二平均律曲集(WTC)的24首前奏曲中,每首前奏曲都包含一個調,所以24首前奏曲涵蓋了包括大調和小調在內的全部24個調。對于新的嵌入空間是否獲取了有關調的信息的問題,可以通過研究十二平均律曲集求證。

把數據集擴大后,十二平均律曲集的各個前奏曲都被轉換為其他大調或小調(取決于原來調的不同),導致每首前奏曲都出現了12種版本。將這些調的各個片段映射到先前訓練的向量空間,使用K-Means進行聚類,就得到了新數據集中不同前奏曲的質心。將這些前奏曲轉換為調,就保證了質心之間的余弦距離僅受調的影響。

在不同調的前奏曲中,質心之間產生的余弦距離如下圖所示。正如預期那樣,不同的五度和音的調性非常接近,圖中對角線旁邊較暗的區域即為證明。調性相差很大的調(例如F和F#)表現為橙色,說明Word2vec空間反映了調之間的調性距離,證實猜想成立。

數據來自Chuan et al (2018)——根據不同調的前奏曲之間的余弦距離繪制的相似矩陣。

類比

關于Word2vec有一個有趣的圖像,表現的是向量空間中,國王→女王,男人→女人之間的轉換過程 (Mikolov et al., 2013c),這也就說明了向量轉換能夠傳達意義。那么向量是否也能傳達音樂中的意義?

首先,我們檢測了復調片段中的和弦,查看從C大調到G大調(I-V)和弦對的向量。不同I-V向量之間的夾角非常相似(見右圖),甚至可以看作是五度和音構成的多維圓。這也再次證明,類比的概念可能存在于音樂領域的Word2vec空間中,但要得到更清楚的例子,還需要更多調查研究。

數據來自Chuan et al (2018)——和弦對向量之間的夾角。

其他應用-Word2vec能否生成樂曲?

Chuan 等人 (2018) 簡單探討了Word2vec模型通過替代音樂片段來生成新的音樂的過程。他們表示,這只是一個初步測試,該系統可作為一種表示方法用于更綜合的系統中,如LSTM。論文中還有更多細節描述,在此不作贅述。下圖為研究結果。

數據來自Chuan et al (2018)——用幾何位置相近的片段進行替換。

結論

Chuan、Agres與Herremans (2018)建立了一個Word2vec模型,可以捕捉復調音樂的音調屬性,而無需將實際音符輸入模型之中。他們的論文有力地證明了,在詞嵌入中能夠找到關于調與和弦的信息。那么可否用Word2vec表示音樂呢?答案是肯定的,可以用Word2vec表示復調音樂。這就打開了一種新思路:還可以將這種表現形式嵌入其他模型中,用以捕捉音樂的時間信息。

留言 點贊 關注

我們一起分享AI學習與發展的干貨

歡迎關注全平臺AI垂類自媒體 “讀芯術”

css2媒體選擇,word2vec有什么應用