欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

如何完全基于卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語音識(shí)別系統(tǒng)?

音頻特征提取的主要方法

語音信號(hào)處理領(lǐng)域通過對(duì)原始的頻譜特征進(jìn)行變換產(chǎn)生的波形非常多。過去雖然對(duì)原始頻譜進(jìn)行變換丟失了不少的語音數(shù)據(jù)信息,但是產(chǎn)生的多種變換特征促進(jìn)了語音識(shí)別和語音情感分類系統(tǒng)的識(shí)別率提升。比較典型的除了短時(shí)平均幅值、短時(shí)最大幅值、共振峰、基頻等,被應(yīng)用最多的為梅爾頻率倒譜系統(tǒng)(MFCC)特征。梅爾頻率倒譜系數(shù)將人耳的聽覺感知特性和語音信號(hào)的產(chǎn)生機(jī)制有機(jī)結(jié)合,其通過對(duì)頻譜能量譜用三角濾波變換后得到濾波器組,然后取對(duì)數(shù),最后進(jìn)行反離散余弦得到MFCC,在語音情感分類領(lǐng)域利用39維的MFCC系數(shù)取得了一定的突破,但是MFCC丟失了很多原始信息,而利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)時(shí)越原始的數(shù)據(jù)帶來越好的效果。原始頻域不僅保留更多的信息,而且可以使用卷積和池化(pooling)操作表達(dá)處理語音多變性。這里根據(jù)Sainath等人[2]提出的通過學(xué)習(xí)定義在能量譜上的濾波器數(shù)組參數(shù)作為輸入特征。(見圖3)

(1)具體處理過程如下:

(2)首先讀取音頻時(shí)域數(shù)據(jù)和采樣率。

(3)對(duì)時(shí)域數(shù)據(jù)進(jìn)行分幀處理。

(4)對(duì)分幀數(shù)據(jù)加漢明窗。

(5)進(jìn)行傅立葉變換轉(zhuǎn)化為頻域數(shù)據(jù)。

(6)利用濾波器組進(jìn)行變換每一幀得到40組梅爾濾波器組特征。

(7)進(jìn)行歸一化操作。

(8)對(duì)音頻進(jìn)行裁剪,裁剪的音頻幀數(shù)為40。

3使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行音頻情感分類

3.1卷積神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)提出于20世紀(jì)80年代,由單層感知機(jī)逐步發(fā)展為多層感知機(jī),它從信息處理角度對(duì)人腦的神經(jīng)元進(jìn)行抽象。大量的節(jié)點(diǎn)之間相互連接,每個(gè)節(jié)點(diǎn)都有特定的激勵(lì)函數(shù)。在早期發(fā)展階段,由于梯度爆炸問題和計(jì)算能力有限,神經(jīng)網(wǎng)絡(luò)的發(fā)展一直停滯。2006年Hinton提出了深度置信網(wǎng)絡(luò)(DeepBeliefNetwork,DBN)的深度產(chǎn)生模式[3]。使用這種算法可以更好地初始化DNN的訓(xùn)練,從而開啟了深度學(xué)習(xí)發(fā)展的新篇章。

卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionNeuralNetwork)為深度學(xué)習(xí)在目標(biāo)識(shí)別和分類領(lǐng)域的較早應(yīng)用。近年GPU計(jì)算能力增加和海量業(yè)務(wù)數(shù)據(jù)的出現(xiàn),使得大規(guī)模的CNN在機(jī)器視覺和語音分類等領(lǐng)域得到了廣泛應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)是一種前饋神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)有3種結(jié)構(gòu)上的特征:局部連接、權(quán)重共享以及空間或時(shí)間上的次采樣。卷積神經(jīng)網(wǎng)絡(luò)的層與層之間采用局部連接,減少了計(jì)算量。

卷積神經(jīng)網(wǎng)絡(luò)的層與層之間的連接權(quán)值是共享的,比如圖4中的m層與m-1層,每個(gè)m層神經(jīng)元與3個(gè)m-1層的神經(jīng)元進(jìn)行連接,這個(gè)3個(gè)連接的權(quán)值是一樣的。實(shí)際應(yīng)用中,可以通過設(shè)置多種不同的濾波器來提取不同的濾波參數(shù),從而實(shí)現(xiàn)提取不同的目標(biāo)特征。例如對(duì)于圖像而言,就是提取不同的圖像邊緣。在卷積神經(jīng)網(wǎng)絡(luò)中隱藏層的參數(shù)個(gè)數(shù)和隱藏層的神經(jīng)元個(gè)數(shù)無關(guān),只和濾波器大小和濾波器的種類有關(guān)系。

卷積神經(jīng)網(wǎng)絡(luò)除了局部連接和權(quán)值共享的特性,糾正線性單元(ReLU,RectifiedLinearUnits)激活函數(shù)也保證了實(shí)際訓(xùn)練中的單邊抑值和稀疏特性,同時(shí)為了保證泛化特性,采用L2/L1正則化范數(shù)作為激活偏置。

3.2具體實(shí)現(xiàn)

(1)輸入層:輸入按幀數(shù)進(jìn)行裁剪的音頻40×40。

(2)卷積層1:濾波器大小為3×3,共有20個(gè)濾波器,得到20個(gè)大小為36×36的特征映射。

(3)池化層1:卷積層1后面跟著子采樣層。子采樣層的目的是減少特征映射的神經(jīng)元個(gè)數(shù)。通過池化操作,可以大大降低特征的維數(shù),避免過擬合。最大子采樣函數(shù)的定義為:

(1)

該層采用最大子采樣方法,由特征映射中2×2的領(lǐng)域點(diǎn)采樣為1個(gè)點(diǎn),也就是4個(gè)數(shù)中最大的。最終的特征映射數(shù)目為18×18。

(4)卷積層2:濾波器大小為3×3,采用40組濾波,最終特征映射的數(shù)目為16×16。神經(jīng)元的個(gè)數(shù)共有40×16×16=10240。

(5)池化層2:采用2×2的池化操作,特征映射數(shù)目為8×8。

(6)卷積層3:采用的濾波器大小為3×3,采用60組濾波器,最終特征映射的數(shù)目為6×6,神經(jīng)元的個(gè)數(shù)為60×6×6。

(7)池化層3:得到特征映射數(shù)目為3×3。

(8)卷積層4:采用濾波器大小為2×2,采用80組濾波。特征映射數(shù)目為2×2。

(9)全聯(lián)接層:共有80×2×2=320個(gè)神經(jīng)元。

(10)輸出層:通過softmax回歸算法將特征映射到目標(biāo)的6個(gè)分類。softmax是logistic回歸的多類形態(tài)。利用softmax函數(shù)定義目標(biāo)y=c的后驗(yàn)概率為:

(2)

對(duì)于樣本(x,y),輸出目標(biāo)y={1,…,C}。我們用C維的one-hot向量表示輸出目標(biāo)。對(duì)于類別C

(3)

具體表現(xiàn)見圖5。

4測(cè)試與驗(yàn)證

驗(yàn)證采用CASIA漢語情感語料庫。該數(shù)據(jù)庫由中科院自動(dòng)化所錄制,由4位錄音人(兩男兩女)在純凈錄音環(huán)境下(信噪比約為35dB)分別在5類不同情感下(高興、悲哀、生氣、驚嚇、中性)對(duì)500句文本進(jìn)行演繹而得到,16kHz采樣,16bit量化。經(jīng)過聽辨篩選,最終保留其中9600句。

輸出結(jié)果測(cè)試:見圖6。

在epoch次數(shù)為200時(shí)準(zhǔn)確率達(dá)到81%。