NLP的建模流程一般包括下面八個(gè)步驟:
1.文本預(yù)處理
-移除html標(biāo)簽
-轉(zhuǎn)化為標(biāo)準(zhǔn)的ASCII字符
-移除特殊字符
-Stemming:轉(zhuǎn)化為原型
-Lemmatization:詞形還原
-移除終止詞
2.文本解析:了解語(yǔ)言的句法和結(jié)構(gòu)
-PartsofSpeech(POS)Tagging-詞性標(biāo)注
識(shí)別每個(gè)詞是名詞還是動(dòng)詞,形容詞等等。
-ShallowParsingorChunking-淺解析或分塊
識(shí)別名詞短語(yǔ),動(dòng)詞短語(yǔ),形容詞短語(yǔ)等等。
-ConstituencyParsing-成分解析
識(shí)別句子的組成,比如句子s由名詞短語(yǔ)和動(dòng)詞短語(yǔ)構(gòu)成。
-DependencyParsing-依存分析
識(shí)別token之間的依賴關(guān)系,比如fox→brown的標(biāo)簽是amod,表示修飾名詞的形容詞
3.探索性數(shù)據(jù)分析
-文字云,柱形圖,熱圖等
-word2vec
4.文本表示
-Tokenization
-Texttosequence
-Paddingsequences
5.特征工程
-構(gòu)造特征
6.建模
-雙向LSTM,注意力機(jī)制,CNNs等
7.評(píng)估模型
8.部署