自然語(yǔ)言處理的建模過程是什么？

NLP的建模流程一般包括下面八個(gè)步驟：

1.文本預(yù)處理

-移除html標(biāo)簽

-轉(zhuǎn)化為標(biāo)準(zhǔn)的ASCII字符

-移除特殊字符

-Stemming：轉(zhuǎn)化為原型

-Lemmatization：詞形還原

-移除終止詞

2.文本解析：了解語(yǔ)言的句法和結(jié)構(gòu)

-PartsofSpeech(POS)Tagging-詞性標(biāo)注

識(shí)別每個(gè)詞是名詞還是動(dòng)詞，形容詞等等。

-ShallowParsingorChunking-淺解析或分塊

識(shí)別名詞短語(yǔ)，動(dòng)詞短語(yǔ)，形容詞短語(yǔ)等等。

-ConstituencyParsing-成分解析

識(shí)別句子的組成，比如句子s由名詞短語(yǔ)和動(dòng)詞短語(yǔ)構(gòu)成。

-DependencyParsing-依存分析

識(shí)別token之間的依賴關(guān)系，比如fox→brown的標(biāo)簽是amod，表示修飾名詞的形容詞

3.探索性數(shù)據(jù)分析

-文字云，柱形圖，熱圖等

-word2vec

4.文本表示

-Tokenization

-Texttosequence

-Paddingsequences

5.特征工程

-構(gòu)造特征

6.建模

-雙向LSTM，注意力機(jī)制，CNNs等

7.評(píng)估模型

8.部署

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站