欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

自然語(yǔ)言處理的建模過程是什么?

NLP的建模流程一般包括下面八個(gè)步驟:



1.文本預(yù)處理

-移除html標(biāo)簽

-轉(zhuǎn)化為標(biāo)準(zhǔn)的ASCII字符

-移除特殊字符

-Stemming:轉(zhuǎn)化為原型

-Lemmatization:詞形還原

-移除終止詞

2.文本解析:了解語(yǔ)言的句法和結(jié)構(gòu)

-PartsofSpeech(POS)Tagging-詞性標(biāo)注

識(shí)別每個(gè)詞是名詞還是動(dòng)詞,形容詞等等。

-ShallowParsingorChunking-淺解析或分塊

識(shí)別名詞短語(yǔ),動(dòng)詞短語(yǔ),形容詞短語(yǔ)等等。

-ConstituencyParsing-成分解析

識(shí)別句子的組成,比如句子s由名詞短語(yǔ)和動(dòng)詞短語(yǔ)構(gòu)成。

-DependencyParsing-依存分析

識(shí)別token之間的依賴關(guān)系,比如fox→brown的標(biāo)簽是amod,表示修飾名詞的形容詞

3.探索性數(shù)據(jù)分析

-文字云,柱形圖,熱圖等

-word2vec

4.文本表示

-Tokenization

-Texttosequence

-Paddingsequences

5.特征工程

-構(gòu)造特征

6.建模

-雙向LSTM,注意力機(jī)制,CNNs等

7.評(píng)估模型

8.部署