如何使用python對中文txt文件分詞

如何使用python對中文txt文件分詞？

安裝

pip install jieba

特點

精確模式：試圖將句子最精確地切開，適合文本分析.全模式：把所有的可以成詞的詞語都掃描處理，速度非常快，但是不能解決歧義.搜索引擎模式：在精確模式的基礎上，對長詞再次切分，適合用于引擎分詞.支持繁體分詞.支持自定義詞典.MIT授權協議.

樣例分享

樣例要求

對如上文本文件實現中文分詞，并且分詞結果中不包含字母、標點、中英文停詞（如，an、and、another、一定、一方面、一旦等）等內容，同時支持特定含義詞組的切分（如“牛仔很忙”、"青花瓷"，不能分切分成"牛仔"，"很忙"，"青花”，"瓷"），分詞結果輸出至txt格式文件中。

要求解析：

1）分詞結果中不包含字母、標點、中英文停詞：

需要使用結巴模塊的精確分詞模式（適應文本分詞），cut()進行分詞處理。jieba.cut(content)需要中英文停詞表（網上可查下載）。if (len(word) != 0 and not stopwords.__contains__(word)):

需要通過正則過濾非中文數字內容，需要import re模塊使用findall()方法。

re.findall(u'[\u4e00-\u9fa5]|[0-9]+', word)

2）支持特定含義詞組的切分：

利用jieba支持導入自定義字典的特性，增加自定義字典。jieba.load_userdict("Custom_dictionary.dic")

源碼分享

分詞結果

轉載請說明出處：https://www.toutiao.com/i6624498386617762318/

若對你有幫助，點贊支持哦。

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站