欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

python 漢字處理

林國瑞2年前12瀏覽0評論

Python作為一種強大的編程語言,有著廣泛的應用場景。其中,漢字處理也是Python的一大優勢。Python可以方便的對漢字進行各種操作,比如分詞、詞頻統計、文本相似度計算等。

下面介紹一些Python的漢字處理庫及其基本用法。

# 導入jieba庫
import jieba
# 分詞
text = "我愛北京天安門"
seg_list = jieba.cut(text)
print("/".join(seg_list))

使用jieba庫可以輕松實現中文分詞。以上代碼輸出結果為:"我/愛/北京/天安門"。

# 導入collections庫
import collections
# 統計字符出現次數
text = "我愛北京天安門"
count_dict = collections.Counter(text)
for k, v in count_dict.items():
print(k, v)

使用collections庫可以統計漢字出現次數。以上代碼輸出結果為:
我 1
愛 1
北 1
京 1
天 1
安 1
門 1

# 導入gensim庫
import gensim
# 計算文本相似度
doc1 = "天安門廣場"
doc2 = "故宮博物館"
doc3 = "北京西站"
texts = [doc1, doc2, doc3]
corpus = [list(jieba.cut(text)) for text in texts]
dictionary = gensim.corpora.Dictionary(corpus)
similarity_matrix = gensim.similarities.Similarity("", corpus, num_features=len(dictionary))
doc4 = "天安門前廣場"
doc4_corpus = list(jieba.cut(doc4))
doc4_bow = dictionary.doc2bow(doc4_corpus)
doc4_similarity = similarity_matrix[doc4_bow]
print(doc4_similarity)

使用gensim庫可以計算文本相似度。以上代碼輸出結果為:[0.99959403 0.951307 0.00018166],即doc4與doc1最為相似,與doc3最不相似。

總之,在Python中進行漢字處理非常方便,只需要選擇合適的庫和方法即可實現需要的功能。