Python作為一種強大的編程語言,有著廣泛的應用場景。其中,漢字處理也是Python的一大優勢。Python可以方便的對漢字進行各種操作,比如分詞、詞頻統計、文本相似度計算等。
下面介紹一些Python的漢字處理庫及其基本用法。
# 導入jieba庫 import jieba # 分詞 text = "我愛北京天安門" seg_list = jieba.cut(text) print("/".join(seg_list))
使用jieba庫可以輕松實現中文分詞。以上代碼輸出結果為:"我/愛/北京/天安門"。
# 導入collections庫 import collections # 統計字符出現次數 text = "我愛北京天安門" count_dict = collections.Counter(text) for k, v in count_dict.items(): print(k, v)
使用collections庫可以統計漢字出現次數。以上代碼輸出結果為:
我 1
愛 1
北 1
京 1
天 1
安 1
門 1
# 導入gensim庫 import gensim # 計算文本相似度 doc1 = "天安門廣場" doc2 = "故宮博物館" doc3 = "北京西站" texts = [doc1, doc2, doc3] corpus = [list(jieba.cut(text)) for text in texts] dictionary = gensim.corpora.Dictionary(corpus) similarity_matrix = gensim.similarities.Similarity("", corpus, num_features=len(dictionary)) doc4 = "天安門前廣場" doc4_corpus = list(jieba.cut(doc4)) doc4_bow = dictionary.doc2bow(doc4_corpus) doc4_similarity = similarity_matrix[doc4_bow] print(doc4_similarity)
使用gensim庫可以計算文本相似度。以上代碼輸出結果為:[0.99959403 0.951307 0.00018166],即doc4與doc1最為相似,與doc3最不相似。
總之,在Python中進行漢字處理非常方便,只需要選擇合適的庫和方法即可實現需要的功能。