Python是一種流行的編程語言,被廣泛應用于數據分析、機器學習、網絡爬蟲等領域。在中文文本處理中,Python也被廣泛使用。本文將介紹如何使用Python統計漢字字頻。
# 導入中文分詞庫 jieba import jieba # 構建一個空字典 freq = {} # 打開文本文件,讀取內容 with open("text.txt", encoding="utf-8") as f: content = f.read() # 對文本進行分詞 words = jieba.cut(content) # 統計每個字出現的次數 for word in words: for c in word: if c in freq: freq[c] += 1 else: freq[c] = 1 # 按照字頻從大到小排序 freq = sorted(freq.items(), key=lambda x: x[1], reverse=True) # 輸出前10個字和對應的頻次 for i in range(10): print(freq[i][0], freq[i][1])
代碼中使用了Python中的中文分詞庫jieba,將文本分成詞語,然后遍歷每個詞語的每個字,統計每個字出現的次數,最后按照字頻從大到小排序,輸出前10個字和對應的頻次。
使用Python統計漢字字頻可以幫助我們更好地了解中文文本的特點,例如可以找出一篇文章中出現頻率最高的關鍵詞,也可以用于文本分類和情感分析等應用場景。