欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

python 漢字字頻

傅智翔1年前8瀏覽0評論

Python是一種流行的編程語言,被廣泛應用于數據分析、機器學習、網絡爬蟲等領域。在中文文本處理中,Python也被廣泛使用。本文將介紹如何使用Python統計漢字字頻。

# 導入中文分詞庫 jieba
import jieba
# 構建一個空字典
freq = {}
# 打開文本文件,讀取內容
with open("text.txt", encoding="utf-8") as f:
content = f.read()
# 對文本進行分詞
words = jieba.cut(content)
# 統計每個字出現的次數
for word in words:
for c in word:
if c in freq:
freq[c] += 1
else:
freq[c] = 1
# 按照字頻從大到小排序
freq = sorted(freq.items(), key=lambda x: x[1], reverse=True)
# 輸出前10個字和對應的頻次
for i in range(10):
print(freq[i][0], freq[i][1])

代碼中使用了Python中的中文分詞庫jieba,將文本分成詞語,然后遍歷每個詞語的每個字,統計每個字出現的次數,最后按照字頻從大到小排序,輸出前10個字和對應的頻次。

使用Python統計漢字字頻可以幫助我們更好地了解中文文本的特點,例如可以找出一篇文章中出現頻率最高的關鍵詞,也可以用于文本分類和情感分析等應用場景。