Python是一種廣泛使用的編程語言,在自然語言處理中有廣泛的應用。其中之一就是計算文本中單詞的頻率。下面將介紹如何使用Python計算文本中的詞頻率。
# 導入Counter模塊 from collections import Counter # 讀取文件 with open('text.txt', 'r', encoding='UTF-8') as f: text = f.read() # 將所有非字母字符替換為空格 text = ''.join([c if c.isalpha() else ' ' for c in text]) # 將所有單詞轉換為小寫 words = [word.lower() for word in text.split()] # 計算詞頻率 word_freq = Counter(words) # 打印前5個出現頻率最高的詞匯 print(word_freq.most_common(5))
以上代碼中,我們首先導入Counter模塊,該模塊提供了一個用于計數對象的類。接著,我們讀取文本文件,并用isalpha()方法檢查每個字符是否為字母。對于非字母字符,我們用空格替換。然后,我們將所有單詞轉換為小寫,以避免同一個詞匯的大小寫差異導致頻率計算不準確。最后,我們使用Counter類的most_common()方法來輸出出現頻率最高的5個單詞。
上一篇vue如何取出數組
下一篇vue如何存儲map