Python是一種高級編程語言,其強大的文本處理功能使得它在自然語言處理領(lǐng)域中備受青睞。本文將介紹如何使用Python進行詞頻分析。
import re from collections import Counter #讀取文本文件 with open("example.txt", "r") as f: text = f.read() #去除標點符號和數(shù)字 text = re.sub(r'[^\w\s]', '', text) text = re.sub(r'\d+', '', text) #將文本分詞 words = text.lower().split() #計算詞頻 word_counts = Counter(words) #輸出前十個出現(xiàn)頻率最高的單詞 for word, count in word_counts.most_common(10): print(f"{word}: {count}")
以上代碼首先通過open函數(shù)讀取文本文件,并使用正則表達式將其中的標點符號和數(shù)字去除。然后使用split()函數(shù)將文本分為單詞,并且使用lower()函數(shù)將所有單詞轉(zhuǎn)換為小寫。最后使用Counter類進行詞頻統(tǒng)計,并輸出出現(xiàn)頻率最高的前十個單詞。
通過Python的詞頻分析,我們可以對文本進行更深入的了解,從而對其進行更有針對性的處理。
上一篇python眨眼檢測源碼
下一篇oracle 11 登錄