Python是一種高級編程語言,擁有豐富的庫和工具,能夠快速搭建各種應用。其中,文本處理是Python的一個強項,可以用它進行自然語言處理。統計高頻詞是自然語言處理的常見任務之一,可以用Python輕松實現。
# 導入必要的庫 import collections import re # 讀取文本 with open('text.txt', 'r', encoding='utf-8') as file: text = file.read() # 去除標點符號和換行符 text = re.sub(r'[\W\s]+', ' ', text) # 轉化為小寫 text = text.lower() # 統計詞頻 counter = collections.Counter(text.split()) # 獲取前n個高頻詞 n = 10 top_n_words = counter.most_common(n) # 打印結果 for word in top_n_words: print(word[0], '\t', word[1])
以上代碼使用Python中的collections庫來統計高頻詞,首先讀取文本并進行一些處理,然后調用Counter類統計詞頻。最后獲取前n個高頻詞并輸出結果。
通過Python的統計功能,我們可以很方便地獲取文本中的高頻詞,有助于進行文本分析和挖掘。使用Python進行自然語言處理,可以大大提高效率和精度。