Python是一種廣泛使用的高級編程語言,迅速成為了數據科學、人工智能、機器學習等領域的熱門語言。在Python中,文本分析是很常見的應用。本文將介紹Python中如何計算詞頻和制作詞云。
首先,我們需要安裝兩個庫:pandas和wordcloud。可以使用以下命令進行安裝:
pip install pandas pip install wordcloud
在代碼中,首先我們需要讀入文本數據。在這里我們將用一個簡單的例子,將一個句子作為文本數據:
import pandas as pd text = "Python是一種廣泛使用的高級編程語言,迅速成為了數據科學、人工智能、機器學習等領域的熱門語言。" df = pd.DataFrame({'text': [text]}, index=[0])
接下來,我們需要計算詞頻。我們可以使用pandas的字符串方法進行分詞,并使用value_counts()函數進行計數:
from collections import Counter words = df['text'][0].split() word_counts = Counter(words)
最后,我們可以使用wordcloud庫進行可視化。首先,我們需要將Counter對象轉換為字典,并以此創建一個WordCloud對象。然后使用generate_from_frequencies()函數進行生成,最后使用matlplotlib.pyplot進行繪制:
from wordcloud import WordCloud import matplotlib.pyplot as plt wordcloud = WordCloud(width=800, height=400, background_color='white') wordcloud.generate_from_frequencies(dict(word_counts)) plt.figure(figsize=(12, 10)) plt.imshow(wordcloud) plt.axis('off') plt.show()
使用以上方法,我們可以快速地計算和繪制詞頻和詞云。當然,與此相關的處理還有非常多,如果有興趣,可以深入了解這些庫的其他功能,以及其他更深入的自然語言處理技術。
上一篇vue cli3安裝教程
下一篇python 數組取整