Python是一種流行的編程語言,也是數(shù)據(jù)科學(xué)、機器學(xué)習(xí)、人工智能和自然語言處理等領(lǐng)域中最重要的工具之一。Python的詞云效果是一種強大的可視化方式,可以讓你快速了解文本數(shù)據(jù)的高頻詞匯。
#導(dǎo)入必要的庫 import wordcloud import jieba import matplotlib.pyplot as plt #讀取文本數(shù)據(jù) text = open('data.txt').read() #讀取停用詞 stopwords = open('stopwords.txt').read() #分詞 word_list = jieba.cut(text) #去除停用詞 result = [] for word in word_list: if word not in stopwords: result.append(word) #生成詞云 word_cloud = wordcloud.WordCloud(font_path='simhei.ttf',background_color='white').generate(' '.join(result)) #顯示詞云 plt.imshow(word_cloud) plt.axis('off') plt.show()
在代碼中,我們首先導(dǎo)入必要的庫,包括wordcloud、jieba和matplotlib。然后讀取文本數(shù)據(jù)和停用詞,并使用jieba庫對文本進行分詞。
接著,我們通過一個循環(huán)去除停用詞,并將所有非停用詞添加到一個數(shù)組中。最后,我們使用wordcloud庫生成詞云,并使用matplotlib庫將其顯示出來。
需要注意的是,我們指定了字體為simhei.ttf,這是一種中文宋體字體,可以確保詞云中的中文字符正確顯示。此外,我們還指定了背景顏色為白色,并關(guān)閉了坐標(biāo)軸。
通過Python的詞云效果,我們可以快速了解文本數(shù)據(jù)中的高頻詞匯,這對于文本分析和可視化非常有用。