Python 是一個強大的編程語言,也是數(shù)據(jù)科學(xué)和機器學(xué)習(xí)領(lǐng)域的一種主流語言。在數(shù)據(jù)可視化方面,它提供了許多優(yōu)秀的庫和工具,其中包括詞云 WordCloud 和結(jié)巴分詞 Jieba。
# 導(dǎo)入所需模塊
import jieba
from wordcloud import WordCloud
# 讀取文件
with open('comments.txt', 'r', encoding='utf-8') as f:
comments = f.read()
# 使用結(jié)巴分詞
comment_list = jieba.cut(comments)
# 將分詞結(jié)果轉(zhuǎn)化為字符串
comment_str = ' '.join(comment_list)
# 生成詞云
wc = WordCloud(
font_path='msyh.ttc', # 設(shè)置字體,根據(jù)個人喜好選擇
background_color='white', # 設(shè)置背景顏色,默認(rèn)為黑色
max_words=100, # 最多顯示詞數(shù)
width=800, # 詞云圖片寬度
height=600, # 詞云圖片高度
stopwords={'的', '了', '是', '和'} # 不顯示的停用詞
).generate(comment_str)
# 保存詞云圖片
wc.to_file('comment_wordcloud.png')
以上代碼演示了如何使用 Python 中的結(jié)巴分詞將一段文本拆分成詞語,然后通過詞云庫生成一個可視化的詞云圖片。此外,還可以通過設(shè)置字體、背景顏色、停用詞等參數(shù),自定義生成的詞云。
詞云 WordCloud 是一種常用的可視化工具,可以將文本中的關(guān)鍵詞以詞云的形式呈現(xiàn)出來,直觀明了。而結(jié)巴分詞 Jieba 則是一個優(yōu)秀的中文分詞工具,可以將一段中文文本拆分成具有意義的詞語。兩者結(jié)合使用可以讓我們更好地理解和分析文本數(shù)據(jù)。