詞云可視化中文分詞與詞云制作?
第一:主題和意義
你為什么需要制作個性化詞云,是藝術品還是研究分析內容的一種表現方式,是文本挖掘技術的可視化,還是為了傳播更方便。形式大于內容,在有內容的前提下,可視化也是一種分析!當然我更傾向文本挖掘后的內容可視化。
當然,我也不反對純粹為了表現或者玩玩的可視化,玩也是一種學習。 因此選擇什么主題,什么主題適合用個性化詞云表現就更為重要了。比如:為大人物明星打標簽,品牌logo打標簽,SUV汽車打標簽,電視臺臺標打標簽都是好的創意和選擇。
第二:語料收集
個性化詞云是依賴語料和抽取語料關鍵詞呈現的,如果你有了要表現的詞云標簽,就可以直接制作詞云了。記住這里要有兩個數據:1、標簽關鍵詞 2、關鍵詞詞頻,詞頻決定關鍵詞的顯示大小。
語料的收集依賴你的主題和想法,從應用的角度我們主要是為了分析微博,所有微博是最好的語料來源,也是文本挖掘的結果。當然你可以從任何途徑和資源活動要表現的語料。
第三:分詞和關鍵詞抽取
當你獲得語料后,如果需要抽取關鍵詞,就需要學習中文分詞。中文分詞對一些人是技術和障礙,但是現在中文分詞是一個簡單而通用的技術,很多軟件和在線工具都可以完成一般意義下的分詞。
如:Rweibo、weiRbo、中科院張華平老師ICTCLAS2012、武大沈陽老師的ROST CM等,這里推薦初學者考慮用ROST-CM工具入手,分詞主要考慮是否可以用戶自定義詞典和剔除、詞性標注等。
少量語料的分詞比較簡單,但海量語料的分詞要有一定難度和數據處理能力。
特別強調:任何中文分詞如果能夠加入人工干涉和主觀判斷都會提升準確性和有效性;下面介紹的在線個性化分詞本身也可完成分詞。(包括中文分詞,體驗效果:不同語料和多少,時好時壞)
可視化(Visualization)是利用計算機圖形學和圖像處理技術,將數據轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。
它涉及到計算機圖形學、圖像處理、計算機視覺、計算機輔助設計等多個領域,成為研究數據表示、數據處理、決策分析等一系列問題的綜合技術。目前正在飛速發展的虛擬現實技術也是以圖形圖像的可視化技術為依托的。
可視化的意義
1、展現全貌:很多討論所涉及的主題都是包括多個元素,其中一個元素會影響到多個其他元素,如果不采取可視化,則無法看到全貌、也無法進行真正的討論。
2、增強理解、便于對話、探索、交流。
3、簡化復雜性,增強審視。
4、處理異議:在討論過程中,出現觀點不同時,爭論的雙方看到自己的觀點得以記錄并展現于眾時,情緒會逐漸趨于緩和。