互聯網時代的負面信息引爆后,由于廣大網民的集體智慧和對真相的窮追不舍,負面信息不斷豐富并公諸于眾,負面輿情危機則不斷深化。局部危機可能蔓延為全網危機,線上危機可能發展為線下危機,甚至引發群體性事件。
在西盈大數據解決方案中,基于機器學習算法從海量數據中提取健在價值數據,提供面向相關性、推薦、建議、預警等應用分析服務。挖掘分析過程包括數據準備、數據開采、數據可視化三個階段:
1.數據準備具體包含數據采集、選擇和預處理三個方面。數據采集將互聯網信息實時采集與大數據中心事實數據進行合并處理,解決語義模糊性、處理遺漏和臟數據清洗等;數據選擇的目的是辨別出需要分析的數據集合,縮小處理范圍,提高數據挖掘質量;數據預處理是為了克服數據挖掘工具的局限性。
2.數據開采:基于具體的機器學習算法,通過對數據進行分類、聚合、度量處理發現新線索、新知識。
3.數據可視化:將決策模型與具體的業務需求相結合,對實時動態信息或歷史信息進行分類,分析結果與GIS、虛擬現實環境相結合,能夠進行基于場景的可視化;以時間切片為依據,將決策模型的可視化結果順序地展現,使用戶對整個的發展演變過程有最直觀的認識,既可以是歷史數據的分析,也可以是對動態發展的預測,同時、用戶可以通過調整決策模型的參數、最優分析評估等手段來提高系統的督能化水平。