欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

大數(shù)據(jù)會常用到哪些算法知識?

老白2年前12瀏覽0評論

大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中有價值的、潛在有用的信息和知識的過程,也是一種決策支持過程。

常見算法場景:分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法、Web數(shù)據(jù)挖掘、深度學習、集成算法等。

一個簡單的算法選擇技巧:

首當其沖應(yīng)該選擇的就是邏輯回歸,如果它的效果不怎么樣,那么可以將它的結(jié)果作為基準來參考,在基礎(chǔ)上與其他算法進行比較;

然后試試決策樹(隨機森林)看看是否可以大幅度提升你的模型性能。即便最后你并沒有把它當做為最終模型,你也可以使用隨機森林來移除噪聲變量,做特征選擇;

如果特征的數(shù)量和觀測樣本特別多,那么當資源和時間充足時(這個前提很重要),使用SVM不失為一種選擇。

算法固然重要,但好的數(shù)據(jù)卻要優(yōu)于好的算法,設(shè)計優(yōu)良特征是大有裨益的。假如你有一個超大數(shù)據(jù)集,那么無論你使用哪種算法可能對分類性能都沒太大影響(此時就可以根據(jù)速度和易用性來進行抉擇)。

回答來自科技行者團隊成員——李祥敬