個(gè)人的理解,歡迎交流。
如果想從事數(shù)據(jù)分析/數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí),首先你需要一門編程語言,如Python或者R。
在分析挖掘過程中,需要建立模型,優(yōu)化模型參數(shù),需要了解概率論、統(tǒng)計(jì)學(xué)、線性代數(shù)的相關(guān)知識(shí)。
Python或者R需要搭建在一個(gè)系統(tǒng)上,如Linux,甚至需要自己編譯一些框架,如:opencv,mxnet
當(dāng)數(shù)據(jù)量大了過后,你需要采用分布式環(huán)境來存儲(chǔ)和計(jì)算,此時(shí)需要Hadoop或者Spark。
如果是做深度學(xué)習(xí),那么你還需要配置一個(gè)Linux下的GPU環(huán)境。
在業(yè)務(wù)中,你還需要深入理解業(yè)務(wù),方能更好的去建立模型。
在理解業(yè)務(wù)過程中,你還需要與各種人打交道,以便了解客戶的核心需求。
總之,進(jìn):能了解客戶需求,出方案,中間還能帶團(tuán)隊(duì)。退:還能搭環(huán)境,寫代碼,建模型,調(diào)參數(shù)。
對純技術(shù)的了解,可以參考我的書《全棧數(shù)據(jù)之門》和文章『全棧數(shù)據(jù)主要技術(shù)點(diǎn)』。