大數據入門階段學些什么?
本人后端工程師入坑大數據1年多,說下我的學習過程。
1.hdfs分布式文件系統的使用,最好熟悉下原理。
2.大數據的查詢工具,hive/presto,這兩個語法基本相似,用來查詢數據生成報表
3.實時數據清洗工具flink,利用flink將實時的kafka.日志數據寫入hdfs。當然flink還有很多其他的功能,數據清洗,數據分析都有。
4.spark,分布式計算引擎,配合yarn的資源調度,用spark做數據清洗或者機器學習的模型訓練。
綜上,需要學習的東西有hdfs,hive/presto, flink,spark。當然java語言及linux命令必須會。
上一篇mc怎么趴著走
下一篇wps上下行的文字對齊