文科生怎么學習大數據?
如果你想投身于大數據行業,需要知道從哪里開始學習之路。當前IT行業火爆的方向自然是大數據和人工智能。人工智能門檻相對高一些,那么曲線救國之路呢?那就是大數據了,機器學習吃的是數據,你完全可以投身于大數據行業。
小白、沒有社會關系如何入行?相信在經過精心的對比之后,選擇報班專業的學習方式會比較好。更看重的應該是大數據專業學習設置,標準化AI工程流程,如:加載數據集、分割數據集、選擇建立模型、訓練模型、測試模型和應用模型,從項目立項分析、確定分析目標到項目分析設計。項目實戰也覆蓋西二旗、中關村、亦莊和朝陽的大數據商業實戰,專業的學習會讓你離夢想進一步,再進一步!
下面是一些大數據技術學習筆記,可以幫助你進入大數據學習之路!
倒排索引:
關鍵字存在于一些文章或者頁面中,順序索引為這些關鍵字在某一文章中的數量和位置。
倒排索引就是一關鍵字為單位,以關鍵字為主,將所有包含這些關鍵字的文章或者頁面與該關鍵字關聯,作為該關鍵字的索引。稱為倒排。
倒排索引常見思路:
比如統計某個關鍵字在多個網頁中存在的數量和存在的文件。
在map中將關鍵字所在文件的文件名稱和關鍵字拼接組成key,value直接使用1,使用combiner,做聚合操作,key值不變,將key_filename進行組合操作,計算出這樣的組合key總數量,然后發給reduce。
對于組合鍵如何發送給reduce,這里需要自定義分分區類。在分區類中不要使用默認的key_filename真個字符串hash,而是只提取key做hash.這樣相同關鍵字就會被發送到同一個reduce。
在reduce方,鍵會以key_filename方式出現,但是這個key_filename包含了來自所有map的。在reduce函數中聚合,然后將key,filename,counter拆分出來根據key輸出到不同的文件中。后面可能會有相同關鍵字但是來自于不同網頁這樣的組合關鍵字,但是真實關鍵字一定會被發送到同一個reduce,所有不會存在多個reduce同時寫同一個結果文件的情況。后面相同真實關鍵字到來后,即使與之前的相同真實關鍵字不連續,也會寫到相同的結果文件中。