欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

只會(huì)java的我,最近想做個(gè)音樂推薦系統(tǒng),關(guān)于爬蟲的學(xué)習(xí),請(qǐng)問要從java入手還是學(xué)python?

對(duì)于爬蟲來說,py確實(shí)比Java方便太多。但本質(zhì)上py包可以實(shí)現(xiàn)的功能,Java都可以做,只不過要寫很多代碼。我曾用Java爬過汽車之家,也用py爬過discuz論壇,且需要輸入驗(yàn)證碼登錄的場景。總體感覺而言,爬蟲的關(guān)鍵問題是:1、如何從網(wǎng)頁上獲取所需信息,這個(gè)需要正則表達(dá)式;2、涉及到登錄或cookies的時(shí)候,需要了解https的get和post等過程;3、當(dāng)目標(biāo)網(wǎng)站有防爬系統(tǒng)時(shí),要構(gòu)造分布式爬蟲或通過自動(dòng)代理的爬蟲。4、還要處理各種意外,比如目標(biāo)網(wǎng)站突然暫時(shí)掛了,網(wǎng)絡(luò)突然不通了,爬出來有臟數(shù)據(jù),有些網(wǎng)頁需要填寫驗(yàn)證碼....總之,爬蟲難點(diǎn)還是不少。

我重點(diǎn)是關(guān)心你所做的推薦系統(tǒng),這屬于機(jī)器學(xué)習(xí)算法技術(shù)。做推薦系統(tǒng),你需要搞到用戶評(píng)分和音樂標(biāo)題,或者你還需要搞到有關(guān)該音樂的盡可能多的信息,比如專輯、標(biāo)簽、作者等。這些數(shù)據(jù)量很大,處理起來耗時(shí)耗力。所以我覺得你這個(gè)需求的難點(diǎn)在推薦,而不是爬蟲。