作為一名IT行業的從業者,同時也是一名計算機專業的教育工作者,我來回答一下這個問題。
對于計算機專業的學生來說,如果想把畢業設計定位在爬蟲上,雖然從技術選型上是完全可以的,但是通過爬蟲來獲取數據本身還是需要謹慎的,隨著當前網絡數據管理越來越規范,通過爬蟲獲取數據的方式也存在一定的法律風險。另外,在大數據相關技術的推動下,數據的價值將不斷提升,而通過爬蟲獲取的數據也面臨較大的應用限制。
對于很多從事大數據方向研發的研究生來說,通過爬蟲(通常會采用Python編寫)來獲取實驗數據是比較常見的方式,但是具體選擇哪些網站作為數據爬取的對象,需要根據自身的研究方向來定,同時也取決于自身的知識結構,因為不同的網站往往涉及到不同的行業領域,在數據定義上也有自身的特點。
對于本科生來說,如果畢業設計僅僅編寫一個爬蟲,在內容上會略顯單薄,如果想獲得更好的成績,應該在抓取數據之后再完成進一步的分析,這個過程還是有很多內容可以寫的,而且也會提升整個畢業設計的技術含量。
對于本科生來說,做數據分析可以采用統計學的方式,也可以采用機器學習的方式,這兩種方式也是數據分析的兩種基本方式。由于本科生的培養目標并不是培養創新型人才,所以在數據分析過程中,完全可以以分析結構化數據為主,這樣往往會更容易一些。從這個角度來看,可以重點選擇一些行業領域的門戶網站,重點選擇其價值密度比較高的結構化數據,比如醫療領域、食品領域、出行領域、教育領域等等。