目前python這么火熱?
這門語言入門容易,精通難,另外難不難也要根據個人情況,千萬別被網上一些文章忽悠,說作者幾天就精通python了,讓你心血澎湃,感覺自己幾天也能精通,但一旦開始學發現不是那回事,讓自信心受到了打擊,于是心灰意冷,書本丟到一邊再也不看了;
我覺得這些文章其實挺害人的,因為他們往往沒有介紹自己的背景,這些人往往是站在自己經精通了某種語言基礎上來看python的,因為編程語言很大一部分是想通的,所以他們只要了解了語法,就可以上手了,如果小白從頭開始是不可能幾天就精通某個語言的。
正式學習,個人認為可以分為兩步:一、學會python語言編程基礎;
二、學習python網絡爬蟲。
學會python語言編程基礎
1.建立python環境。python版本的選擇,個人強烈推薦pyhton3。因為python2會在2020年停止支持,以及官方在python3上的推動和python社區支持這兩個方面來看,未來的python圈,應該持續接納python3。另外官網提供的python3,需要自己設置path環境變量,還有許多科學計算庫,都需要自己手動安裝,對于題主零基礎,推薦使用python的發行版本anaconda。
2.學習python的基本數據類型和運算符。掌握數值、字符串、列表、字典、元組的使用方法以及運算符的使用,自己可以使用多多python練習。
3.學會使用流程語句和函數:要重點掌握if判斷語句、for與while循環語句的使用、函數的定義。學到這里就可以利用python編寫小程序解決一些應用題了。
4.接下來可以學習常用模塊的使用。比如常見的os、time、os.path模塊等。如果遇到使用上的問題,可以查看python幫助文件。比如說你想要查看字符串str的spilt屬性,可以在命令行中輸入help(str.spilt),個人認為最好的方法還是去找度娘啦。
學習Python網絡爬蟲
有了前面的python語言基礎,現在就可以學習python網絡爬蟲了。python網絡爬蟲主要分為兩種方式:一、手寫網絡爬蟲,二、利用scrapy框架
初級階段
1、學習Urllib庫與URL異常處理。要掌握Urllib庫的用法,如果遇到反爬蟲要學會瀏覽器的模擬,網絡長時間未響應時進行超時設置,掌握HTTP請求協議(主要是get請求和post請求)是爬蟲寫法,另外爬蟲如果遇到異常,應該怎么進行異常處理。
2、學會正則表達式與cookie的使用。自己可以將常見的正則表達式整理下來,比如說用正則表達式匹配電子郵件地址。
進階階段
3、學會使用爬蟲的瀏覽器的偽裝技術。通過設置Headers信息的User-Agent字段來進行反爬蟲,通過代理服務器使用IP池進行反爬蟲,利用一些工具軟件也可以進行反爬蟲。
高階
4、了解多線程爬蟲。這個反正我是不會啦,對于題主只想爬取點數據資料什么的,前面兩階段就已經足夠了,20%的技能往往能夠解決80%問題。
如果是使用scrapy框架來編寫python爬蟲的話,要懂得items、pipelines、settings這些文件怎么設置,另外學會使用XPath表達式的用法以及怎么使用Python操作數據庫。