Javascript 爬蟲是一種強大的web數據采集工具,可以獲取網絡上的各種數據來支持自身的需求。與其它語言相比,JavaScript更容易閱讀,并且簡單易懂,所以很多人使用它來編寫爬蟲程序。但是,因為一些網站設計的安全機制,現代的Web應用程序有一些限制,其中跨域是一個相對復雜的問題,對JavaScript 爬蟲的影響也很深遠。在這篇文章中,我們會詳細地探討JavaScript 爬蟲和跨域問題的關系。
跨域是一個非常常見的問題,它是指瀏覽器運行JavaScript腳本的源與要訪問的URL的源不相同。JavaScript最初被設計成只能訪問頁面源唯一的域名下的URL。雖然有一些方法可以用來規避這個特定的問題,但通常情況下,JavaScript爬蟲程序更有可能受到反跨域措施的影響。這樣程序就無法獲取完整的站點數據,從而無法實現它所需的所有功能。
let xhr = new XMLHttpRequest(); xhr.open('GET', 'http://www.example.com/something'); xhr.send();
通過上述代碼,我們可以在JavaScript中發送請求來獲取網絡數據。但是,該代碼僅能跨域訪問一些合法的域。如果你嘗試去跨域訪問僅允許在juice.com域中發出請求的服務或資源,將無法成功獲取響應。
在多數情況下,這是因為不同域之間無法共享資源。不同的域之間的腳本不能訪問另一個域的文件。這涉及到一個重要的安全問題。這個問題在跨站點腳本攻擊(XSS)中已經被廣泛討論。正因為如此,JavaScript爬蟲需要使用一些技巧來避免這個問題。
當然,每個問題都有自己的解決方法。JavaScript爬蟲解決跨域問題的方法有以下幾種:
- 使用CORS(跨域資源共享)
- 使用JSONP(JSON Padding)
- 通過代理服務器
在這里,我們將縮小問題的范圍,重點關注第一種解決辦法——CORS。
var r = new XMLHttpRequest(); r.open('GET', 'http://www.example.com/api/data', true); r.withCredentials = true;//允許cookie跨域 r.setRequestHeader('Authorization', 'Bearer ' + getToken());//自定義頭信息 r.onreadystatechange = function() { if (r.readyState == XMLHttpRequest.DONE) { console.log(r.response); } }; r.send(null);
在代碼中,我們通過withCredentials = true來激活CORS。這樣瀏覽器就會自動認為這是一個CORS請求,并且在請求頭中添加一個Origin字段。接著,在服務器端,你必須設置Access-Control-Allow-Origin來授權JavaScript爬蟲,以獲取站點的數據。這就是使用CORS第一項解決方法的完整代碼示例。
結合上述內容,我們新可以理解JavaScript爬蟲在跨域的限制下如何實現自身的功能。JavaScript中,通過三種方法中的一種來規避跨域問題。特別是,在使用CORS時,需要注意開啟相關的選項,這樣可以允許 JavaScript 爬蟲訪問遠程數據源。