Java技術在網絡爬蟲領域有著廣泛應用,其中jsoup是一款流行的Java HTML解析器,用于從網頁中提取數據。今天我們將介紹如何使用jsoup將新聞文章爬取并存儲到MySQL數據庫中。
// jsoup獲取頁面內容 Document doc = Jsoup.connect("http://news.baidu.com/").get(); // 獲取新聞列表 Elements newsList = doc.select("div#pane-news ul li a"); // 遍歷新聞列表,獲取新聞詳情頁并抓取內容 for (Element news : newsList) { String url = news.attr("abs:href"); Document detailDoc = Jsoup.connect(url).get(); // 獲取新聞標題和內容 String title = detailDoc.select("h1#title").text(); String content = detailDoc.select("div#article p").text(); // 存儲到MySQL數據庫 String sql = "INSERT INTO news (title, content) VALUES (?, ?)"; PreparedStatement pstmt = conn.prepareStatement(sql); pstmt.setString(1, title); pstmt.setString(2, content); pstmt.executeUpdate(); }
在以上代碼中,我們首先使用Jsoup連接到百度新聞頁面,并通過CSS選擇器獲取新聞列表。之后,我們遍歷新聞列表并獲取每個新聞詳情頁的地址。然后,我們使用Jsoup解析每個詳情頁并獲取新聞標題和內容。最后,我們將這些數據存儲到MySQL數據庫中。
使用jsoup爬取新聞存儲到MySQL數據庫是一項非常實用的技術,并且非常易于實現。無論是從商業還是個人的角度,它都為用戶提供了更便捷的方式來獲取和存儲所需數據。