欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

jsoup爬蟲抓取新聞存儲到mysql

林玟書2年前11瀏覽0評論

Java技術在網絡爬蟲領域有著廣泛應用,其中jsoup是一款流行的Java HTML解析器,用于從網頁中提取數據。今天我們將介紹如何使用jsoup將新聞文章爬取并存儲到MySQL數據庫中。

// jsoup獲取頁面內容
Document doc = Jsoup.connect("http://news.baidu.com/").get();
// 獲取新聞列表
Elements newsList = doc.select("div#pane-news ul li a");
// 遍歷新聞列表,獲取新聞詳情頁并抓取內容
for (Element news : newsList) {
String url = news.attr("abs:href");
Document detailDoc = Jsoup.connect(url).get();
// 獲取新聞標題和內容
String title = detailDoc.select("h1#title").text();
String content = detailDoc.select("div#article p").text();
// 存儲到MySQL數據庫
String sql = "INSERT INTO news (title, content) VALUES (?, ?)";
PreparedStatement pstmt = conn.prepareStatement(sql);
pstmt.setString(1, title);
pstmt.setString(2, content);
pstmt.executeUpdate();
}

在以上代碼中,我們首先使用Jsoup連接到百度新聞頁面,并通過CSS選擇器獲取新聞列表。之后,我們遍歷新聞列表并獲取每個新聞詳情頁的地址。然后,我們使用Jsoup解析每個詳情頁并獲取新聞標題和內容。最后,我們將這些數據存儲到MySQL數據庫中。

使用jsoup爬取新聞存儲到MySQL數據庫是一項非常實用的技術,并且非常易于實現。無論是從商業還是個人的角度,它都為用戶提供了更便捷的方式來獲取和存儲所需數據。