r語言怎么導入網頁數據?
1、對于網頁為csv文件的頁面,可以直接用read.csv函數導入網頁數據并轉為數據框的形式。html格式的網頁也可以讀取。
例如:
data <- read.csv(text="it is a page")#text是要查看的文本
head(data,10)
#讀取網頁數據的代碼data <- read.csv("page"),page可以是要查看的網址或文本。
2、R基礎包中的readLines可以讀取網頁或文本數據。
#輸入文本
cat("asqsd\n1213",file="a1")
readLines("a1") #讀取文本數據
#cat中"\n"表示換行。
3、RCurl包中的getURL()函數獲取網頁數據。
library(RCurl)
data<-getURL("a1")#a1為某個具體的網址。
head(data)
4、通過getURL直接獲取的數據有些凌亂,可以借助library(XML)解析樹函數htmlTreeParse處理。
library(XML)#解析樹函數htmlTreeParse
data_Parse<-htmlTreeParse(data)
head(data_Parse,2)
5、對于復雜網站的文本數據,用rvest包中的read_html函數來提取文本數據。
library(rvest)
page<-read_html("a1")#a1為某個具體的網址
data<-html_nodes(page,"table")
head(data)
#本例中沒有輸入網址,所以結果為空。
6、通過html_nodes獲得的數據不能直接投入使用。
table<-html_table(data);table #提取表格數據,可以得到多個表格結果
table[1]#查看第1個表
text<-html_text(data);text #提取文本數據
#在實際應用中,可以發現提取表格后的數據或文本是非常便于分析的。