Apache Hue是一個(gè)非常流行的Hadoop Web界面,可以通過Hue來管理Hadoop相關(guān)的應(yīng)用程序。其中,sqoop工具是Hue中非常重要的組件之一,它能夠?qū)Σ煌臄?shù)據(jù)源進(jìn)行ETL操作。本文將介紹如何在Hue上使用sqoop從MySQL數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)。
首先,在使用sqoop之前需要在MySQL中創(chuàng)建一個(gè)數(shù)據(jù)庫和一個(gè)表,如下所示:
CREATE DATABASE test; USE test; CREATE TABLE students ( id INT(11) NOT NULL AUTO_INCREMENT, name VARCHAR(20) NOT NULL, age INT(11) NOT NULL, PRIMARY KEY (id) );
然后,在Hue界面中選擇“Sqoop”選項(xiàng),點(diǎn)擊“Import”按鈕,進(jìn)入數(shù)據(jù)導(dǎo)入頁面。填寫相應(yīng)的信息,如下所示:
--connect jdbc:mysql://localhost/test --username root --password password --table students --target-dir /user/hdfs/students --split-by id
其中,“--connect”參數(shù)指定了MySQL數(shù)據(jù)庫的連接信息,“--username”和“--password”參數(shù)指定了MySQL數(shù)據(jù)庫的用戶名和密碼,“--table”參數(shù)指定了需要導(dǎo)入的表名,“--target-dir”參數(shù)指定了HDFS中存儲(chǔ)數(shù)據(jù)的目錄,“--split-by”指定了用于分割Map任務(wù)的列。
最后,點(diǎn)擊“Import”按鈕,等待數(shù)據(jù)導(dǎo)入成功。可以在Hue的“File Browser”選項(xiàng)中查看導(dǎo)入的數(shù)據(jù)文件,如下圖所示:
包含導(dǎo)入的數(shù)據(jù)的HDFS目錄
通過以上步驟,我們可以在Hue中使用sqoop從MySQL數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)。