hadoop分布式和偽分布式用于哪些評(píng)情況?
Hadoop分布式和偽分布式用于三種情況:(1)NameNode,(2)DataNode,(3)Secondary NameNode三種不同的分布式架構(gòu)。
第一種情況,NameNode:(1)是整個(gè)文件系統(tǒng)的管理節(jié)點(diǎn)。它維護(hù)著整個(gè)文件系統(tǒng)的文件目錄樹(shù),文件/目錄的元信息和每個(gè)文件對(duì)應(yīng)的數(shù)據(jù)塊列表。接收用戶的操作請(qǐng)求。(2)文件包括:fsimage:元數(shù)據(jù)鏡像文件。存儲(chǔ)某一時(shí)段NameNode內(nèi)存元數(shù)據(jù)信息。edits:操作日志文件。fstime:保存最近一次checkpoint的時(shí)間(3)以上這些文件是保存在linux的文件系統(tǒng)中。第二種情況,DataNode分布式分布,Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS。HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(wèn)(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
第三種情況,Secondary NameNode創(chuàng)立連接,Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),而MapReduce則為海量的數(shù)據(jù)提供了計(jì)算。它們都對(duì)文件編輯,蜜鑰連接,格式化開(kāi)啟服務(wù),查看并測(cè)試,創(chuàng)建目錄并上傳,重新執(zhí)行命令等情況起到分析作用。
在實(shí)際運(yùn)行過(guò)程中,在以獨(dú)立模式運(yùn)行Hadoop之后,讓我們以分布式模式 (多節(jié)點(diǎn)集群)啟動(dòng)Hadoop。
當(dāng)時(shí)的先決條件:在分布式模式下啟動(dòng)hadoop之前,必須在偽分布式模式下設(shè)置hadoop,并且至少需要兩臺(tái)計(jì)算機(jī),其中一臺(tái)用于主機(jī),另一臺(tái)用于從機(jī)(您可以在一臺(tái)計(jì)算機(jī)上創(chuàng)建多臺(tái)虛擬機(jī))。
因此,Hadoop需要SSH訪問(wèn)權(quán)限來(lái)管理其節(jié)點(diǎn),即遠(yuǎn)程計(jì)算機(jī)和本地計(jì)算機(jī)。
因此,對(duì)于我們的Hadoop單節(jié)點(diǎn)設(shè)置,我們需要為hadoop_admin用戶配置對(duì)localhost的SSH訪問(wèn)。