HDFS分布式文件系統(tǒng)具有以下優(yōu)點:
1. 支持超大文件。HDFS分布式文件系統(tǒng)具有很大的數(shù)據(jù)集,可以存儲TB或PB級別的超大數(shù)據(jù)文件,能夠提供比較高的數(shù)據(jù)傳輸帶寬與數(shù)據(jù)訪問吞吐量,相應(yīng)的,HDFS開放了一些POSIX的必須接口,容許流式訪問文件系統(tǒng)的數(shù)據(jù)。
2. 高容錯性能。HDFS面向的是成百上千的服務(wù)器集群,每臺服務(wù)器上存儲著文件系統(tǒng)的部分?jǐn)?shù)據(jù),在集群的環(huán)境中,硬件故障是常見的問題,這就意味著總是有一部分硬件因各種原因而無法工作,因此,錯誤檢測和快速、自動的恢復(fù)是HDFS最核心的架構(gòu)目標(biāo),因此,HDFS具有高度的容錯性。
3. 高數(shù)據(jù)吞吐量。HDFS采用的是“一次性寫,多次讀”這種簡單的數(shù)據(jù)一致性模型,在HDFS中,一個文件一旦經(jīng)過創(chuàng)建、寫入、關(guān)閉后,一般就不需要修改了,這樣簡單的一致性模型,有利于提高吞吐量。
4. 流式數(shù)據(jù)訪問。HDFS的數(shù)據(jù)處理規(guī)模比較大,應(yīng)用一次需要訪問大量的數(shù)據(jù),同時這些應(yīng)用一般都是批量處理,而不是用戶交互式處理,應(yīng)用程序能以流的形式訪問數(shù)據(jù)集。