網(wǎng)站seo優(yōu)化HDFS架構
日期 : 2020-09-19 19:01:56
HDFS架構。首先,管理網(wǎng)絡上多臺計算機的存儲的文件系統(tǒng)稱為分布式文件系統(tǒng)。HDFS(Hadoop分布式文件系統(tǒng))就是其中之一,并且是專門為諸如MapReduce之類的分布式編程框架開發(fā)的文件系統(tǒng),用于執(zhí)行大規(guī)模數(shù)據(jù)處理。HDFS使用服務器/客戶端架構,每個HDFS群集主要由兩部分組成,一個是NameNode,另一個是DataNode。“名稱”節(jié)點主要控制HDFS文件系統(tǒng)的名稱空間,并維護存儲在整個集群中的文件系統(tǒng)樹。與元數(shù)據(jù)有關的所有服務也由名稱節(jié)點進程提供,因此它們也稱為元數(shù)據(jù)節(jié)點。“名稱”節(jié)點記錄文件名和拆分文件的塊列表之間的映射關系,以及塊和實際系統(tǒng)之間的對應關系。“名稱”節(jié)點以快照的形式在本地文件系統(tǒng)中存儲映射關系,并在每次系統(tǒng)重新啟動時在本地加載映像,并獲取文件的存儲地址。在大多數(shù)情況下,名稱節(jié)點僅被動地接受來自數(shù)據(jù)節(jié)點的請求,執(zhí)行其任務并更新。數(shù)據(jù)節(jié)點是實際存儲文件的節(jié)點,通常一個物理系統(tǒng)對應一個數(shù)據(jù)節(jié)點。通常,不執(zhí)行數(shù)據(jù)節(jié)點的磁盤陣列備份,因為文件被設計為備份到多個數(shù)據(jù)節(jié)點,而不是一個數(shù)據(jù)節(jié)點上的多個文件。HDFS數(shù)據(jù)塊備份和分發(fā)策略存儲一系列數(shù)據(jù)塊,每個文件都在其中劃分。除最后一個分段數(shù)據(jù)塊外,分段成文件的所有其他數(shù)據(jù)塊大小相同。為了提高容錯能力,通常以多份副本備份數(shù)據(jù)塊,同時用戶也可以自行配置數(shù)據(jù)塊的大小和備份副本的數(shù)量。基于HDFS的應用程序可以通過配置文件更改參數(shù),創(chuàng)建數(shù)據(jù)備份時,用戶可以指定塊備份的數(shù)量或稍后對其進行修改,但是在HDFS中,每個文件一次寫入。名稱節(jié)點會定期在每個數(shù)據(jù)節(jié)點上執(zhí)行心跳檢查和數(shù)據(jù)庫快速狀態(tài)報告,以確定哪些數(shù)據(jù)節(jié)點當前可用以及哪些數(shù)據(jù)文件已存儲。通常,如果很長時間未收到數(shù)據(jù)節(jié)點的心跳,則系統(tǒng)會使它無效并重新啟動該節(jié)點以恢復數(shù)據(jù)從而重新加入系統(tǒng)。