全部課程
發(fā)布時(shí)間: 2022-03-09 14:35:54
將Hadoop稱作框架其實(shí)并不準(zhǔn)確,更多人喜歡稱Hadoop為生態(tài)圈,因?yàn)樗擞杏?jì)算和存儲(chǔ)功能外還提供了相當(dāng)多的組件,來完成大數(shù)據(jù)方方面面的工作。
Hadoop生態(tài)圈的組件非常多,圖1所示為Hadoop 1.0環(huán)境中的生態(tài)圈組成,爬蟲工具、集群化存儲(chǔ)、工作流、數(shù)據(jù)流、交互式腳本、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘框架,幾乎是應(yīng)有盡有。
圖1 Hadoop生態(tài)圈
現(xiàn)在在生產(chǎn)環(huán)境中,通常使用Hadoop 2.0環(huán)境。通常說的Hadoop只是其中最核心的框架,主要分為以下4個(gè)部分。
(1)Hadoop Common:這是Hadoop的核心功能,是對(duì)其他的Hadoop模塊做支撐的,里面包含了大量的對(duì)底層文件、網(wǎng)絡(luò)的訪問,對(duì)數(shù)據(jù)類型的支持,以及對(duì)象的序列化、反序列化的操作支持等。
(2)Hadoop Distributed File System(HDFSTM):Hadoop分布式文件系統(tǒng),也就是上面提到的HDFS,它用于存儲(chǔ)大量的數(shù)據(jù)。
(3)Hadoop YARN:一個(gè)任務(wù)調(diào)度和資源管理的框架。
(4)Hadoop MapReduce:基于YARN的并行大數(shù)據(jù)處理組件。請(qǐng)注意Hadoop 1.0和Hadoop 2.0的區(qū)別,如圖2所示。Hadoop 1.0環(huán)境的MapReduce是直接運(yùn)行的,Hadoop 2.0環(huán)境的MapReduce依賴于YARN框架,在YARN框架啟動(dòng)后,MapReduce在需要運(yùn)行的時(shí)候把任務(wù)提交給YARN框架,讓YARN框架來分配資源擇機(jī)運(yùn)行,這是兩者較大的區(qū)別。
圖2 Hadoop 1.0和Hadoop 2.0
一般把Hadoop Common、HDFS、YARN、MapReduce這四部分統(tǒng)稱為Hadoop框架,而在Hadoop生態(tài)環(huán)境中還有進(jìn)行SQL化管理HDFS的Hive組件,支持OLTP業(yè)務(wù)的NoSQL分布式數(shù)據(jù)庫HBase組件,進(jìn)行圖形界面管理的Ambari組件等,Hadoop生態(tài)圈會(huì)增加越來越多的軟件,提高軟件的便利性。
上一篇: MapReduce原理
下一篇: linux文件與目錄基本命令