全部課程
發(fā)布時(shí)間: 2021-08-26 16:42:07
hadoop是什么?Hadoop是一種分析和處理大數(shù)據(jù)的軟件平臺(tái),是Appach的一個(gè)用Java語(yǔ)言所實(shí)現(xiàn)的開(kāi)源軟件的加框,在大量計(jì)算機(jī)組成的集群當(dāng)中實(shí)現(xiàn)了對(duì)于海量的數(shù)據(jù)進(jìn)行的分布式計(jì)算。
Hadoop的優(yōu)點(diǎn):
1.高可靠性,Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
2.高擴(kuò)展性,Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
3.高效性,Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非??臁?/p>
4,高容錯(cuò)性,Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。
5,低成本,hadoop是開(kāi)源的,項(xiàng)目的軟件成本因此會(huì)大大降低。
Hadoop的模塊組成:
1.Hadoop 分布式文件系統(tǒng) (HDFS)—一個(gè)在標(biāo)準(zhǔn)或低端硬件上運(yùn)行的分布式文件系統(tǒng)。
2.Yet Another Resource Negotiator (YARN)—管理與監(jiān)控集群節(jié)點(diǎn)和資源使用情況。
3.MapReduce—一個(gè)幫助計(jì)劃對(duì)數(shù)據(jù)運(yùn)行并行計(jì)算的框架。該 Map 任務(wù)會(huì)提取輸入數(shù)據(jù),轉(zhuǎn)換成能采用鍵值對(duì)形式對(duì)其進(jìn)行計(jì)算的數(shù)據(jù)集。
4.Hadoop Common—提供可在所有模塊上使用的常見(jiàn) Java 庫(kù)。
Hadoop能干什么?
1.大數(shù)據(jù)存儲(chǔ):分布式存儲(chǔ)
2.日志處理:擅長(zhǎng)日志分析
3.ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫(kù)
4.機(jī)器學(xué)習(xí): 比如Apache Mahout項(xiàng)目
5.搜索引擎:Hadoop + lucene實(shí)現(xiàn)
6.數(shù)據(jù)挖掘:目前比較流行的廣告推薦,個(gè)性化廣告推薦
Hadoop是專(zhuān)為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì)的,并不適合那種對(duì)幾個(gè)記錄隨機(jī)讀寫(xiě)的在線事務(wù)處理模式。
上一篇: hadoop有什么用
下一篇: cloudera認(rèn)證有什么用