T2。 "> 6080亚洲人久久精品,japanesevideos性护士

宝贝腿开大点我添添你视频男男,中文字幕熟女人妻av一区二区三区,爱色成人网,大地资源高清播放在线观看在线电影在线观看 ,777米奇影视第四色

集團(tuán)站切換校區(qū)

驗(yàn)證碼已發(fā)送,請(qǐng)查收短信

復(fù)制成功
微信號(hào):togogoi
添加微信好友, 詳細(xì)了解課程
已復(fù)制成功,如果自動(dòng)跳轉(zhuǎn)微信失敗,請(qǐng)前往微信添加好友
打開(kāi)微信
圖標(biāo)

業(yè)界新聞

當(dāng)前位置:首頁(yè) > >業(yè)界新聞 > >

Canopy聚類(lèi)

發(fā)布時(shí)間: 2022-05-17 14:33:49

Canopy聚類(lèi)是一種非常簡(jiǎn)單、快速、準(zhǔn)確地把對(duì)象劃分成聚類(lèi)的方法。所有的對(duì)象都用多維特征空間中的一個(gè)點(diǎn)表示,此算法使用一種快速近似度量法,其兩個(gè)距離閾值為T(mén)1>T2。

算法的基本思想是一開(kāi)始有一個(gè)點(diǎn)集,先從其中選取一個(gè)點(diǎn),并把此點(diǎn)移除此點(diǎn)集,接著創(chuàng)建一個(gè)包含此點(diǎn)的Canopy并對(duì)點(diǎn)集中剩余的點(diǎn)進(jìn)行迭代,對(duì)于每一點(diǎn),如果它與第一個(gè)點(diǎn)的距離小于T1,就把它添加到此Canopy中;如果它與第一個(gè)點(diǎn)的距離小于T2,先把此添加到Canopy中并把它從點(diǎn)集中刪除。這種方式避免了對(duì)那些距中心點(diǎn)距離小于T2的點(diǎn)做進(jìn)一步的處理。




此算法不斷地迭代直到初始點(diǎn)集為空為止,最終的結(jié)果是產(chǎn)生了一個(gè)Canopy的集合,每一個(gè)Canopy都包含了一個(gè)或多個(gè)點(diǎn),每個(gè)點(diǎn)都可能出現(xiàn)在一個(gè)或多個(gè)Canopy中。Canopy集群經(jīng)常用做更加嚴(yán)格的聚類(lèi)技術(shù)(如k-Means聚類(lèi))的初始階段。

1)并行策略

● 把數(shù)據(jù)轉(zhuǎn)換為恰當(dāng)?shù)妮斎敫袷健?br>
● 每個(gè)mapper對(duì)輸入集中的點(diǎn)執(zhí)行Canopy聚類(lèi),并輸出Canopy的中心。

● reducer收集Canopy的中心,然后計(jì)算產(chǎn)生最終的Canopy中心。

● 最后,將各個(gè)點(diǎn)劃分到最終的Canopy中。

2)設(shè)計(jì)實(shí)現(xiàn)

此實(shí)現(xiàn)把包含多維點(diǎn)的序列文件作為Hadoop輸入,點(diǎn)可用密集型矢量來(lái)表示,也可以用稀疏型矢量來(lái)表示。處理過(guò)程分為兩個(gè)階段,即Canopy生成階段和聚類(lèi)階段(可選)。

(1)Canopy生成階段

在Map階段,每個(gè)mapper處理一個(gè)點(diǎn)的子集,并且使用已選的距離度量和閾值來(lái)產(chǎn)生Canopy。mapper根據(jù)已知的距離度量和閾值把各個(gè)點(diǎn)添加到Canopy中,接著產(chǎn)生此Canopy的中心即為輸出,reducer收集所有的初始中心,然后再次應(yīng)用距離度量和閾值來(lái)產(chǎn)生最終的Canopy中心的集合即為輸出。reducer的輸出格式為SequenceFile(Text,Canopy),關(guān)鍵字是Canopy標(biāo)識(shí)符。

(2)聚類(lèi)階段

在聚類(lèi)階段中,每一個(gè)mapper都讀取由第一階段產(chǎn)生的Canopy作為輸入,因?yàn)樗械膍apper都由相同的Canopy定義,它們的輸出都在shuffle階段會(huì)產(chǎn)生合并,這樣每一個(gè)reducer都會(huì)看到所有的點(diǎn)屬于一個(gè)或多個(gè)Canopy。輸出是SequenceFile(IntWritable, WeightedVectorWritable),關(guān)鍵字是CanopyId。WeightedVectorWritable有兩個(gè)段,即一個(gè)double型的weight和一個(gè)VectorWritable的矢量,其表示了一個(gè)矢量屬于一個(gè)給定Canopy的可能性。

上一篇: k-Means聚類(lèi)

下一篇: mahout分類(lèi)算法

在線咨詢 ×

您好,請(qǐng)問(wèn)有什么可以幫您?我們將竭誠(chéng)提供最優(yōu)質(zhì)服務(wù)!