大數(shù)據(jù)培訓(xùn)_機(jī)器學(xué)習(xí)模型的評(píng)價(jià)指標(biāo)和方法
衡量分類器的好壞
分類模型評(píng)估用于對(duì)分類模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,分別可以對(duì)二分類模型和多分類模型進(jìn)行評(píng)估,具體由目標(biāo)變量的類別數(shù)來確定。
對(duì)于二分類模型,評(píng)估指標(biāo)包括:混淆矩陣(Confusion Matrix)、精確率(Precision)、召回率(Recall)、F1值(F1-Measure)、AUC、ROC曲線(Receiver Operating Characteristic)、PR曲線(Precision and Recall)。
對(duì)于多分類模型,評(píng)估指標(biāo)包括混淆矩陣(Confusion Matrix)、準(zhǔn)確率(Accuracy)、各類別精準(zhǔn)率(Precision by Label)、各類別召回率(Recall by Label)、各類別F1值(F1-Measure by Label)。
二分類問題
對(duì)于二分類問題,要求將實(shí)際樣本分成正樣本(positive)或負(fù)樣本(negative),則預(yù)測(cè)結(jié)果會(huì)出現(xiàn)以下四種情況:
? 二分類問題的預(yù)測(cè)結(jié)果?
實(shí)際 | 預(yù)測(cè) | 結(jié)果 |
正樣本 | 正樣本 | 真正樣本(TP) |
負(fù)樣本 | 正樣本 | 假正樣本(FP) |
負(fù)樣本 | 負(fù)樣本 | 真負(fù)樣本(TN) |
正樣本 | 負(fù)樣本 | 假負(fù)樣本(FN) |
例如下述場(chǎng)景:某班有60名男生,40名女生,共100人。目標(biāo)要找出所有的女生?,F(xiàn)在某人挑選出了50人,其中有35名女生,15名男生,則:
真正樣本(TP):35(預(yù)測(cè)正確的女生)
假正樣本(FP):15(誤當(dāng)女生預(yù)測(cè)的男生)
真負(fù)樣本(TN):45(預(yù)測(cè)正確的男生)
假負(fù)樣本(FN):5(誤當(dāng)男生預(yù)測(cè)的女生)
可得到以下標(biāo)量來評(píng)估這次的分類工作:
精確率:Precision=TP/(TP+FP)
召回率:Recall=True Positive Rate(TPR)=TP/(TP+FN)
F1測(cè)量:F1-Measure=2TP/(2TP+FP+FN)
FPR:False Positive Rate(FPR)=FP/(FP+TN)
PR曲線:以Precision為y軸,Recall為x軸繪制得到的曲線。
ROC曲線:以TPR為y軸,F(xiàn)PR為x軸繪制得到的曲線。
AUC數(shù)據(jù):ROC曲線下方的面積值。
要計(jì)算這些指標(biāo),模型評(píng)估輸入數(shù)據(jù)集中需要包含Target列,該列數(shù)據(jù)元數(shù)據(jù)的第二個(gè)Nominal值代表正樣本。
對(duì)于多分類問題,根據(jù)多個(gè)類別的預(yù)測(cè)結(jié)果構(gòu)建混淆矩陣,每一列代表預(yù)測(cè)值,每一行代表實(shí)際的類別。
準(zhǔn)確率(Accuracy)是指全局預(yù)測(cè)正確的樣本數(shù)占所有樣本數(shù)的比例。
各類別精準(zhǔn)率(Precision by Label)是指在該類別中預(yù)測(cè)正確樣本數(shù)占預(yù)測(cè)為該類別樣本數(shù)的比例。
各類別召回率(Recall by Label)是指在該類別中預(yù)測(cè)正確的樣本數(shù)占該類別實(shí)際樣本數(shù)的比例。
各類別F1值(F1-Measure by Label)是根據(jù)各類別精準(zhǔn)率和召回率計(jì)算得到的評(píng)價(jià)指標(biāo)。
評(píng)判標(biāo)準(zhǔn)
AUC表示為ROC曲線下方的面積,簡(jiǎn)單來說,AUC值越大,說明模型分類正確率
越高。
準(zhǔn)確率表示樣本中被識(shí)別成正樣本準(zhǔn)確率,即正樣本被識(shí)別成正樣本的個(gè)數(shù)與所
有樣本被識(shí)別成正樣本個(gè)數(shù)比例,衡量模型的查準(zhǔn)率,數(shù)值越高越好。
召回率表示樣本中正樣本被識(shí)別成正樣本的比例,即被識(shí)別成正樣本的個(gè)數(shù)與實(shí)
際正樣本的個(gè)數(shù)比例,衡量模型的查全率,數(shù)值越高越好。
F1 score是統(tǒng)計(jì)學(xué)中用來衡量二分類模型精確度的一種指標(biāo)??梢钥醋魇悄P蜏?zhǔn)確
率和召回率的一種加權(quán)平均,數(shù)值越高越好。
??