全部課程
發(fā)布時(shí)間: 2020-06-23 11:31:12
?損失函數(shù)的懲罰項(xiàng)
機(jī)器學(xué)習(xí)中,一般損失函數(shù)后邊會(huì)添加一個(gè)額外項(xiàng),一般稱作L1正則化L2正則化或者L1范數(shù)L2范數(shù)。L1、L2正則化可以看做是損失函數(shù)的懲罰項(xiàng)。對于線性回歸模型,使用L1正則化得模型稱作Lasso回歸,使用L2正則化的模型稱作Ridge回歸(嶺回歸)。
L1正則化是指權(quán)值向量中各個(gè)元素的絕對值之和,例如|w1| + |w2|。
L2正則化是指權(quán)值向量中各個(gè)元素的平方和然后再求平方根。
L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個(gè)稀疏模型,用于特征選擇。
假設(shè)有如下帶有L1正則化的目標(biāo)函數(shù)等高線圖:
L1正則化的目標(biāo)函數(shù)求解
圖中等值線是J0函數(shù)等值線,黑色菱形是L函數(shù)的圖形。我們現(xiàn)在的目標(biāo)就是不僅要原函數(shù)更接近紫色的小圈,同時(shí)要使得菱形值越小越好。并且加入L1范數(shù)的解,一定是某條等高線和菱形的切點(diǎn)。這個(gè)切點(diǎn)位于頂點(diǎn)時(shí)就是最優(yōu)解。這個(gè)頂點(diǎn)的坐標(biāo)為(0,w)。(二維情況有四個(gè)頂點(diǎn),多維情況下有更多)
L2正則化可以產(chǎn)生參數(shù)值較小的模型,能適應(yīng)不同的數(shù)據(jù)集,一定程度上防止過擬合,抗擾動(dòng)能力強(qiáng)。
L2正則化的目標(biāo)函數(shù)求解
L2正則的分析與L1類似,只不過L函數(shù)由菱形變成了圓形,仍舊求原曲線和圓形的切點(diǎn)作為最優(yōu)解。此時(shí)切點(diǎn)不容易在坐標(biāo)軸上,而是位于靠近坐標(biāo)軸的部分,因此我們可以說L2范數(shù)能讓解比較?。拷?),但是比較平滑(不等于0)。
最后,我們所說的希望模型結(jié)構(gòu)風(fēng)險(xiǎn)(SRM)最小化,是要求擬合誤差足夠?。ń?jīng)驗(yàn)風(fēng)險(xiǎn)ERM最小化),同時(shí)模型不要太復(fù)雜(正則化項(xiàng)極小化),這樣得到的模型具有較強(qiáng)的泛化能力,即對未知的數(shù)據(jù)有更好的預(yù)測能力。
L1正則化和L2正則化L1正則化
就是在loss function后邊所加正則項(xiàng)為L1范數(shù),加上L1范數(shù)容易得到稀疏解(0比較多)。L2正則化就是loss function后邊所加正則項(xiàng)為L2范數(shù)的平方,加上L2正則相比于L1正則來說,得到的解比較平滑(不是稀疏),但是同樣能夠保證解中接近于0(但不是等于0,所以相對平滑)的維度比較多,降低模型的復(fù)雜度。
上一篇: 【Java技術(shù)】SpringBoot入門基礎(chǔ)
下一篇: oracle數(shù)據(jù)庫簡介