飽和樣條和特征選擇藝術(shù)設(shè)計(jì)專業(yè)
《飽和樣條和特征選擇藝術(shù)設(shè)計(jì)專業(yè)》由會(huì)員分享,可在線閱讀,更多相關(guān)《飽和樣條和特征選擇藝術(shù)設(shè)計(jì)專業(yè)(26頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、1. 簡(jiǎn)介 樣條——具有連續(xù)性約束的分段多項(xiàng)式——廣泛用于擬合數(shù)據(jù)[1,5.1]。分段多項(xiàng)式的一個(gè)問(wèn)題是它們的行為超出了它們的邊界結(jié)點(diǎn),并且(典型地)在該范圍之外沒(méi)有限制地增長(zhǎng)[1,5.2]。這種不穩(wěn)定性使得推斷是危險(xiǎn)的; 從業(yè)人員必須注意避免查詢訓(xùn)練數(shù)據(jù)范圍附近或之外的樣條模型。 平滑樣條算法[2] - [4]通過(guò)擬合自然樣條來(lái)改善這個(gè)問(wèn)題,該自然樣條在邊界結(jié)點(diǎn)之后降低到較低階的多項(xiàng)式。最常用的各種光滑樣條是三次光滑樣條(在邊界結(jié)外部減少到線性的三度樣條)以及線性平滑樣條,這些樣條一直保持不變。我們提出的飽和樣條與線性平滑樣條密切相關(guān)。 平滑樣條使用或二次方復(fù)雜度概念,因此可以用
2、預(yù)先確定的密集結(jié)點(diǎn)集合擬合模型[1,5.4]。另一方面,自適應(yīng)回歸樣條[5]使用型懲罰,這可以導(dǎo)致自適應(yīng)選擇結(jié)點(diǎn)的稀疏集合。然而,自適應(yīng)回歸樣條不會(huì)在最大結(jié)點(diǎn)范圍之外降低到較低程度,因此可能會(huì)出現(xiàn)不穩(wěn)定性。 我們提出擬合自適應(yīng)回歸樣條曲線,其中對(duì)某個(gè)區(qū)間之外的樣條曲線的程度有明確的約束。我們稱這些樣條為飽和樣條。雖然我們采用的方法可以擴(kuò)展到擬合具有任意導(dǎo)數(shù)約束的樣條曲線,但在本文中,我們將重點(diǎn)放在擬合數(shù)據(jù)范圍之外平坦(恒定)的線性樣條; 我們?cè)?中提到對(duì)更高階樣條的擴(kuò)展。我們證明飽和樣條繼承了自適應(yīng)回歸樣條的結(jié)點(diǎn)選擇屬性,同時(shí)其行為與數(shù)據(jù)邊界附近的自然樣條相似。 在飽和樣條坐標(biāo)函數(shù)擬合廣義
3、相加模型[6]的背景下,我們還展示了我們方法的一個(gè)非常重要的好處:飽和約束自然導(dǎo)致變量選擇。我們不僅通過(guò)結(jié)點(diǎn)選擇來(lái)控制每個(gè)坐標(biāo)函數(shù)的復(fù)雜性,而且在飽和條件下,變量上沒(méi)有結(jié)點(diǎn)表示變量不在模型中。對(duì)于自適應(yīng)樣條,這是不正確的,因?yàn)榫€性項(xiàng)是未被去除的,因此每個(gè)變量總是在模型中。缺乏特征選擇會(huì)傷害可解釋性,并且在某些情況下會(huì)導(dǎo)致泛化。 我們提出的飽和約束排除了線性函數(shù),并且與自適應(yīng)樣條型懲罰配合,鼓勵(lì)坐標(biāo)函數(shù)相同為零。因此,廣義相加模型適合于飽和樣條組件函數(shù)通常僅依賴于少數(shù)輸入特征。 像平滑樣條曲線和自適應(yīng)回歸樣條一樣,飽和樣條曲線是解決某些自然函數(shù)回歸問(wèn)題的方法。我們將飽和樣條擬合問(wèn)題作
4、為一個(gè)凸空問(wèn)題上的凸優(yōu)化問(wèn)題來(lái)解決,粗略地說(shuō)就是擬合函數(shù)的二階導(dǎo)數(shù)。據(jù)我們所知,這種方法是新穎的。然后,我們將經(jīng)典的條件梯度方法[7]和[8]應(yīng)用于這個(gè)問(wèn)題。在我們算法的每次迭代中,都會(huì)產(chǎn)生一個(gè)原子量度;此外,我們可以統(tǒng)一限制樣條函數(shù)中結(jié)點(diǎn)個(gè)數(shù)對(duì)應(yīng)的原子個(gè)數(shù)。(當(dāng)我們操縱原子測(cè)量時(shí),我們?cè)谟邢蘅傋儾畹乃袦y(cè)量空間上解決問(wèn)題。)與標(biāo)準(zhǔn)坐標(biāo)下降方法相反,在條件梯度方法的每次迭代中,調(diào)整兩個(gè)結(jié)點(diǎn)的權(quán)重。在完全校正步驟中,我們用和簡(jiǎn)單的線性約束來(lái)求解有限維凸優(yōu)化問(wèn)題。數(shù)值實(shí)驗(yàn)表明該方法在實(shí)際中非常有效。 我們的優(yōu)化方法可以利用熱啟動(dòng),即它可以對(duì)擬合函數(shù)使用初始猜測(cè)。這使我們能夠有效地計(jì)算整個(gè)正則
5、化路徑,其代價(jià)通常只是解決正則化參數(shù)的一個(gè)值的問(wèn)題的一小部分。由于我們的算法是基于條件梯度法,我們可以使用[9]的框架來(lái)計(jì)算一個(gè)可證明的次優(yōu)近似正則化路徑。當(dāng)擬合廣義相加模型時(shí),正則化路徑具有吸引人的特征:在正則化參數(shù)的臨界值處,新的回歸因子被帶入(或偶爾出于)模型,或新的結(jié)點(diǎn)被添加到(或從中刪除) 的現(xiàn)有坐標(biāo)函數(shù),因此我們的方法結(jié)合了特征選擇和結(jié)點(diǎn)選擇。 2. 單變量函數(shù)擬合 我們希望從數(shù)據(jù)集擬合一個(gè)連續(xù)的有界函數(shù) 要做到這一點(diǎn),我們將選擇來(lái)最小化數(shù)據(jù)的不匹配或損失函數(shù),但要受到鼓勵(lì)中規(guī)則性的約束條件以及我們?cè)谙旅婷枋龅念~外約束條件和飽和度的限制。損失由以下公式給出:
6、其中是非負(fù)的,二次可微的,并且在它的第一個(gè)參數(shù)中是嚴(yán)格凸的。典型的損失函數(shù)包括(標(biāo)準(zhǔn)回歸,),或者(邏輯回歸,其中)。損失是函數(shù)的凸函數(shù),僅取決于數(shù)據(jù)點(diǎn)處的的值。損失越小,越符合給定的數(shù)據(jù)。 我們通過(guò)限制非負(fù)正則化泛函的值來(lái)約束函數(shù)是簡(jiǎn)單的。在本文中,我們將作為的微分的總變化量, , 一個(gè)的凸函數(shù)。對(duì)于一個(gè)二次可微函數(shù),我們已知, , (1) 即正則化是二階導(dǎo)數(shù)的范數(shù)。(正如我們?cè)谙乱还?jié)中所討論的那樣,總變差的現(xiàn)代定義把這種平等擴(kuò)展到不可微函數(shù)。)我們對(duì)施加的總變差限是,其中是我們用來(lái)折衷模型的參數(shù)擬合度和模型規(guī)律。這種正則化約束隱含地約束幾乎無(wú)處不
7、在,其導(dǎo)數(shù)具有有限的總變差。 我們的模型將受到另一個(gè)約束,即它飽和(在區(qū)間[0,1]之外),這意味著它是[0,1]之外兩個(gè)區(qū)間上的(可能不同的)常量:對(duì),;對(duì),。換句話說(shuō),在[0,1]的標(biāo)稱數(shù)據(jù)范圍外延伸為一個(gè)常數(shù)。就導(dǎo)數(shù)而言,這相當(dāng)于要求存在且在[0,1]之外為零。 那么該擬合問(wèn)題可以描述為 ; 滿足 (2) ,對(duì), 其中為正則化參數(shù)。要確定的變量是函數(shù),它是連續(xù)函數(shù)的矢量空間中的有限總變差的導(dǎo)數(shù)。這個(gè)擬合問(wèn)題是一個(gè)無(wú)限維凸優(yōu)化問(wèn)題。 在應(yīng)用中,問(wèn)題(2)解決
8、了一系列值,這產(chǎn)生了正則化路徑。最終模型是使用一個(gè)保留集或交叉驗(yàn)證來(lái)選擇的。對(duì)于,必須是常數(shù),并且問(wèn)題(2)減少到適合數(shù)據(jù)的最佳常數(shù)。隨著增加,的約束更小,并且我們的擬合模型變得更復(fù)雜; 最終我們期望過(guò)度擬合。例如,在回歸的情況下,對(duì)于滿足的損失函數(shù)和具有不同的數(shù)據(jù),對(duì)于足夠大的來(lái)說(shuō),擬合函數(shù)是插值數(shù)據(jù)的分段線性函數(shù)。 3. 樣條函數(shù)和有界變差函數(shù) 在本節(jié)中,我們探討擬合問(wèn)題與一次樣條的連接,即分段線性連續(xù)函數(shù),其形式如下 , (3) 其中。我們假設(shè)是不同的,并將它們稱為結(jié)點(diǎn)或簡(jiǎn)單結(jié)。
9、標(biāo)量是權(quán)重,是偏移量。我們將映射稱為鉸鏈函數(shù),因此一階樣條是鉸鏈函數(shù)的有限線性組合加上一個(gè)常數(shù)。 3.1 有界變差函數(shù) 一個(gè)右連續(xù)函數(shù)是有界變差的,當(dāng)且僅當(dāng)在[0,1]上存在一個(gè)有符號(hào)的度量,滿足 , (4) 其中,對(duì),否則等于0。度量是唯一的;我們可以認(rèn)為它是的導(dǎo)數(shù)。 也就是說(shuō),(4)基本上是微積分的第二個(gè)基本定理,其中被代替。 我們也有。(這稱為度量的總變差。)我們將使用符號(hào)來(lái)作為它的記號(hào),以強(qiáng)調(diào)與有限維情況的相似性,或者當(dāng)是可微的情況:.當(dāng)度量是原子的時(shí)候,函數(shù)是分段常數(shù),在
10、的支持下的點(diǎn)處發(fā)生跳躍。 3.2 樣條函數(shù)和有界變差導(dǎo)數(shù) 現(xiàn)在假設(shè)具有有界變差的右連續(xù)導(dǎo)數(shù)。從(4),運(yùn)用以及微積分的基本定理,我們有 (5) (6) . (7) 這表明任何這樣的函數(shù)是鉸鏈函數(shù)的一個(gè)(可能是無(wú)限的)線性組合加上一個(gè)常數(shù)(即)。在這種情況下,度量可以被認(rèn)為是的二階導(dǎo)數(shù)。 當(dāng)是原子并且在有限集上被支持時(shí),也就是說(shuō), , 是形式(3)的一階樣條,其中。因此,一階樣條完全對(duì)應(yīng)于度量(大致二階導(dǎo)數(shù))具有
11、有限支持的情況。 我們引入記號(hào) (8) 來(lái)表示從度量導(dǎo)出的函數(shù)。粗略地說(shuō),這是度量的雙重積分或與度量μ有關(guān)的鉸鏈函數(shù)的(可能有無(wú)限個(gè)的)線性組合。從到的映射是線性的,那么我們有。圖1顯示了一個(gè)的簡(jiǎn)單例子,它的一階導(dǎo)數(shù)和它的(原子度量)二階導(dǎo)數(shù)。 圖1:由原子度量產(chǎn)生的和。正則化函數(shù)就是中尖峰的絕對(duì)值之和。需要特別注意的是,中所有尖峰的(帶符號(hào))和為零:也就是說(shuō),,這意味著飽和。 3.3 通過(guò)優(yōu)化度量擬合樣條 確定,我們可以通過(guò)最小化[0,1]上的有界測(cè)度和常數(shù)來(lái)解決擬合問(wèn)
12、題(2)。度量是的二階導(dǎo)數(shù),常數(shù)對(duì)應(yīng)于。總變差正則化約束對(duì)應(yīng)于。當(dāng)時(shí),飽和度條件成立;為了確保當(dāng)時(shí),我們需要 換句話說(shuō),的飽和度對(duì)應(yīng)于具有總(凈)質(zhì)量零的。因此(2)可以改寫為 滿足, (9) 有界測(cè)度在[0,1]上,同時(shí)。這里會(huì)稍微多用一些記號(hào):我們現(xiàn)在(以及本文的其余部分)認(rèn)為是上的函數(shù)。 在上面,是將映射到由(8)給出的向量的線性算子。顯然是線性的,因?yàn)樗呛瘮?shù): 對(duì)的積分。我們將直接應(yīng)用條件梯度法來(lái)解決這個(gè)問(wèn)題。 為了獲得關(guān)于優(yōu)化問(wèn)題的直覺(jué)(9),我們可以認(rèn)
13、為它是標(biāo)準(zhǔn)lasso的無(wú)限維模擬[10]。 lasso是優(yōu)化問(wèn)題 滿足 (10) 的解決方案。這里是中的一個(gè)向量,是一個(gè)矩陣。忽略常數(shù)項(xiàng),我們看到,(9)看起來(lái)非常類似于(10),其中起著的作用;的確,本質(zhì)上是一個(gè)有行和無(wú)限多列的矩陣。我們對(duì)lasso的直覺(jué)表明,應(yīng)該有屬于(9)的解是稀疏的,這意味著是原子的。就而言,稀疏性意味著存在一維樣條的原始函數(shù)擬合問(wèn)題(2)的解。事實(shí)確實(shí)如此。定理1表明存在(9)的原子解,其支持不超過(guò)個(gè)點(diǎn);換句話說(shuō),是一個(gè)具有的一階樣條。此外,在實(shí)際中(9)的解
14、將會(huì)支持遠(yuǎn)遠(yuǎn)少于個(gè)點(diǎn)。 定理1. 固定和,為(右連續(xù))的有界總變差,并且在[0,1]之外為常數(shù)。那么就存在一個(gè)一階飽和樣條(最多有個(gè)結(jié)點(diǎn)),它在上與相匹配,并滿足。 證明: 不失一般性,我們假設(shè)。令。由于約束了總變差,所以在[0,1]上存在一個(gè)度量,使得: 也就是說(shuō),是一個(gè)無(wú)限多結(jié)的樣條。我們的想法是使用Caratheodory的凸包理論來(lái)看到,因?yàn)槲覀冎魂P(guān)心在有限數(shù)量函數(shù)上的作用(基本上,我們只關(guān)心在上的值),所以我們可以用一種可在有限的點(diǎn)上支持的度量來(lái)替代。 為了使這個(gè)想法嚴(yán)謹(jǐn),請(qǐng)注意矢量 必須位于(凸)組 的凸包中,因?yàn)?。凸包的Caratheodory定理確保
15、了可以表示為從選取的最多個(gè)點(diǎn)的凸組合。讓這些個(gè)點(diǎn)由它們的標(biāo)記表示,以及它們的權(quán)重,我們定義得到: 這里。因?yàn)椋覀冇小? # 對(duì)于本文的其余部分,我們將忽略常數(shù)項(xiàng)。使用我們提供的算法來(lái)處理常量項(xiàng)并不難,但這樣做確實(shí)會(huì)增加一些符號(hào)復(fù)雜性。也可以最小化,因?yàn)樗挥绊懻齽t化項(xiàng);由此產(chǎn)生的問(wèn)題在中仍然是凸的。 4. 擬合樣條的條件梯度法 在本節(jié)中,我們概述了求解(9)(因此也是(2))的算法。為此,我們簡(jiǎn)要回顧一下經(jīng)典的條件梯度法[7]和[8]中提出的測(cè)量理論版本。 我們需要解決的優(yōu)化問(wèn)題(9)(沒(méi)有常數(shù)項(xiàng)c)是:
16、 滿足, (11) . 正如上一節(jié)所述,(11)是一個(gè)衡量空間的凸優(yōu)化問(wèn)題。我們密切關(guān)注[8]中采用的方法,并直接對(duì)這個(gè)問(wèn)題應(yīng)用條件梯度法。這種方法的主要好處是我們可以將注意力限制在原子度量上,即的形式為 . 通過(guò)簡(jiǎn)單地存儲(chǔ)成對(duì)的的列表,這種形式的度量在計(jì)算機(jī)中很容易表示。定理1確保我們需要存儲(chǔ)的結(jié)的數(shù)量是絕對(duì)有界的,即我們的算法運(yùn)行在有界存儲(chǔ)器中。當(dāng)我們操縱原子測(cè)量時(shí),我們解決了所有有界測(cè)量的問(wèn)題(11)。 關(guān)于有限支持的原子測(cè)量值需要注意的一點(diǎn)是我們可以很容易地對(duì)結(jié)點(diǎn)位置固定的權(quán)重進(jìn)行優(yōu)化,因?yàn)檫@對(duì)應(yīng)于適用于任何
17、標(biāo)準(zhǔn)算法的有限維凸優(yōu)化問(wèn)題。我們的算法利用了這個(gè)事實(shí),并且在每次迭代之間交替添加結(jié)對(duì)并對(duì)權(quán)重進(jìn)行優(yōu)化。在后一步驟中,結(jié)可以(并且事實(shí)上最終必須)被去除。在附加和可選步驟中,結(jié)點(diǎn)可以在[0,1]內(nèi)連續(xù)移動(dòng),或者連續(xù)移動(dòng)到相鄰的數(shù)據(jù)點(diǎn)。理論上的收斂不需要這一步,但可以在實(shí)踐中改善收斂性和最終解決方案的稀疏性。 4.1 條件梯度法 條件梯度法(CGM)解決了形式為 滿足, (12) 的約束凸優(yōu)化問(wèn)題,變量。在上面,我們總是假定(凸)函數(shù)是可微分的。在CGM的每次迭代中,我們?cè)诋?dāng)前迭代處
18、形成函數(shù)的標(biāo)準(zhǔn)線性逼近: 這里是函數(shù)在點(diǎn)方向d上的方向?qū)?shù),定義為: 我們?cè)谶@里使用方向?qū)?shù)可能會(huì)令人驚訝:對(duì)于上的可微函數(shù),總是等于。方向?qū)?shù)對(duì)度量的凸函數(shù)的直接適用性促使我們傾向于使用它。 的凸性意味著是的下界,即: . (13) 在CGM的下一步中,我們?cè)诳尚屑献钚』@個(gè)一階近似: . 點(diǎn)稱為的條件梯度。請(qǐng)注意,在上提供了一個(gè)下界: . 特別地,我們可以限制點(diǎn)的次優(yōu)性: . (14) 圖2:函數(shù)在點(diǎn)處
19、的條件梯度法的單次迭代示意圖。集合是由實(shí)線表示的區(qū)間[-0.25,1.25],一階近似值繪制為在處與相切的虛線。條件梯度是點(diǎn)-0.25。 可以看到(如[7]),這個(gè)界限減少到零,這意味著它可以用作(非啟發(fā)式)終止標(biāo)準(zhǔn)。確定之后,有幾個(gè)更新的選項(xiàng)。在本文中,我們將使用CGM的完全校正變體,它選擇在的凸包上來(lái)最小化。請(qǐng)注意,隨著增長(zhǎng),這最后一步可能會(huì)變得計(jì)算密集,并且實(shí)際上限制了條件梯度方法對(duì)這一步在計(jì)算上可行的問(wèn)題的適用性。一種選擇是一旦在最小化步驟中未選擇先前的條件梯度,就刪除先前的條件梯度。Caratheodory定理確保我們需要跟蹤的先前的條件梯度集合然后以為界。然而,在實(shí)踐中,算法
20、通常在迭代之前終止。 算法1.完全校正條件梯度法 對(duì),... 1、 線性化:. 2、 最小化:. 3、 更新:. 4.2 度量的條件梯度 在本小節(jié)中,我們將條件梯度法應(yīng)用于無(wú)窮維問(wèn)題(11),我們?cè)诖酥貜?fù): 滿足, (15) . 首先我們將表明,條件梯度即度量,可以被選擇為恰好支持兩個(gè)點(diǎn),并且可以在時(shí)間上線性地計(jì)算。目標(biāo)函數(shù)在點(diǎn)處的度量s方向上的方向?qū)?shù)由下式給出: 然后,我們可以將中的內(nèi)積與中的積分互換:
21、 . (16) 令。請(qǐng)注意在的情況下,僅僅是殘差 ,是殘差與位于的單個(gè)鉸鏈函數(shù)之間的相關(guān)性。條件梯度是以下優(yōu)化問(wèn)題的解決方案: 滿足, (17) . 如果沒(méi)有積分約束條件,我們可以期望有一個(gè)解(17),即單點(diǎn)質(zhì)量:目標(biāo)函數(shù)是標(biāo)量值函數(shù)與有界度量的積分。我們將證明(17)總是有一個(gè)解決方案正好支持兩點(diǎn)。此外,我們將顯示這兩點(diǎn)可以按時(shí)間線性計(jì)算。 首先,我們將為(17)構(gòu)造一個(gè)特定的可行點(diǎn),然后我們將顯示它達(dá)到最優(yōu)值。令. 定義 . 達(dá)到的目標(biāo)值是 .
22、 我們將證明,對(duì)于(17)而言,任何可行的度量的目標(biāo)值都低于或?qū)τ冢?1)是最優(yōu)的。將分解為兩個(gè)相互獨(dú)立的非負(fù)測(cè)度的差值: 。那么,當(dāng)是可行的時(shí),我們有 達(dá)到的目標(biāo)值可以如下所示: 假設(shè)。那么上面的論證意味著是(11)的條件梯度,因此(14)意味著是最優(yōu)的。否則,我們有 這意味著 這證明了我們的斷言。 請(qǐng)注意,發(fā)現(xiàn)和在[0,1]上包含兩個(gè)單獨(dú)的優(yōu)化問(wèn)題,而不是[0,1][0,1]上的一個(gè)。這些問(wèn)題很容易通過(guò)網(wǎng)格來(lái)解決,但是在這種情況下,如果我們有權(quán)訪問(wèn)數(shù)據(jù)點(diǎn)的排序矢量,它們可以在時(shí)間上精確地按時(shí)間線性地求解。為了看到這一點(diǎn),我們對(duì)上面的擴(kuò)
23、展了的目標(biāo)函數(shù): 如果對(duì)進(jìn)行排序,我們可以精確地計(jì)算每對(duì)連續(xù)數(shù)據(jù)點(diǎn)之間的最小值,因?yàn)檫@只是計(jì)算一段時(shí)間內(nèi)線性函數(shù)的最小值。因此,在數(shù)據(jù)的一次傳遞中,我們可以精確地計(jì)算整體最小值。 在計(jì)算和之后,我們可以使用(14)來(lái)限制的次優(yōu)性: 通過(guò)選擇條件梯度,完全校正步驟是一個(gè)有限維凸問(wèn)題。修復(fù)到目前為止遇到的結(jié)點(diǎn)位置,,通過(guò)求解下面的優(yōu)化問(wèn)題我們至少可以做到完全修正算法。 (18) 這相當(dāng)
24、于中的以下優(yōu)化問(wèn)題: (19) 我們可以使用任何現(xiàn)有的算法來(lái)解決這個(gè)問(wèn)題[11],[12]。在我們的實(shí)現(xiàn)中,為了簡(jiǎn)單起見(jiàn),我們使用條件梯度法和線搜索。 通過(guò)以不斷增加的序列進(jìn)行熱啟動(dòng),我們可以高效地計(jì)算近似的規(guī)則化路徑。事實(shí)上,我們甚至可以使用[9]的方法提供可證明的次優(yōu)路徑。 4.3 收斂 正如在ADCG [8]收斂的情況下,
25、立即從一般的Banach空間[7],[13],[14]中的條件梯度法證明。條件梯度法的收斂取決于曲率參數(shù)。是一個(gè)常數(shù),所有和滿足以下不等式: 為了我們的目的,僅僅是和。有限的一個(gè)簡(jiǎn)單的充分條件是在Lipschitz梯度下可積。如果是有限的,則條件梯度方法以至少的速率收斂(根據(jù)函數(shù)值),其中是迭代計(jì)數(shù)器。 5. 廣義相加模型 單變量樣條的一個(gè)自然應(yīng)用是將廣義相加模型[6]擬合為多元數(shù)據(jù):。也就是說(shuō),擬合以下形式的函數(shù): 其中每個(gè)是從到的簡(jiǎn)單函數(shù)(這里是向量的第個(gè)坐標(biāo))。 我們可以在標(biāo)量情況下模擬我們的方法,其優(yōu)化問(wèn)題如下:
26、 (20) 這里是標(biāo)量情況下使用相同正則化參數(shù),即 在標(biāo)量情況下,可以表明總是有一個(gè)最優(yōu)的,每個(gè)坐標(biāo)函數(shù)都是一階飽和樣條。 這使得我們可以將(20)改寫為一個(gè)優(yōu)于度量的優(yōu)化問(wèn)題。與標(biāo)量情況相比,唯一的變化是該度量超過(guò)了集合——每個(gè)結(jié)現(xiàn)在都附加到特定的坐標(biāo)上。換句話說(shuō),我們搜索以下形式的函數(shù): 我們?cè)俅卧诘姆稊?shù)和正則化項(xiàng)之間具有平等性: 那么與(11)類似的是:
27、 (21) 標(biāo)量情況下的條件梯度算法立即推廣到擬合廣義相加模型——唯一的區(qū)別是我們現(xiàn)在需要為同一個(gè)坐標(biāo)找到一對(duì)結(jié)點(diǎn)。這涉及在[0,1]上解決對(duì)非凸優(yōu)化問(wèn)題——同樣可以通過(guò)網(wǎng)格化或?qū)τ?xùn)練數(shù)據(jù)進(jìn)行排序來(lái)完成。 擬合廣義相加模型時(shí),飽和樣條曲線比標(biāo)準(zhǔn)自適應(yīng)樣條曲線更具優(yōu)勢(shì)。在擬合廣義相加模型時(shí),飽和約束的增加(在[0,1]之外是常數(shù))自然會(huì)導(dǎo)致變量選擇。我們所說(shuō)的變量選擇是指函數(shù)通常恰好為0。這是因?yàn)轱?/p>
28、和約束意味著線性坐標(biāo)函數(shù)不再逃避正則化(事實(shí)上,它們是不可能的)。這與沒(méi)有飽和約束的標(biāo)準(zhǔn)自適應(yīng)樣條設(shè)置非常不同。在這種情況下,線性函數(shù),即完全避開(kāi)了正則化,因此基本上總是包含在模型中。線性函數(shù)在飽和約束下不是自由的(實(shí)際上,在函數(shù)0之外,它們是不可行的)。當(dāng)我們求解(21)時(shí),我們同時(shí)擬合非線性坐標(biāo)函數(shù),同時(shí)做可變選擇。 6. 相關(guān)現(xiàn)有成果 平滑樣條也可以解釋為無(wú)限維優(yōu)化問(wèn)題[1,5.4]。實(shí)際上,(一階)平滑樣條解決了問(wèn)題
29、 (22) 其中 (22)的解也是在[0,1]之外飽和的一階自然樣條。然而,(22)和(2)的解決方案是非常不同的。粗略地說(shuō),(22)類似于嶺回歸,而(2)類似于lasso。也就是說(shuō),(22)擬合具有與數(shù)據(jù)點(diǎn)一樣多的節(jié)點(diǎn)的函數(shù),而(2)通常適合幾何節(jié)點(diǎn)很少的樣條函數(shù)。 另一種自適應(yīng)但不飽和的樣條是自適應(yīng)回歸樣條[5]。這些樣條函數(shù)也可以作為函數(shù)回歸問(wèn)題
30、 (23) 的解決方案,其中 請(qǐng)注意,(2)沒(méi)有飽和約束。求解(23)(對(duì)于一階樣條)的算法基于定理1的擴(kuò)展,這表明在數(shù)據(jù)點(diǎn)上實(shí)際上支持(23)的解決方案。因此可以使用lasso算法來(lái)找到解決方案。這也表明解決我們的問(wèn)題的一個(gè)非常簡(jiǎn)單的方法(9):我們將個(gè)結(jié)點(diǎn)固定為數(shù)據(jù)的值,并且求解有限維凸優(yōu)化問(wèn)題以找到權(quán)重。雖然像GLMNet [15]這樣簡(jiǎn)單的坐標(biāo)下降方法由于飽和約束不會(huì)立即適用,但可以修改它們以處理約束。 這種方法可行,但可能比我們的要慢得多,因?yàn)樵趯?shí)踐中,對(duì)于正則化參數(shù)的有用值,結(jié)點(diǎn)的數(shù)目通常遠(yuǎn)小于,而對(duì)于個(gè)基函數(shù)
31、的有限維問(wèn)題的條件非常不好。這就是說(shuō),我們提出的算法——對(duì)于分段線性情況——可以被解釋為有限維問(wèn)題的前向有效集方法,其中我們避免明確評(píng)估所有基函數(shù)。我們測(cè)量理論方法的一個(gè)優(yōu)點(diǎn)是,它立即推廣到高階樣條,其中的支持不需要在數(shù)據(jù)點(diǎn)上,我們將在9中看到。在這種情況下(9)是真正無(wú)限維的,但我們的算法仍然可以直接應(yīng)用。 趨勢(shì)濾波是一種非參數(shù)函數(shù)估計(jì)技術(shù),首先在[16]中介紹,這與自適應(yīng)樣條非常相似。事實(shí)上,如[17]所述,常數(shù)或分段線性情況下的趨勢(shì)濾波估計(jì)與自適應(yīng)樣條估計(jì)完全相同。趨勢(shì)過(guò)濾越來(lái)越普遍,因?yàn)樗姓J(rèn)了非常有效強(qiáng)大的算法[17],[18]。事實(shí)上,這些算法中的一些(尤其是適合GAMs的算法[
32、19])可能適用于有效擬合飽和趨勢(shì)濾波器估計(jì),這將受益于飽和樣條的特征選擇屬性和趨勢(shì)濾波的計(jì)算效率。 有許多用樣條函數(shù)擬合廣義相加模型的方法。一種方法(參見(jiàn)[20])是使用(6)的組lasso版本: 擴(kuò)展這個(gè)想法,[21]使用重疊組lasso來(lái)促進(jìn)零、線性和非線性項(xiàng)之間的選擇。這些方法和我們的方法之間的差異類似于標(biāo)準(zhǔn)組lasso和lasso之間的差異。雖然兩者都進(jìn)行特征選擇,但懲罰函數(shù)(6)不會(huì)在每個(gè)坐標(biāo)函數(shù)內(nèi)進(jìn)行結(jié)點(diǎn)選擇。 在[22]中討論了一種非常類似的擬合樣條的方法,它不需要結(jié)點(diǎn)選擇(但不包含飽和度)。 7. 實(shí)例 實(shí)施細(xì)節(jié): 我們?cè)赗ust語(yǔ)言中提供了一個(gè)簡(jiǎn)
33、單的,未優(yōu)化的實(shí)現(xiàn)。 我們算法的運(yùn)行時(shí)間由完全校正步驟決定,即求解有限維凸優(yōu)化問(wèn)題(19)。 我們使用近似牛頓法和標(biāo)準(zhǔn)條件梯度法來(lái)求解(19),并使用精確的分解。準(zhǔn)確地說(shuō),在每次迭代中,我們形成目標(biāo)函數(shù) 的二階近似,然后我們使用有(精確的)行搜索的標(biāo)準(zhǔn)條件梯度方法來(lái)最小化(超過(guò)約束集)。 請(qǐng)注意,這是一個(gè)固定步長(zhǎng)為1的牛頓步驟:如GLMNET [15]中所述,為了提高速度,我們省略了行搜索。 我們選擇使用近端牛頓法,因?yàn)樗鄬?duì)簡(jiǎn)單;其他標(biāo)準(zhǔn)凸面優(yōu)化算法可能會(huì)給出更好的實(shí)際性能,特別是當(dāng)數(shù)據(jù)點(diǎn)數(shù)量非常大時(shí)。 在所有的例子中,我們仿射地預(yù)處理數(shù)據(jù),使得所有訓(xùn)練特征位于[0,1]中
34、,并且將相同的變換應(yīng)用于測(cè)試特征(因此可能具有[0,1]之外的值)。所有的劃分都是按照標(biāo)準(zhǔn)化的特點(diǎn)。對(duì)于骨密度和鮑魚數(shù)據(jù)集,我們選擇來(lái)最小化驗(yàn)證集上的錯(cuò)誤。對(duì)于垃圾郵件和ALS數(shù)據(jù)集,我們使用交叉驗(yàn)證來(lái)估計(jì)。我們從訓(xùn)練集中提取一個(gè)大小為100的隨機(jī)子集并訓(xùn)練其余數(shù)據(jù)。對(duì)于每個(gè)隨機(jī)驗(yàn)證/訓(xùn)練分離,我們估計(jì)以最小化保持誤差,并將我們的最終估計(jì)作為50次試驗(yàn)的平均值。 圖三:對(duì)于正則化參數(shù)的3個(gè)值,飽和樣條符合骨密度數(shù)據(jù)(顯示為散點(diǎn))。頂部:;中間:;底部:。 7.1 骨密度 我們從一個(gè)簡(jiǎn)單的[1,5
35、.4]中的單變量數(shù)據(jù)集開(kāi)始。該數(shù)據(jù)集的響應(yīng)變量是女性青少年的兩次醫(yī)生訪視之間脊柱骨密度的變化與年齡的函數(shù)關(guān)系。有259個(gè)數(shù)據(jù)點(diǎn),其中我們保留了120個(gè)用于驗(yàn)證的數(shù)據(jù)點(diǎn),剩下139個(gè)數(shù)據(jù)點(diǎn),以適應(yīng)飽和脊柱。我們從平方損失開(kāi)始。 結(jié)果如圖3所示,對(duì)于正則化參數(shù)的三個(gè)值。散點(diǎn)是訓(xùn)練數(shù)據(jù),實(shí)線是我們算法的飽和樣條擬合。該圖表明了與優(yōu)化樣條曲線的復(fù)雜性之間的明確聯(lián)系。樣本外驗(yàn)證建議設(shè)置,從而驗(yàn)證RMSE為0.036。 為了證明我們提出的方法與更一般的損失函數(shù)一起工作,我們將30個(gè)模擬的異常值添加到訓(xùn)練集并且擬合了偽Huber損耗[23],這是對(duì)Huber損失函數(shù)的平滑近似: 其中是在絕
36、對(duì)值損失和平方損失之間插值的參數(shù)。對(duì)于我們的實(shí)驗(yàn),我們?nèi)?;粗略地說(shuō),平方和線性損耗之間的轉(zhuǎn)換發(fā)生在附近。結(jié)果如圖4所示。這些圖表明我們的算法可以擬合除平方損失之外的損失,并且證實(shí)了偽Huber損失比基本平方損失函數(shù)對(duì)異常值更加強(qiáng)大。事實(shí)上,在驗(yàn)證集上,最小二乘法擬合的最小RMSE為0.096,而偽Huber擬合達(dá)到0.038,僅比在將訓(xùn)練數(shù)據(jù)加入異常值之前獲得的擬合稍差。 雖然這個(gè)一維問(wèn)題非常容易,但它顯示了自適應(yīng)樣條罰款在平滑樣條上的一個(gè)優(yōu)點(diǎn):最優(yōu)模型只有5個(gè)結(jié)點(diǎn)。 圖4:對(duì)于平方損失函數(shù)(左)和偽Huber損
37、失函數(shù)(右)的模擬異常值,飽和樣條擬合骨密度數(shù)據(jù)(以散點(diǎn)表示),每個(gè)值用于最小化測(cè)試集上RMSE的值。 7.2 鮑魚數(shù)據(jù)集 我們用飽和樣條坐標(biāo)函數(shù)的廣義加法模型擬合來(lái)自UCI Machine Learning Repository [24]的鮑魚數(shù)據(jù)集。數(shù)據(jù)包括鮑魚8個(gè)特征的4177個(gè)觀察值以及目標(biāo)變量鮑魚的年齡。我們將400個(gè)數(shù)據(jù)點(diǎn)作為驗(yàn)證集合保留,剩下3777個(gè)數(shù)據(jù)點(diǎn)以適合模型。第一個(gè)特征(標(biāo)記為性別)有三個(gè)值:雄性,雌性和少年,編碼值為0,1,2;其他7個(gè)是(直接)實(shí)數(shù)。任務(wù)是從特征中估計(jì)鮑魚的年齡。 交叉驗(yàn)證表明我們選擇了,它實(shí)現(xiàn)了驗(yàn)證集合RMSE為2.131。由于特征數(shù)量很少,
38、我們可以繪制整個(gè)廣義相加模型。每個(gè)圖表顯示的一個(gè)坐標(biāo)函數(shù)作為[0,1]中標(biāo)準(zhǔn)化特征的函數(shù)。顯示了三個(gè)值的坐標(biāo)函數(shù),中間值對(duì)應(yīng)于最小化交叉驗(yàn)證RMSE的值。當(dāng)坐標(biāo)函數(shù)為零時(shí),即模型中未使用該特征時(shí),它將顯示為藍(lán)色。我們可以看到,在強(qiáng)正則化()的情況下,幾個(gè)坐標(biāo)不被使用;對(duì)于最佳模型(),使用所有特征,其中一些特征僅具有小的影響??吹叫砸蛩厝绾芜M(jìn)入最佳模型是很有趣的。它對(duì)于男性或女性都是中性的,但是從其年齡預(yù)測(cè)中為少年鮑魚減去一小部分固定量。 這個(gè)數(shù)據(jù)集足夠小,我們可以使用粗網(wǎng)格[0,1]與標(biāo)準(zhǔn)自適應(yīng)樣條進(jìn)行比較。對(duì)于這個(gè)實(shí)驗(yàn),我們使用GLMNET [15]來(lái)擬合具有標(biāo)準(zhǔn)自適應(yīng)樣條組件函數(shù)的GA
39、M。標(biāo)準(zhǔn)自適應(yīng)GAM擬合沒(méi)有變量選擇,實(shí)現(xiàn)了驗(yàn)證集合RMSE為2.137,并沒(méi)有比飽和樣條模型差得多。然而,我們的算法選擇了更少的節(jié)點(diǎn)。擬合GLMNET時(shí)結(jié)節(jié)數(shù)量的增加可能是由于網(wǎng)格問(wèn)題的條件不佳造成的。 圖5:用于使樣條廣義相加模型飽和的坐標(biāo)函數(shù)適合于鮑魚數(shù)據(jù)以獲得正則化參數(shù)的三個(gè)值。 圖6:飽和樣條廣義相加模型的驗(yàn)證誤差符合垃圾郵件數(shù)據(jù)集與調(diào)整參數(shù)。 7.3 垃圾郵件 我們將電子郵件分類為垃圾郵件和非垃圾郵件的兩類,并從ESL獲取數(shù)據(jù)集[1]。
40、該數(shù)據(jù)集包含來(lái)自4601封電子郵件的57個(gè)詞頻特征,以及其標(biāo)簽為垃圾郵件或非垃圾郵件。遵循ESL中的方法[1],我們對(duì)特征進(jìn)行對(duì)數(shù)轉(zhuǎn)換,并使用標(biāo)準(zhǔn)訓(xùn)練/驗(yàn)證分割,訓(xùn)練集為3065,測(cè)試集為1536個(gè)樣本。我們擬合了具有標(biāo)準(zhǔn)邏輯損失的飽和樣條廣義加法模型。 圖6顯示了驗(yàn)證錯(cuò)誤與正則化參數(shù)的關(guān)系。交叉驗(yàn)證表明選擇。為了說(shuō)明非線性坐標(biāo)函數(shù)的好處,我們還包含了使用線性模型(使用GLMNet [15]擬合)獲得的最佳驗(yàn)證誤差。 在正則化參數(shù)的情況下,該模型選擇57個(gè)特征中的55個(gè)。我們注意到我們的飽和樣條廣義加法模型比ESL的許多方法略微勝過(guò)[1]。例如,平滑樣條曲線產(chǎn)生5.3%的誤差,而我們的模型
41、誤差率遠(yuǎn)低于5%。圖7顯示了的模型的坐標(biāo)函數(shù)(一些)。坐標(biāo)函數(shù)使用非常少的節(jié)點(diǎn),使其易于解釋。 為了比較,我們使用標(biāo)準(zhǔn)自適應(yīng)樣條坐標(biāo)函數(shù)來(lái)擬合GAM。為此,我們用20個(gè)節(jié)點(diǎn)對(duì)每個(gè)維度進(jìn)行網(wǎng)格劃分,并用GLMNET [15]解決由此產(chǎn)生的有限維問(wèn)題。請(qǐng)注意,自適應(yīng)樣條不會(huì)懲罰線性函數(shù),因此不會(huì)選擇特征。自適應(yīng)樣條的最小誤差為4.8%,比飽和樣條要差得多。 圖7:的16個(gè)坐標(biāo)函數(shù),每個(gè)標(biāo)有相應(yīng)的特征名稱。 圖8:驗(yàn)證ALS數(shù)據(jù)集與正則化參數(shù)的MSE。 7.4 ALS 我們嘗試使用這個(gè)數(shù)據(jù)集來(lái)預(yù)測(cè)醫(yī)
42、學(xué)患者的ALS(肌萎縮側(cè)索硬化癥)的進(jìn)展速度,通過(guò)功能評(píng)分的變化率來(lái)衡量,這是對(duì)功能障礙的測(cè)量。該數(shù)據(jù)集被分成1197個(gè)實(shí)例的訓(xùn)練集和625個(gè)額外患者的驗(yàn)證集。每個(gè)數(shù)據(jù)點(diǎn)的維數(shù)為369。我們用一個(gè)最小二乘目標(biāo)函數(shù)擬合了一個(gè)具有飽和樣條函數(shù)的廣義加法模型。在[25,17.2]之后,我們使用均方差來(lái)衡量表現(xiàn)。 我們使用交叉驗(yàn)證來(lái)估計(jì)的最優(yōu)值,其中保留大小為100個(gè)示例和50個(gè)樣本;這個(gè)程序建議。圖8顯示了驗(yàn)證誤差與正則化參數(shù);通過(guò)交叉驗(yàn)證選擇的的值實(shí)現(xiàn)了低誤差。在同一圖上,我們還使用增強(qiáng)回歸樹和隨機(jī)森林顯示[25]的結(jié)果。最優(yōu)飽和樣條GAM模型只選擇了369個(gè)特征中的50個(gè),而增強(qiáng)回歸樹使用了2
43、67。飽和樣條GAM模型與增強(qiáng)回歸樹和隨機(jī)森林相當(dāng)。這是令人驚訝的,因?yàn)轱柡蜆訔lGAM沒(méi)有交互條件。它還使用了少得多的功能,進(jìn)一步提高了解釋能力。 我們?cè)俅问褂镁哂袠?biāo)準(zhǔn)自適應(yīng)樣條坐標(biāo)功能的GAM(使用GLMNET)來(lái)展示飽和度的優(yōu)勢(shì)。標(biāo)準(zhǔn)自適應(yīng)樣條擬合實(shí)現(xiàn)了0.547的MSE,比其他任何模型都差得多。我們推測(cè)這是因?yàn)榉蔷€性函數(shù)導(dǎo)致立即過(guò)擬合。事實(shí)上,去除未經(jīng)去除的線性函數(shù)并僅用鉸鏈擬合模型就可以得到與飽和樣條擬合非常相似的性能,這表明飽和度的主要優(yōu)勢(shì)在于去除未經(jīng)去除的線性函數(shù)。 飽和樣條的實(shí)用優(yōu)勢(shì):這些實(shí)驗(yàn)表明,飽和樣條曲線在小分類和回歸數(shù)據(jù)集上十分有效。 此外,實(shí)驗(yàn)證明飽和樣條展示結(jié)
44、點(diǎn)選擇和特征選擇——在擬合GAMs的情況下。 雖然飽和樣條曲線比平滑樣條曲線(選擇完全密集的結(jié)集)選擇更少的節(jié)點(diǎn)并不奇怪,但我們的算法選擇的節(jié)數(shù)比即使與GLMNET適合的自適應(yīng)樣條曲線也有點(diǎn)令人驚訝。最后,垃圾郵件和ALS數(shù)據(jù)集展示了自適應(yīng)樣條曲線比自適應(yīng)樣條曲線飽和的一個(gè)主要優(yōu)勢(shì):它們同時(shí)執(zhí)行非線性坐標(biāo)函數(shù)擬合和特征選擇。這有助于泛化性能和可解釋性。特別是,對(duì)于ALS數(shù)據(jù)集,飽和樣條GAM通過(guò)僅選擇36個(gè)可用特征中的50個(gè)來(lái)實(shí)現(xiàn)自適應(yīng)樣條GAM的一半測(cè)試MSE。 8.高階樣條 在本文的大部分研究中,我們關(guān)注函數(shù)回歸問(wèn)題(2),對(duì)一階導(dǎo)數(shù)和對(duì)零導(dǎo)數(shù)(函數(shù)本身)的飽和約束有一個(gè)總變差
45、約束。在本節(jié)中,我們考慮對(duì)高階導(dǎo)數(shù)的約束,導(dǎo)致高階樣條的解。 (24) 我們考慮以為指標(biāo)的非參數(shù)函數(shù)估計(jì)問(wèn)題族。這是函數(shù)回歸問(wèn)題(2)的類比,其中對(duì)第階導(dǎo)數(shù)的總變差約束和對(duì)第階導(dǎo)數(shù)的飽和約束。本文中的飽和樣條情形是(24)的特例,其中。廣泛使用的立方自然樣條對(duì)應(yīng)于。注意,不同于自然樣條,自然樣條只為和的某些值定義,而這里對(duì)和沒(méi)有約束。 我們現(xiàn)在表明高階飽和樣條
46、一般解決(24)。由于是有界,所以存在一個(gè)度量那么對(duì)某些我們有: 在上面,所有迭代的積分發(fā)生次。 請(qǐng)注意,對(duì)于所有,的約束意味著多項(xiàng)式項(xiàng)單獨(dú)為零。 所以,我們有: 對(duì)于,我們可以消除非線性,即對(duì)于,只是的多項(xiàng)式的積分。我們可以從積分中將包含的項(xiàng)取出,得到x的多項(xiàng)式,其系數(shù)是的前個(gè)矩的非零倍數(shù): 同樣地,我們注意到,由于這個(gè)多項(xiàng)式對(duì)于無(wú)限多點(diǎn)都是零,所有的系數(shù)必須為零。就度量而言,這意味著: 這表明的第階導(dǎo)數(shù)飽和的約束條件轉(zhuǎn)化為約束的所有時(shí)刻直到第個(gè)時(shí)刻。 雖然條件梯度變得更加復(fù)雜,但增加了更多的矩約束條件,但本文采用的方法仍然可以應(yīng)用
47、于(24),只要相當(dāng)小——(24)的條件梯度步驟包含在上的非凸優(yōu)化問(wèn)題。這是因?yàn)槲覀冎辽傩枰獋€(gè)點(diǎn)質(zhì)量來(lái)滿足時(shí)間約束。因此,擬合線性飽和的二次樣條曲線非常容易——事實(shí)上,這樣做的代碼與擬合分段線性飽和樣條曲線的代碼基本相同——但由于附加的線性條件,擬合到常數(shù)的二次樣條稍微困難一些對(duì)度量的約束。然而,對(duì)于較大的和值,我們不能再希望通過(guò)分析找到條件梯度,并且必須求助于遞歸網(wǎng)格或其他全局優(yōu)化算法來(lái)查找新節(jié)點(diǎn)的位置。 圖9:前兩幅圖分別顯示了時(shí)的條件梯度,其中和。虛線表示點(diǎn)質(zhì)量的位置:當(dāng)時(shí),條件梯度由三個(gè)點(diǎn)質(zhì)量組成。底部的圖表
48、顯示了相應(yīng)的度量。 9.變體和擴(kuò)展 雖然飽和度往往是一個(gè)自然的先驗(yàn),但我們?cè)诒疚闹胁捎玫姆椒ㄒ部梢詰?yīng)用于(9)上的其他(凸)變體。例如,我們可以添加約束條件,即擬合的函數(shù)是單調(diào)非遞減的,或者在給定的時(shí)間間隔內(nèi)取值。 一個(gè)簡(jiǎn)單的算法擴(kuò)展就是在[8]的精神中加入非凸優(yōu)化。在每次迭代中,我們調(diào)整原子量度的權(quán)重,但我們也可以調(diào)整結(jié)點(diǎn)位置。(19)中的目標(biāo)在中是非凸的,但我們?nèi)匀豢梢栽噲D找到一個(gè)局部最小值。只要我們不增加目標(biāo)函數(shù),算法仍然保證收斂[8]。在一階樣條的情況下,我們可以使用這樣的事實(shí),即結(jié)點(diǎn)可以在不失一般性的情況下選擇在數(shù)據(jù)點(diǎn)上以對(duì)結(jié)點(diǎn)位置進(jìn)行離散調(diào)整。 為了擬合矢量值函數(shù),
49、例如在多類別分類中,我們需要擴(kuò)展(9)以使用矢量值度量。這是組lasso的自然測(cè)量理論模擬。 在多變量擬合問(wèn)題中,特征之間存在顯著相互作用的問(wèn)題可能會(huì)出現(xiàn)廣義相加模型。一種可能的解決方案是使用單層神經(jīng)網(wǎng)絡(luò):即學(xué)習(xí)形式為 的函數(shù)。在上面,被限制在單位球中。但是,這種形式的網(wǎng)絡(luò)的條件梯度步驟是NP-hard [26]。然而,在許多實(shí)際應(yīng)用中,我們可能預(yù)期交互的程度是有限的。也就是說(shuō),每個(gè)都有界限基數(shù)。如果我們假設(shè),即我們只適合配對(duì)相互作用,我們?nèi)匀豢梢詰?yīng)用條件梯度方法。在這種情況下,擬合函數(shù)是由基本元素 形成的變量對(duì)的函數(shù)的和,其中(連續(xù))參數(shù)為和以及(指數(shù))參數(shù)為和(即,)。(僅適用于當(dāng)足夠小時(shí))。這些函數(shù)捕獲(成對(duì))變量之間的非線性關(guān)系。 10.結(jié)論 在本文中,我們提出了修改自適應(yīng)樣條回歸模型——即飽和約束。我們證明飽和樣條函數(shù)繼承自適應(yīng)樣條的結(jié)點(diǎn)選擇,并且在廣義相加模型的背景下具有非常重要的質(zhì)量:特征選擇。這允許飽和樣條廣義相加模型保持可解釋性,并且(至關(guān)重要)在應(yīng)用于多元數(shù)據(jù)時(shí)避免過(guò)擬合。我們還提出了一種基于標(biāo)準(zhǔn)條件梯度法求解任意凸損失飽和樣條估計(jì)問(wèn)題的簡(jiǎn)單有效算法。最后,我們將我們的算法應(yīng)用于多個(gè)數(shù)據(jù)集,展示了最終模型的簡(jiǎn)單性。
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 市教育局冬季運(yùn)動(dòng)會(huì)安全工作預(yù)案
- 2024年秋季《思想道德與法治》大作業(yè)及答案3套試卷
- 2024年教師年度考核表個(gè)人工作總結(jié)(可編輯)
- 2024年xx村兩委涉案資金退還保證書
- 2024年憲法宣傳周活動(dòng)總結(jié)+在機(jī)關(guān)“弘揚(yáng)憲法精神推動(dòng)發(fā)改工作高質(zhì)量發(fā)展”專題宣講報(bào)告會(huì)上的講話
- 2024年XX村合作社年報(bào)總結(jié)
- 2024-2025年秋季第一學(xué)期初中歷史上冊(cè)教研組工作總結(jié)
- 2024年小學(xué)高級(jí)教師年終工作總結(jié)匯報(bào)
- 2024-2025年秋季第一學(xué)期初中物理上冊(cè)教研組工作總結(jié)
- 2024年xx鎮(zhèn)交通年度總結(jié)
- 2024-2025年秋季第一學(xué)期小學(xué)語(yǔ)文教師工作總結(jié)
- 2024年XX村陳規(guī)陋習(xí)整治報(bào)告
- 2025年學(xué)校元旦迎新盛典活動(dòng)策劃方案
- 2024年學(xué)校周邊安全隱患自查報(bào)告
- 2024年XX鎮(zhèn)農(nóng)村規(guī)劃管控述職報(bào)告