Jak vysvětlím rozdíl mezi RPCA a PCA?


Odpověď 1:

Edit: Doh, právě jsem si uvědomil, že se možná ptáš na Robust-PCA a ne na Regresi hlavních komponent (aka regression-PCA). Za to, co stojí za to, zde je odpověď na poslední.

Někdy během regrese budou skupiny vstupních proměnných (kovariáty) kolineární (viz další otázka o multikolearitě). To znamená, že vstupy, které jsou velmi prediktivní, znamenají určitý druh redundance z pohledu výstupu: pokud můžete předvídat

yy

dobře s

xx

, nepotřebujete další blízkou kopii

xx

.

Bohužel to OLS regrese vidí a snaží se kompenzovat přiřazením podobné odpovědnosti kolineárním vstupům. Ve výše uvedeném příkladu přemýšlejte o tom, kolik různých rovin existuje téměř optimálních (v nejmenším smyslu)…

Nekonečné, že? Jakákoli rovina, která prochází body, bez ohledu na rotaci kolem zelených bodů: Představte si druh osy ukotvené ve vzduchu, který prochází zelenými body, a poté se na ní otočí červená rovina.

Abychom to ještě zhoršili, tím, že se data trošku naruší, mohou být konečné regresní váhy, které v podstatě řídí gradient roviny, velmi odlišné. To znamená, že model je nestabilní.

Jaký je tedy principiální způsob sloučení vstupních proměnných, které korelují? Tady je to, co bude dělat Regression-PCA:

Nejprve provede PCA na vstupech (modré body), tj. Najde modrou čáru v rovině XZ, na které budou promítat modré body (tak, aby byla minimalizována celková projekční vzdálenost). Tato čára nyní funguje jako nová osa - nazvěte ji

bb

,

a původní regresní problém je nyní vyřešen v rámci odkazu

byb-y

, lineární regrese s jednou proměnnou.

Tímto způsobem necháme PCA, aby našel tato seskupení podobných proměnných, namísto aby to nechal na OLS s inherentním nebezpečím nestability znázorněným výše.

Nakonec přepsat regresi na původní

xzyx-z-y

prostor, bez ohledu na regresní koeficient, kterému byla odvozena proměnná b (zde je to 0,5), budou spravedlivě sdíleny podle hmotností osy odvozené od PCA (takže konečné váhy RPCA budou

(0.25,0.25)(0.25, 0.25)

).