Zlepšování podmíněnosti matice X'X
Často se v praxi stává, že matice je špatně podmíněná a přesto nemusí být přítomna multikolinearita v modelu. Může to být například způsobeno příliš rozdílnými hodnotami kovariátů. Uveďme některé obecné principy na zlepšení podmíněnosti matice
- Model standardizovaných proměnných. Místo původních proměnných a pracujeme s proměnnými ve tvaru
kde a jsou směrodatné odchylky jednotlivých proměnných. Standardizací vysvětlujících proměnných dostáváme při použití metody nejmenších čtverců místo matice korelační matici Vektor obsahuje jednoduché korelační koeficienty Standardizací proměnných se zmenšují zaokrouhlovací chyby a zlepšují se možnosti hodnocení individuálního vlivu proměnných pomocí regresních parametrů.
- Model v kanonickém tvaru. Místo modelu ve tvaru
pracujeme s modelem
kde matice vektor a je matice standardizovaných vlastních vektorů odpovídajících vlastním číslům matice Odhady parametrů v kanonickém tvaru:
kde je diagonální matice s vlastními čísly matice Kovarianční matice odhadů ukazuje, že i v tomto případě jsou odhady nezávislé. Residuální součet čtverců se transformací nemění.
- Hřebenová regrese (ridge regression) - nebudeme podrobně popisovat tuto metodu, více informací lze najít např. v [8]. Pro praktickou aplikaci této metody lze v jazyce použít proceduru lm.ridge z balíku MASS.
Příklad 4.6. V souboru „vydaje.Rdata“ jsou uložena data o 20 náhodně vybraných domácnostech. Sloupce proměnné „domacnosti“ obsahují postupně tyto údaje: výdaje za potraviny a nápoje (), počet členů domácnosti (), počet dětí (), průměrný věk výdělečně činných () a příjem domácnosti (). Metodou postupné regrese zkonstruujte model s nejlepší podmíněností regresorů.
Řešení. Uvažujme nejdřív model se všemi regresory. Spočtěme nejprve pro ilustraci determinant Také hodnoty VIF jsou pro první dva regresory vysoké:
Testujeme-li hypotézu hodnota testové statistiky
výrazně převyšuje kritickou hodnotu Hypotézu tedy na hladině významnosti zamítáme.
Pro identifikaci proměnných způsobujících multikolinearitu můžeme spočítat dílčí statistiky
které porovnáme s kritickou hodnotou
Metodou postupné regrese sestavíme model:
- Spočteme korelační koeficienty Vybereme regresor neboť jeho korelace je v absolutní hodnotě největší.
- Sestavíme model Vypočteme hodnotu statistiky Tato hodnota je větší než takže regresor ponecháme v modelu.
- Spočteme parciální korelační koeficienty Vybereme regresor jehož parciální korelační koeficient je v absolutní hodnotě největší.
- Sestavíme model Vypočteme hodnotu statistiky Tato hodnota je větší než tedy ponecháme regresor v modelu.
- Spočteme parciální korelační koeficienty Vybereme regresor jehož parciální korelační koeficient je v absolutní hodnotě největší.
- Sestavíme model Vypočteme hodnotu statistiky Tato hodnota je menší než a tedy regresor již nezahrneme do modelu.
Výsledný model je tedy tvaru