
Zlepšování podmíněnosti matice X'X
Často se v praxi stává, že matice je špatně podmíněná a přesto nemusí být přítomna multikolinearita v modelu. Může to být například způsobeno příliš rozdílnými hodnotami kovariátů. Uveďme některé obecné principy na zlepšení podmíněnosti matice
- Model standardizovaných proměnných. Místo původních proměnných
a
pracujeme s proměnnými ve tvaru
kde a
jsou směrodatné odchylky jednotlivých proměnných. Standardizací vysvětlujících proměnných dostáváme při použití metody nejmenších čtverců místo matice
korelační matici
Vektor
obsahuje jednoduché korelační koeficienty
Standardizací proměnných se zmenšují zaokrouhlovací chyby a zlepšují se možnosti hodnocení individuálního vlivu proměnných pomocí regresních parametrů.
- Model v kanonickém tvaru. Místo modelu ve tvaru
pracujeme s modelem
kde matice vektor
a
je matice standardizovaných vlastních vektorů odpovídajících vlastním číslům matice
Odhady parametrů v kanonickém tvaru:
kde je diagonální matice s vlastními čísly matice
Kovarianční matice odhadů
ukazuje, že i v tomto případě jsou odhady nezávislé. Residuální součet čtverců se transformací nemění.
- Hřebenová regrese (ridge regression) - nebudeme podrobně popisovat tuto metodu, více informací lze najít např. v [8]. Pro praktickou aplikaci této metody lze v jazyce
použít proceduru lm.ridge z balíku MASS.
Příklad 4.6. V souboru „vydaje.Rdata“ jsou uložena data o 20 náhodně vybraných domácnostech. Sloupce proměnné „domacnosti“ obsahují postupně tyto údaje: výdaje za potraviny a nápoje (
), počet členů domácnosti (
), počet dětí (
), průměrný věk výdělečně činných (
) a příjem domácnosti (
). Metodou postupné regrese zkonstruujte model s nejlepší podmíněností regresorů.
Řešení. Uvažujme nejdřív model se všemi regresory. Spočtěme nejprve pro ilustraci determinant
Také hodnoty VIF jsou pro první dva regresory vysoké:
Testujeme-li hypotézu
hodnota testové statistiky
výrazně převyšuje kritickou hodnotu
Hypotézu
tedy na hladině významnosti
zamítáme.
Pro identifikaci proměnných způsobujících multikolinearitu můžeme spočítat dílčí statistiky
které porovnáme s kritickou hodnotou
Metodou postupné regrese sestavíme model:
- Spočteme korelační koeficienty
Vybereme regresor
neboť jeho korelace je v absolutní hodnotě největší.
- Sestavíme model
Vypočteme hodnotu statistiky
Tato hodnota je větší než
takže regresor
ponecháme v modelu.
- Spočteme parciální korelační koeficienty
Vybereme regresor
jehož parciální korelační koeficient je v absolutní hodnotě největší.
- Sestavíme model
Vypočteme hodnotu statistiky
Tato hodnota je větší než
tedy ponecháme regresor
v modelu.
- Spočteme parciální korelační koeficienty
Vybereme regresor
jehož parciální korelační koeficient je v absolutní hodnotě největší.
- Sestavíme model
Vypočteme hodnotu statistiky
Tato hodnota je menší než
a tedy regresor
již nezahrneme do modelu.
Výsledný model je tedy tvaru