Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datStatistické modelování Ověřování předpokladů v klasickém modelu lineární regrese Multikolinearita Zlepšování podmíněnosti matice X'X

Logo Matematická biologie

Zlepšování podmíněnosti matice X'X

Často se v praxi stává, že matice je špatně podmíněná a přesto nemusí být přítomna multikolinearita v modelu. Může to být například způsobeno příliš rozdílnými hodnotami kovariátů. Uveďme některé obecné principy na zlepšení podmíněnosti matice

  • Model standardizovaných proměnných.  Místo původních proměnných a pracujeme s proměnnými ve tvaru

kde a jsou směrodatné odchylky jednotlivých proměnných. Standardizací vysvětlujících proměnných dostáváme při použití metody nejmenších čtverců místo matice korelační matici Vektor obsahuje jednoduché korelační koeficienty Standardizací proměnných se zmenšují zaokrouhlovací chyby a zlepšují se možnosti hodnocení individuálního vlivu proměnných pomocí regresních parametrů.

  • Model v kanonickém tvaru. Místo modelu ve tvaru

pracujeme s modelem

kde matice vektor a je matice standardizovaných vlastních vektorů odpovídajících vlastním číslům matice Odhady parametrů v kanonickém tvaru:

kde je diagonální matice s vlastními čísly matice Kovarianční matice odhadů  ukazuje, že i v tomto případě jsou odhady nezávislé. Residuální součet čtverců se transformací nemění.

  • Hřebenová regrese (ridge regression) - nebudeme podrobně popisovat tuto metodu, více informací lze najít např. v [8]. Pro praktickou aplikaci této metody lze v jazyce použít proceduru lm.ridge z balíku MASS.

Příklad 4.6. V souboru „vydaje.Rdata“ jsou uložena data o 20 náhodně vybraných domácnostech. Sloupce proměnné „domacnosti“ obsahují postupně tyto údaje: výdaje za potraviny a nápoje (), počet členů domácnosti (), počet dětí (), průměrný věk výdělečně činných () a příjem domácnosti (). Metodou postupné regrese zkonstruujte model s nejlepší podmíněností regresorů.

Řešení.  Uvažujme nejdřív model se všemi regresory. Spočtěme nejprve pro ilustraci determinant Také hodnoty VIF jsou pro první dva regresory vysoké:

Testujeme-li hypotézu hodnota testové statistiky

výrazně převyšuje kritickou hodnotu Hypotézu tedy na hladině významnosti zamítáme.

Pro identifikaci proměnných způsobujících multikolinearitu můžeme spočítat dílčí statistiky

které porovnáme s kritickou hodnotou

Metodou postupné regrese sestavíme model:

  1. Spočteme korelační koeficienty Vybereme regresor neboť jeho korelace je v absolutní hodnotě největší.
     
  2.  Sestavíme model Vypočteme hodnotu statistiky Tato hodnota je větší než takže regresor ponecháme v modelu.
     
  3. Spočteme parciální korelační koeficienty Vybereme regresor jehož parciální korelační koeficient je v absolutní hodnotě největší.
  4. Sestavíme model Vypočteme hodnotu statistiky Tato hodnota je větší než tedy ponecháme regresor v modelu.
     
  5. Spočteme parciální korelační koeficienty Vybereme regresor jehož parciální korelační koeficient je v absolutní hodnotě největší.
     
  6. Sestavíme model Vypočteme hodnotu statistiky Tato hodnota je menší než a tedy regresor již nezahrneme do modelu.

Výsledný model je tedy tvaru

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity