Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datStatistické modelování Základy regresní a korelační analýzy Analýza závislosti Koeficient mnohonásobné korelace

Logo Matematická biologie

Koeficient mnohonásobné korelace

Dále se budeme zabývat statistickými vazbami mezi predikovanou náhodnou veličinou a její nejlepší lineární predikcí 

Definice 3.1. Pearsonův korelační koeficient  označíme  a budeme jej nazývat koeficientem mnohonásobné korelace náhodné veličiny na náhodném vektoru   (nebo též na náhodných veličinách  a pak budeme podrobněji psát ).

 

Definice 3.2. (Korelační matice). Nechť  a  jsou náhodné vektory. Potom matici

nazýváme korelační maticí náhodných vektorů  a  .
Dále matici  budeme značit  a budeme ji nazývat korelační maticí náhodného vektoru 

 

Věta 3.3. Koeficient mnohonásobné korelace  má následující vlastnosti

(1)

Koeficient mnohonásobné korelace  je vždy nezáporný.

(2)

Pomocí regresních koeficientů  jej lze vyjádřit ve tvaru 

(3)

Pomocí korelačních matic jej lze vyjádřit ve tvaru

(4)

Pomocí reziduálního rozptylu lineární predikce jej lze vyjádřit ve tvaru

 

Poznámka 3.4. (polopatě). Z předcházející věty vyplývá:

(1)

 Vzorec

 

je vhodný pro výpočet koeficientu mnohonásobné korelace v případě, že je k dispozici vektor regresních koeficientů 

(2)

Vzorec

se využívá v případě, že jsou k dispozici korelační koeficienty mezi náhodnými veličinami 

(3)

Identity

ukazují, že korelační poměr  je roven kvadrátu koeficientu mnohonásobné korelace v případě, že teoretická regresní funkce  je lineární funkcí proměnných . Dále je z tohoto vzorce patrné, že pokud se omezíme na lineární predikce, je interpretace koeficientu mnohonásobné korelace stejná jako je interpretace korelačního poměru v obecném případě.

(4)

Podle uváděných vzorců lze koeficient mnohonásobné korelace  počítat i v případě, kdy podmíněná střední hodnota  není lineární. V tomto případě potom díky vztahu (dokázaném ve větě 2.1)

snadno vidíme, že

 

 

Dá se ukázat, že ve třídě linerárních predikčních funkcí má koeficient mnohonásobné korelace analogické vlastnosti jako korelační poměr, tedy že platí analogie věty Základy regresní a korelační analýzy 2.4.

 

Věta 3.5. Pro libovolný nenulový vektor  a  platí 

tj. koeficient mnohonásobné korelace je maximální korelační koeficient mezi náhodnou veličinou a libovolnou lineární funkcí  náhodného vektoru 

 

Důsledek 3.6. Pro libovolné  platí

tj. absolutní hodnota libovolného korelačního koeficientu mezi náhodnou veličinou a libovolnou z náhodných veličin  je nejvýše rovna koeficientu mnohonásobné korelace mezi náhodnou veličinou a náhodným vektorem 

 

Definice 3.7. Mějme náhodný výběr rozsahu  s vektory

 

kde pro  jsou náhodné vektory  typu  a  typu , přičemž 
Definujme výběrové kovarianční matice

kde

a výběrovou korelační matici

 

Nyní definujme výběrový protějšek ke koeficientu mnohonásobné korelace.

 

Definice 3.8. Mějme náhodné vektory

kde  jsou náhodné veličiny a  jsou náhodné vektory typu .
Jestliže matice  je regulární, pak výběrový koeficient mnohonásobné korelace je definován vztahem:

 

Návod 3.9. V praxi se většinou výběrový koeficient mnohonásobné korelace počítá pomocí nějakého software. Hledání inverzní matice  může být obecně složitý proces, proto ještě uvedeme alternativní výpočet. Položme  a . Pak

 

Příklad 3.10. Zjišťujeme závislost koncentrace ozónu1 (proměnná ) ve spodních vrstvách atmosféry na meteorologických podmínkách, které jsou popsány intenzitou slunečního záření (), rychlosti větru () a teplotě vzduchu (). Naměřená data udává následující tabulka.

Vypočtěte výběrový koeficient mnohonásobné korelace.

Řešení. 

Její inverze je tvaru

 

a celkově dostáváme 
Pokud bychom použili druhý způsob uvedený v Návodu 3.15, je třeba vypočítat matici , kterou lze z předešlého vyjádřit

tj.

Pak

Hodnota tohoto koeficientu poukazuje na do jisté míry velkou lineární závislost proměnné na ostatních proměnných. Tato hodnota je však značně ovlivněna také korelacemi proměnných  a  mezi sebou. Při pohledu na prvky matice  vidíme, že je např. významná korelace mezi intenzitou slunečního záření () a teplotou vzduchu (). Pro vyloučení těchto vlivů je třeba spočítat parciální korelační koeficienty - viz další část.

 


1 část datového souboru airquality implementovaného v jazyce R 

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity