Koeficient mnohonásobné korelace
Dále se budeme zabývat statistickými vazbami mezi predikovanou náhodnou veličinou a její nejlepší lineární predikcí
Definice 3.1. Pearsonův korelační koeficient označíme a budeme jej nazývat koeficientem mnohonásobné korelace náhodné veličiny na náhodném vektoru (nebo též na náhodných veličinách a pak budeme podrobněji psát ).
Definice 3.2. (Korelační matice). Nechť a jsou náhodné vektory. Potom matici
nazýváme korelační maticí náhodných vektorů a .
Dále matici budeme značit a budeme ji nazývat korelační maticí náhodného vektoru
Věta 3.3. Koeficient mnohonásobné korelace má následující vlastnosti
(1) |
Koeficient mnohonásobné korelace je vždy nezáporný. |
(2) |
Pomocí regresních koeficientů jej lze vyjádřit ve tvaru |
(3) |
Pomocí korelačních matic jej lze vyjádřit ve tvaru |
(4) |
Pomocí reziduálního rozptylu lineární predikce jej lze vyjádřit ve tvaru |
Poznámka 3.4. (polopatě). Z předcházející věty vyplývá:
(1) |
Vzorec je vhodný pro výpočet koeficientu mnohonásobné korelace v případě, že je k dispozici vektor regresních koeficientů |
(2) |
Vzorec se využívá v případě, že jsou k dispozici korelační koeficienty mezi náhodnými veličinami |
(3) |
Identity ukazují, že korelační poměr je roven kvadrátu koeficientu mnohonásobné korelace v případě, že teoretická regresní funkce je lineární funkcí proměnných . Dále je z tohoto vzorce patrné, že pokud se omezíme na lineární predikce, je interpretace koeficientu mnohonásobné korelace stejná jako je interpretace korelačního poměru v obecném případě. |
(4) |
Podle uváděných vzorců lze koeficient mnohonásobné korelace počítat i v případě, kdy podmíněná střední hodnota není lineární. V tomto případě potom díky vztahu (dokázaném ve větě 2.1) snadno vidíme, že
|
Dá se ukázat, že ve třídě linerárních predikčních funkcí má koeficient mnohonásobné korelace analogické vlastnosti jako korelační poměr, tedy že platí analogie věty Základy regresní a korelační analýzy 2.4.
Věta 3.5. Pro libovolný nenulový vektor a platí
tj. koeficient mnohonásobné korelace je maximální korelační koeficient mezi náhodnou veličinou a libovolnou lineární funkcí náhodného vektoru
Důsledek 3.6. Pro libovolné platí
tj. absolutní hodnota libovolného korelačního koeficientu mezi náhodnou veličinou a libovolnou z náhodných veličin je nejvýše rovna koeficientu mnohonásobné korelace mezi náhodnou veličinou a náhodným vektorem
Definice 3.7. Mějme náhodný výběr rozsahu s vektory
kde pro jsou náhodné vektory typu a typu , přičemž
Definujme výběrové kovarianční matice
kde
a výběrovou korelační matici
Nyní definujme výběrový protějšek ke koeficientu mnohonásobné korelace.
Definice 3.8. Mějme náhodné vektory
kde jsou náhodné veličiny a jsou náhodné vektory typu .
Jestliže matice je regulární, pak výběrový koeficient mnohonásobné korelace je definován vztahem:
Návod 3.9. V praxi se většinou výběrový koeficient mnohonásobné korelace počítá pomocí nějakého software. Hledání inverzní matice může být obecně složitý proces, proto ještě uvedeme alternativní výpočet. Položme a . Pak
Příklad 3.10. Zjišťujeme závislost koncentrace ozónu1 (proměnná ) ve spodních vrstvách atmosféry na meteorologických podmínkách, které jsou popsány intenzitou slunečního záření (), rychlosti větru () a teplotě vzduchu (). Naměřená data udává následující tabulka.
Vypočtěte výběrový koeficient mnohonásobné korelace.
Řešení.
Její inverze je tvaru
a celkově dostáváme
Pokud bychom použili druhý způsob uvedený v Návodu 3.15, je třeba vypočítat matici , kterou lze z předešlého vyjádřittj.
Pak
Hodnota tohoto koeficientu poukazuje na do jisté míry velkou lineární závislost proměnné na ostatních proměnných. Tato hodnota je však značně ovlivněna také korelacemi proměnných a mezi sebou. Při pohledu na prvky matice vidíme, že je např. významná korelace mezi intenzitou slunečního záření () a teplotou vzduchu (). Pro vyloučení těchto vlivů je třeba spočítat parciální korelační koeficienty - viz další část.
1 část datového souboru airquality implementovaného v jazyce R