Slovník | Vyhledávání | Mapa webu
 
Analýza a hodnocení biologických datVícerozměrné metody pro analýzu a klasifikaci dat Volba a výběr popisných proměnných Extrakce proměnných

Logo Matematická biologie

Extrakce proměnných

Jak již bylo uvedeno v kapitole věnované výběru proměnných [Výběr popisných proměnných], extrakce proměnných spočívá v hledání optimálního zobrazení , které transformuje původní -rozměrný vektor popisující analyzovaný objekt na vektor -rozměrný.

Co nám tyto metody přinesou? Především zjednodušení následných analytických výpočtů, které se budou provádět s méně proměnnými, tj. v méně rozměrném prostoru. Na druhé straně extrakce proměnných nezbaví analytika, na rozdíl od selekčních metod, nutnosti měřit a pořizovat všechna data (hodnoty všech proměnných) tak, jak bylo až dosud zvykem, protože proměnné, které jsou výsledkem extrakčních algoritmů, jsou dány (lineární) kombinací všech proměnných původních. Toto omezení však často bývá pouze formální, protože databáze, nad kterou se analýza provádí, je už zpravidla pořízená, a k úsporám, které by vyplývaly ze selekce proměnných, v podstatě dojít nemůže. Tuto výhodu/nevýhodu ale kompenzuje skutečnost, že získáme z původních proměnných nové a funkční vazba mezi originálními a transformovanými souřadnicemi může poskytnout nový vhled do dějů, které jsou zdrojem měřených dat.

Prvním předpokladem pro nalezení vhodného zobrazení je stanovení kritéria optimality. V současné praxi se používá především tří následujících kritérií:

  • zobrazení  se určí tak, aby vektory z nového prostoru aproximovaly původní m-rozměrné vektory z  ve smyslu minimální střední kvadratické odchylky;
  • zobrazení se určí tak, aby rozložení pravděpodobnosti veličin v novém prostoru splňovaly podmínky kladené na jejich pravděpodobnostní charakteristiky;
  • zobrazení se určí tak, aby vektory z minimalizovaly odhad pravděpodobnosti chyby.

Aby byl uvedený problém teoreticky příjemně řešitelný, vybírá se zobrazení (transformace)  především z oboru lineárních zobrazení (transformací).

Z metod extrakce proměnných se budeme zabývat analýzou hlavních komponent (PCA Principal Component Analysis) , korespondenční analýzou (CA –Correspondence Analysis) [odkaz], vícerozměrným škálováním (MDS – Multidimensional Scaling), faktorovou analýzou (FA – Factor Analysis) , analýzou nezávislých komponent (ICA – Independent Component Analysis) a dalšími metodami, kterým jsou věnovány následující samostatné kapitoly a podkapitoly těchto učebních textů.

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity