Úvod
Jednou z možností, jak využít informace obsažené ve vícerozměrných pozorováních, je roztřídění objektů do několika poměrně homogenních skupin – shluků tak, aby si objekty patřící do stejné skupiny byly podobnější než objekty z různých skupin. Různými možnostmi a aspekty tvorby homogenních skupin objektů se zabývá shluková analýza. Shlukovou analýzou se sníží počet dimenzí objektů tak, že řadu uvažovaných proměnných zastoupí jediná proměnná vyjadřující příslušnost objektu k definované skupině. Cílem shlukování je zejména popsat strukturu dat a nalézt shluky podobných objektů.
Použití metod shlukové analýzy je prospěšné zejména tam, kde se studovaný soubor reálně rozpadá do tříd, tj. objekty mají tendenci se seskupovat do přirozených shluků. Použitím vhodných algoritmů je následně možné odhalit strukturu studované množiny objektů a jednotlivé objekty zařadit do shluků. Pak již zbývá pouze najít vhodnou interpretaci pro popsaný rozklad, tj. charakterizovat vzniklé shluky (třídy, skupiny).
Shlukovou analýzu můžeme použít i v případech, kdy objekty nejeví tendenci k tvoření přirozených skupin, ale spíše tvoří souvislou strukturu. I v tomto případě shluková analýza hledá v datech strukturu skupin; to znamená, že kontinuum je rozděleno do shluků. Pochopitelně i v takovém případě můžou být výsledky smysluplné a hodnotné, je ovšem nutno postupovat opatrněji při jejich interpretaci.
Shlukovat můžeme nejen objekty, ale také proměnné. Pokud najdeme skupinu proměnných, jejichž hodnoty jsou si podobné, pak tuto skupinu může zastoupit jediná proměnná, čímž lze snížit rozměr úlohy.
Shluková analýza nachází veliké uplatnění např. v ekologii, kde slouží ke klasifikaci rostlinných nebo živočišných společenstev různých lokalit, v některých případech i k nalezení skupin environmentálních proměnných.
Formálně můžeme postup shlukování objektů popsat následovně: máme k dispozici datovou matici typu , kde je počet objektů a je počet proměnných. Počet shluků budeme značit písmenem . Uvažujeme různé rozklady množiny objektů do shluků. Hledáme takový rozklad, který by byl z určitého hlediska nejvýhodnější. Zde připouštíme pouze rozklady s disjunktními shluky, tj. jeden objekt patří pouze jednomu shluku. Cílem je dosáhnout toho, aby si objekty uvnitř shluku byly co nejvíce podobné a od objektů z ostatních shluků se co nejvíce lišily.
Prvním krokem ve shlukové analýze je výpočet vzdálenosti nebo podobnosti pro všechny páry objektů. Vzniká tak symetrická čtvercová matice typu , kterou nazýváme asociační matice. Mírám vzdálenosti a koeficientům podobnosti jsme se věnovali v kapitole Podobnosti a vzdálenosti ve vícerozměrném prostoru. Při výběru asociačního koeficientu je třeba brát v úvahu metodu shlukování a charakter souboru dat. V některých případech je způsob výpočtu podobnosti/vzdálenosti objektů dán již konkrétní shlukovací metodou. Jak již bylo zmíněno výše, shlukovat můžeme také proměnné. V takovém případě je asociační matice typu a podobnost mezi proměnnými se hodnotí např. pomocí výběrového korelačního koeficientu.
Existuje několik typů shlukové analýzy, které se liší postupem shlukování. Shlukování může být hierarchické nebo nehierarchické. Hierarchická shluková analýza vytváří systém shluků a podshluků tak, že každý shluk může obsahovat několik podshluků nižšího řádu a sám může být součástí shluku vyššího řádu. To znamená, že sestavujeme hierarchickou posloupnost rozkladů ,, od souboru jako jediného shluku až po rozklad souboru na jednotlivé objekty tak, že každý následující rozklad je zjemněním předchozího. Výsledek se dá graficky znázornit stromem – dendrogramem. Nehierarchická shluková analýza rozdělí objekty do několika shluků stejného řádu.