Pro korektní zpracování a analýzu dat je potřeba dostatečné množství kvalitní informace. Intuitivně lze předpokládat, že čím větší množství informace data nesou, tím správnější bude analýza a tím menší tedy bude i možnost, že hodnocení výsledků zpracování povede k chybným závěrům. Z tohoto vyplývá, že čím úplnější popis analyzovaného objektu máme, tím kvalitnější by měla být analýza. Taková úvaha v jednoduchém důsledku vede k co nejpodrobnějšímu popisu objektu pomocí hodnot velkého počtu proměnných (veličin).

Rostoucí počet proměnných ale na druhé straně komplikuje realizační stránku zpracování. Roste složitost výpočtů, a tím i požadavky na návrh algoritmů zpracování, případně i na potřebný výpočetní čas. Z hlediska technického řešení je proto žádoucí počet proměnných potřebných pro popis analyzovaného objektu co nejvíce omezit.

Z těchto dvou protichůdných požadavků logicky vyplývá, že řešení každé konkrétní analytické úlohy spočívá v nalezení rozumného kompromisu mezi správností zpracování a požadavky na jeho technickou realizaci. Abychom takový kompromis nalezli, je pro danou úlohu třeba:

definovat přípustnou míru spolehlivosti výsledků;
určit ty proměnné, jejichž hodnoty nesou nejvíce informace, tj. ty proměnné, které jsou nejefektivnější pro co nejlepší separaci požadovaných klasifikačních tříd.

Definice míry spolehlivosti určuje optimalizační kritérium, podle kterého jsou proměnné popisující daný objekt hodnoceny a vybírány. V převážné většině klasifikačních úloh se používá pravděpodobnosti chybné klasifikace či různých dalších sofistikovanějších kritérií z pravděpodobnosti chybné klasifikace odvozených, jako jsou hodnoty senzitivity a specificity (Hodnocení úspěšnosti klasifikátorů), nebo případně i tzv. ROC (Receiver Operating Characteristic) analýza. Vhodným kritériem může být i odchylka vektoru popisujícího konkrétní zpracovávaný objekt pomocí hodnot vybraných proměnných od určitého referenčního, ve stanoveném smyslu ideálního vzorového vektoru.

Způsob, jak určit ty správné proměnné nesoucí nejvíce informace pro analýzu či klasifikaci, není teoreticky formalizován. Neexistuje teoretický aparát, pomocí kterého by bylo možné předem stanovit veličiny, jejichž hodnoty poskytují užitečnou informaci, nebo naopak ty, které jsou pro zamýšlené zpracování nedůležité. Teorie nabízí pouze dílčí, suboptimální řešení, spočívající ve výběru nezbytného počtu veličin z předem zvolené množiny veličin, příp. ve vyjádření původních veličin pomocí menšího počtu skrytých (latentních) nezávislých proměnných, které nelze přímo měřit, ale které mohou (ovšem ale nemusí) mít určitou věcnou interpretaci. První z obou postupů má přímý důsledek i na optimalizaci pořizování dat (není nadále nutné měřit ty veličiny, které neprokážou, že obsahují vhodné množství informace). Naopak, druhý postup předpokládá kompletní vstupní data, která pouze transformuje, a vytváří tím možnost jejich efektivnějšího zpracování.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity