Základem správného modelovacího postupu je samozřejmě pečlivé stanovení vědecké otázky, na kterou se snažíme experimentem a následnou statistickou analýzou odpovědět. Na počátku našeho snažení by měla být nějaká praktická hypotéza (např. kouření způsobuje rakovinu plic). Zamítnutím nulové hypotézy (kouření nezpůsobuje rakovinu plic) pak pro naši praktickou hypotézu můžeme poskytnout důkazy.

Abychom mohli do modelu zahrnout různé proměnné, které mohou ovlivňovat výsledek a tedy představovat potenciální zavádějící proměnné, nevyhneme se pečlivému studiu literatury o daném problému. Je zřejmé, že nepostihneme všechny možné prediktory (o mnoha z nich lidstvo zatím ani neví), bylo by ale hrubou chybou do naší studie známé zavádějící faktory nezahrnout. Tato literární rešerše nám umožní vědeckou studii řádně naplánovat – nejen, že zahrneme známé prediktory výsledku, ale můžeme se rovněž inspirovat definicemi a měřicími metodami, a tím napomoci konzistenci naší studie s jejími předchůdci.

Při statistickém zpracování (po náležité přípravě dat) začínáme jednoduchými statistickými metodami, které nám napoví, jak jsou proměnné rozděleny a zda mezi vybranými proměnnými existují asociace. To nám může vedle znalosti problému z literatury pomoci obohatit modelový diagram.

Náš model by neměl obsahovat ani málo, ani moc proměnných. V prvním případě může dojít k opomenutí významného zavádějícího faktoru, což může vést k hrubému zkreslení odhadnutých vztahů mezi proměnnými a tedy mylné interpretaci dat. Pokud je proměnných naopak příliš mnoho, může se snížit přesnost výsledných odhadů. Dále může dojít i k „přeučení“ modelu, kdy model sice výborně popíše data, která máme právě z našeho vzorku k dispozici, ale bohužel včetně náhodných chyb, což samozřejmě opět může vést k chybné interpretaci.

Není také příliš přínosné, pokud do modelu zahrnujeme proměnnou, která se mezi pozorovanými subjekty příliš neliší (extrémní příklad: pokud máme ve studii pouze ženy, určitě nezjistíme vliv pohlaví).

Doporučuji zacházet opatrně i s metodami automatického výběru prediktorů (ve statistických programech zpravidla uvedeny anglicky jako forward, backward, stepwise selection). Tyto metody mohou být užitečné v úlohách „dobývání“ znalostí z dat (data mining) nebo pro studii směřující k hledání hypotéz, ale pokud klademe důraz na ověření zákonitostí mezi proměnnými podle postupu uvedeného v této kapitole a chceme hypotézu (všimněte si jednotného čísla) ověřit, je doporučený spíše „ruční“ postup výběru prediktorů.

vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity