
Základní datová matice
Z programu pro analýzu obrazu se exportuje základní matice dat jako textový soubor se specifickým formátem, v závislosti na typu použitého softwaru. Pro každý mikročip vzniká jedna základní datová matice.
Například data z GenePix softwaru pro analýzu obrazu mají příponu .gpr, data z Affymetrix příponu .CEL atd. Všechny tyto soubory jsou čitelné jakýmkoli klasickým textovým nebo tabulkovým editorem. Informace uložené v textových souborech se mohou lišit podle typu mikročipového experimentu a softwaru použitého k analýze obrazu; nicméně nejdůležitější informace jsou společné pro všechny z nich. Každý řádek reprezentuje jeden spot na mikročipu a sloupce reprezentují různé proměnné. Pro cDNA čipy to jsou zpravidla:
- identifikační číslo sondy na spotu (vlastní každé mikročipové platformě), případně i další identifikace (pozice na chromozomu, symbol genu, ..)
- pozice spotu na mikročipu (buď v pixelech, nebo souřadnicích na mřížce, obojí je obvyklé)
- informace o kvalitě spotu (viz Parametry kontroly kvality)
- intensita signálu spotu (pro všechny kanály) a odvozené statistiky (střední hodnota, medián, směrodatná odchylka)
- intensita signálu pozadí (pro všechny kanály) a odvozené statistiky (střední hodnota, medián, směrodatná odchylka)
- další odvozené charakteristiky (logaritmus intenzit, logaritmus podílu intenzit mezi dvěma kanály, …)
Z dalších odvozených charakteristik se zastavme u proměnné logaritmus podílu intenzit signálů spotu mezi dvěma kanály. Vzhledem k tomu, že u mikročipů dochází ke kvantifikaci hodnot „světlosti“ pixelů obrazu, kvantifikované hodnoty se můžou pohybovat v rozmezí 0 a 65 536. Rozložení těchto hodnot je tedy silně zešikmené zprava. Pro všechny analýzy proto tyto hodnoty transformujeme logaritmem, nejčastěji o základě dva. V případě nuly se před logaritmovaním nahrazuje nula číslem jedna. Logaritmus poměru intenzit spotů dvou kanálů je finální hodnota transkriptu, která vstupuje do dalších analýz. Označuje se
|
(2.1)
|
Kde R představuje intenzitu kanálu obsahujícího studovaný vzorek (nejčastěji Cy5, tedy červená) a G intenzitu kanálu referenčního vzorku (nejčastěji Cy3, tedy zelená).
Příklady základních datových souborů z různých programů pro analýzy obrazu jsou k nalezení zde: