Slovník | Vyhledávání | Mapa webu
 
Analýza genomických a proteomických datAnalýza genomických a proteomických dat Analýza obrazu (kvantifikace signálu) DNA mikročipů cDNA mikročipy Základní datová matice

Logo Matematická biologie

Základní datová matice

Z programu pro analýzu obrazu se exportuje základní matice dat jako textový soubor se specifickým formátem, v závislosti na typu použitého softwaru. Pro každý mikročip vzniká jedna základní datová matice.

Například data z GenePix softwaru pro analýzu obrazu mají příponu .gpr, data z Affymetrix příponu .CEL atd. Všechny tyto soubory jsou čitelné jakýmkoli klasickým textovým nebo tabulkovým editorem. Informace uložené v textových souborech se mohou lišit podle typu mikročipového experimentu a softwaru použitého k analýze obrazu; nicméně nejdůležitější informace jsou společné pro všechny z nich. Každý řádek reprezentuje jeden spot na mikročipu a sloupce reprezentují různé proměnné.  Pro cDNA čipy to jsou zpravidla:

  • identifikační číslo sondy na spotu (vlastní každé mikročipové platformě), případně i další identifikace (pozice na chromozomu, symbol genu, ..)
  • pozice spotu na mikročipu (buď v pixelech, nebo souřadnicích na mřížce, obojí je obvyklé)
  • informace o kvalitě spotu (viz  Parametry kontroly kvality)
  • intensita signálu spotu (pro všechny kanály) a odvozené statistiky (střední hodnota, medián, směrodatná odchylka)
  • intensita signálu pozadí (pro všechny kanály) a odvozené statistiky (střední hodnota, medián, směrodatná odchylka)
  • další odvozené charakteristiky (logaritmus intenzit, logaritmus podílu intenzit mezi dvěma kanály, …)

Z dalších odvozených charakteristik se zastavme u proměnné logaritmus podílu intenzit signálů spotu mezi dvěma kanály. Vzhledem k tomu, že u mikročipů dochází ke kvantifikaci hodnot „světlosti“ pixelů obrazu, kvantifikované hodnoty se můžou pohybovat v rozmezí 0 a 65 536. Rozložení těchto hodnot je tedy silně zešikmené zprava. Pro všechny analýzy proto tyto hodnoty transformujeme logaritmem, nejčastěji o základě dva.  V případě nuly se před logaritmovaním nahrazuje nula číslem jedna. Logaritmus poměru intenzit spotů dvou kanálů je finální hodnota transkriptu, která vstupuje do dalších analýz. Označuje se

(2.1)

Kde R představuje intenzitu kanálu obsahujícího studovaný vzorek (nejčastěji Cy5, tedy červená) a G intenzitu kanálu referenčního vzorku (nejčastěji Cy3, tedy zelená).


Příklady základních datových souborů z různých programů pro analýzy obrazu jsou k nalezení zde:

 
vytvořil Institut biostatistiky a analýz Lékařské fakulty Masarykovy univerzity