Axiomatické odvození Shannonovy entropie
Vzorec pro Shannonovu entropii Vybraná témata z teorie informace (2) lze odvodit na základě minimálně omezujících a intuitivních axiomů. Entropie zde hraje roli míry nejistoty, náhodnosti či predikovatelnosti pozorování generovaných diskrétní náhodnou veličinou Poznamenejme, že entropie je definována rovnicí Vybraná témata z teorie informace (2) i pokud
Předpokládejme, že je diskrétní náhodná veličina s konečnou množinou stavů a příslušnými pravděpodobnostmi Předpokládejme, že pro funkci platí následující axiomy:
-
je rostoucí funkcí vzhledem k
-
pro pozorování náhodné veličiny nezávislé na platí
- tzv. seskupovací axiom: pro platí
(5) |
- je funkce spojitá v proměnné
Pak jediná funkce splňující všechny čtyři výše uvedené axiomy je tvaru
(6) |
kde a pro základ logaritmu platí
Ještě než přistoupíme k vlastnímu důkazu, všimněme si podmínek i-iv. Heuristicky se často axiom i označuje jako extensivita, axiomy ii+iii jako aditivita a axiom iv jako spojitost entropie. Uvažujme náhodný experiment se dvěma nezávislými náhodnými veličinami, a Současné pozorování realizace pak nabývá jedné z stejně pravděpodobných možností, tedy průměrná nejistota v předpovědi výsledku sdruženého experimentu je V případě že známe výsledek pozorování celá „nejistota“ či náhodnost v experimentu je dána pouze výsledkem pozorování Z důvodu nezávislosti a pak očekáváme, že průměrná nejistota v predikci výsledku sdruženého experimentu mínus nejistota získaná ze znalosti výsledku musí dát nejistotu experimentu zahrnujícího jen pozorování Z tohoto pohledu je axiom ii zcela přirozený.
Nyní k vlastnímu důkazu tvrzení. Z axiomu ii plyne takže musí platit Tento výsledek intuitivně koresponduje s představou, že míra náhodnosti v experimentu s diskrétní náhodnou veličinou s rozdělením s jediným možným výsledkem je nulová. Zároveň máme takže intuitivní volbou pro je logaritmická funkce, což dokážeme následujícím způsobem. Nechť je celé číslo a je libovolné přirozené číslo. Pak musí existovat číslo takové, že
(7) |
Jelikož má být rostoucí, musí platit také
neboli, po vydělení výrazem
(8) |
Provedeme-li stejnou úvahu pro funkci přičemž podmínka rostoucí funkce implikuje dostáváme
(9) |
Abychom ukázali že všimneme si, že oba podíly v Vybraná témata z teorie informace (8) a Vybraná témata z teorie informace (9) leží ve stejných mezích a tedy pro jejich rozdíl platí
(10) |
Jelikož je libovolné, můžeme položit a tedy oba dva členy na levé straně nerovnosti Vybraná témata z teorie informace (10) jsou si rovny, čímž dostáváme
(11) |
kde protože a má být rostoucí funkce.
Dále, nechť je racionální číslo dané nějakými přirozenými čísly Z axiomu iii plyne
(12) |
Poznamenejme, že platí
(13) |
Při označení můžeme psát a podle axiomu iii a Vybraná témata z teorie informace (11), lze výraz Vybraná témata z teorie informace (12) zapsat ve tvaru
(14) |
z čehož plyne
(15) |
Odečtením a přičtením výrazu k pravé straně Vybraná témata z teorie informace (15) obdržíme
(16) |
Rovnice Vybraná témata z teorie informace (16) pak platí pro všechna podle axiomu iv.
Rovnici Vybraná témata z teorie informace (6) pak dokážeme matematickou indukcí. Její platnost pro pro a jsme si již ukázali výše. Pro využijeme axiom iii, pro rozdělení na pravděpodobnosti a
(17) |
Předpokládejme, že rovnice Vybraná témata z teorie informace (6) platí pro všechna přirozená čísla menší nebo rovna a dokážeme její platnost pro Z Vybraná témata z teorie informace (17) máme
(18) |
čímž je platnost Vybraná témata z teorie informace (6) indukcí dokázána, neboť
(19) |
Pro základ logaritmu se často, zejména ve spojení s informačními technologiemi, volí a jednotkou entropie je pak bit. Lze se setkat i se základem kdy je jednotkou entropie tzv. dit. V matematice má výsadní postavení přirozený logaritmus tedy logaritmus o základu kdy se jednotka entropie nazývá nat.
Všimněme si ještě, že axiom ii plyne z iii, protože můžeme seskupit do segmentů délky takže a následně
(20) |
Přesněji, axiomy ii+iii lze nahradit jediným axiomem
(21) |
pro skupin, každou o prvcích (položme ), přičemž součet pravděpodobností v -té skupině označíme
Na závěr poznamenejme, že funkce Vybraná témata z teorie informace (6) není definována pro události s nulovou pravděpodobností, Prostým dosazením dostáváme neurčitý výraz „“. Funkci však můžeme snadno dodefinovat limitou, neboť z l'Hospitalova pravidla plyne
(22) |
tedy události s nulovou pravděpodobností k entropii nepřispívají.