Jestliže použijeme logaritmus o základu 2, bude jednotkou vzájemné informace bit.
Intuitivně je vzájemná informace mírou informace, kterou sdílí náhodné proměnné X a Y: udává, do jaké míry znalost jedné z těchto proměnných snižuje nejistotu o druhé. Pokud jsou náhodné proměnné X a Y nezávislé, což znamená, že znalost X nedává žádnou informaci o Y a naopak, pak jejich vzájemná informace je nulová. Opačným extrémem je, když X je deterministickou funkcí Y a Y je deterministickou funkcí X; pak veškerá informace nesená náhodnou proměnnou X je sdílená s Y, a proto znalost X určuje hodnotu Y a naopak. Důsledkem toho je, že v tomto případě vzájemná informace je totéž jako nejistota obsažená v Y (nebo X) samotné, čili entropieY (nebo X). Navíc tato vzájemná informace je stejná jako entropie X, i jako entropie Y. (Velmi speciálním případem této situace je, když X a Y jsou ve skutečnosti stejnou náhodnou proměnnou.)
Vzájemná informace je míra nedílné závislosti vyjádřená sdruženým rozdělením náhodných proměnných X a Y vztaženým ke sdruženému rozdělení proměnných X a Y, kdyby byly nezávislé. Vzájemná informace proto měří závislost v následujícím smyslu: I(X; Y) = 0 právě tehdy, kdyžX a Y jsou nezávislé náhodné proměnné. To je dobře vidět v jednom směru:, jestliže X a Y jsou nezávislé, pak p(x,y) = p(x) p(y) a proto:
Vzájemná informace je vždy nezáporná (tj. I(X;Y) ≥ 0; viz níže) a symetrická (tj. I(X;Y) = I(Y;X)).
Intuitivně: pokud entropii H(X) chápeme jako míru nejistoty hodnoty náhodné proměnné, pak H(X|Y) je míra toho, co Yneříká o X. To je „množství zbývající nejistoty o X, když je Y známé“ a proto pravou stranu první z těchto rovnic můžeme číst jako „množství nejistoty v X, minus množství nejistoty v X, která zůstává, když je Y známé“, což je totéž jako „množství nejistoty o X, když je odstraněna znalost Y“. To potvrzuje intuitivní význam vzájemné informace jako množství informace (tj. snížení nejistoty), které znalost jedné proměnná poskytuje o druhé.
Všimněte si, že v diskrétním případě H(X|X) = 0, a proto H(X) = I(X;X). Tedy I(X;X) ≥ I(X;Y) a můžeme formulovat základní princip, že každá náhodná proměnná obsahuje nejméně tolik informace o sobě jako libovolná jiná proměnná.
Bylo navrženo několik variant vzájemné informace pro různé speciální potřeby. Patří mezi ně normalizované varianty a zobecnění na více než dvě proměnné.
Protože platí , lze tuto metriku přirozeně normalizovat:
Metrika D je univerzální metrikou v tom smyslu, že pokud libovolná jiná míra vzdálenosti říká, že X a Y si jsou blízké, pak také D o nich bude tvrdit, že si jsou blízké[1].
Někdy je užitečné vyjádřit vzájemnou informaci dvou náhodných proměnných podmíněnou třetí proměnnou:
což lze zjednodušit na
Podmínění třetí náhodnou proměnnou může vzájemnou informaci zvýšit i snížit, ale vždy platí, že
pro diskrétní, sdruženě distribuované náhodné proměnné X, Y, Z. Tento výsledek slouží jako základní stavební blok pro důkaz dalších nerovností v teorii informace.
Slepé použití informačních diagramů k odvození výše uvedené definice bylo kritizováno a opravdu se ukázalo, že jeho použití je dosti omezené, protože je obtížné vizualizovat nebo pochopit význam této veličiny pro větší počet náhodných proměnných, protože pro může mít nulovou, kladnou i zápornou hodnotu.
Mnoharozměrné zobecnění, které maximalizuje vzájemnou informaci mezi sdruženým rozdělením a ostatními cílovými proměnnými se však s úspěchem používá pro výběr rysů[2].
Vzájemná informace se používá i v oblasti zpracování signálu jako míra podobnosti dvou signálů. Například FMI metrika[3] je mírou výkonnosti slučování obrazů využívající vzájemnou informaci pro měření množství informace o výchozích obrazech, kterou obsahuje sloučený obraz.
Hodnoty obou koeficientů se mohou lišit. V některých případech může být požadována symetrická míra, jako například následující míra redundance:
který nabývá nejmenší hodnoty nula, když jsou proměnné nezávislé, a maximální hodnoty
když je jedna proměnná při znalosti jiné zcela nadbytečná. Viz článek Redundance. Další symetrická míra je symetrická nejistota (Witten & Frank 2005), daná
která reprezentuje vážený průměr dvou koeficientů nejistoty[5]
je každá událost nebo objekt daný vážený příslušnou pravděpodobností . To znamená, že všechny objekty nebo události jsou (až na pravděpodobnost jejich výskytu) ekvivalentní. Některé aplikace však vyžadují, aby určité objekty nebo události byly významnější než jiné, nebo aby určité vzorky asociací byly sémanticky důležitější než jiné.
Například deterministické zobrazení můžeme považovat za silnější než deterministické zobrazení , přestože tyto vztahy dávají stejnou vzájemnou informaci. Důvodem je, že vzájemná informace není citlivá na žádné inherentní uspořádání hodnot proměnných (Cronbach 1954, Coombs & Dawes 1970, Lockhead 1970), a proto vůbec není citlivá na formu relačního zobrazení mezi příslušnými proměnnými. Pokud požadujeme, aby první relace, která ukazuje shodu na všech hodnotách proměnné, byla považována za silnější než druhá relace, pak je možné použít váženou vzájemnou informaci (Guiasu 1977) definovanou takto:
Takto definovaná vážená vzájemná informace přiřazuje každé pravděpodobnosti souvýskytu hodnot proměnných váhu . To umožňuje, aby určité pravděpodobnosti mohly mít větší nebo menší význam než jiné, což dovoluje kvantifikaci relevantních holistických faktorů. Ve výše uvedeném příkladě použití větších relativních vah pro , a přináší efekt přiřazení větší důležitosti relaci než relaci , což může být žádoucí v určitých případech rozpoznávání vzorků, apod. Ale vážené vzájemné informaci a jejím vlastnostem nebylo věnováno mnoho matematické práce.
Na rozdělení pravděpodobnosti lze pohlížet jako na rozdělení množiny na třídy ekvivalence. Můžeme se pak ptát:, jestliže určitá množina byla rozdělena náhodně, jaké by bylo rozdělení pravděpodobnosti? Jaká by byla očekávaná hodnota vzájemné informace? Upravená vzájemná informace (anglickyadjusted mutual information, AMI) odečítá očekávanou hodnotu MI, takže AMI je rovna nule, pokud dvě různé distribuce jsou náhodné, a je rovna jedné, pokud dvě distribuce jsou identické. AMI se definuje podobně jako upravený Rand index dvou různých rozdělení množiny.
Při použití myšlenek Kolmogorovovy složitosti můžeme považovat vzájemnou informace dvou posloupností nezávislou na libovolném rozdělení pravděpodobnosti:
Pokud množina možných hodnot náhodných proměnných X a Y je diskrétní, pozorovaná data lze sumarizovat v kontingenční tabulce, s řádkovou proměnnou X (nebo i) a sloupcovou proměnnou Y (nebo j).
Vzájemná informace je jednou z měr
asociace nebo korelace
mezi řádkovými a sloupcovými proměnnými. Jiné míry asociace zahrnují statistiku
testu dobré shody (Pearsonova chí-kvadrát testu), statistiku G-testu, apod. Vzájemná informace se totiž rovná statistice G-testu vydělené 2N, kde N je velikost vzorku.
V mnoha aplikacích chceme maximalizovat vzájemnou informaci (tedy rostoucí závislosti), což je často ekvivalentem minimalizace podmíněné entropie. Příklady zahrnují:
V technologii vyhledávacích strojů se vzájemná informace mezi frázemi a kontexty používá jako vlastnost pro k-mean clustering pro vytváření sémantických clusterů (konceptů)[9].
Vzájemná informace se používá jako kritérium pro výběr a transformaci příznaků při strojovém učení. Může být používána pro charakterizaci jak relevance tak redundance proměnné, jako například u algoritmu výběr příznaků s minimální redundancí.
Vzájemná informace slov se často používá jako funkce důležitosti pro hledání kolokací v korpusové lingvistice. Toto má přidanou složitost ??, které ne slovo-instance je instance dvou různých slov; rather, jeden počítá instance, kde se obě slova objeví bezprostředně za sebou nebo blízko sebe; to nepatrně komplikuje výpočet, protože očekávaná pravděpodobnost, že se jedno slovo objeví nejvýše N slov od druhého, roste s N.
Vzájemná informace se používá v lékařským imaging pro registraci obrazu. Je-li dán referenční obrázek (například sken moygu) a druhý obrázek, který se_chce_umístit do stejné soustavy souřadnic jako referenční obrázek, tento druhý obrázek se deformuje tak, aby se maximalizovala vzájemná informace mezi ním a referenčním obrázkem.
Ve statistické mechanice lze Loschmidtův paradox vyjádřit pomocí vzájemné informace[10][11]. Loschmidt si všiml, že musí být nemožné odvodit fyzikální zákon, který není časově symetrický (například druhý termodynamický zákon) pouze z fyzikálních zákonů odpovídajících této symetrii. Ukázal, že BoltzmannovaH-věta vychází z předpokladu vzájemné nekorelovanosti rychlostí částic v plynu, což ruší symetrii času inherentní v H-větě. Lze ukázat, že jestliže systém je popsán hustotou pravděpodobnosti ve fázovém prostoru, pak z Liouvilleovy věty vyplývá, že sdružená informace (sdružená entropie se znaménkem minus) určitého rozdělení zůstává konstantní v čase. Sdružená informace se rovná vzájemné informaci zvětšené o sumu všech marginálních informací (marginální entropie se znaménkem minus) pro každou souřadnici částice. Boltzmannův předpoklad množství na zanedbáváme vzájemná informace při výpočtu entropie, což dává termodynamickou entropii (dělenou Boltzmannovou konstantou).
Vzájemná informace se používá při učení struktury bayesovských sítí a dynamických bayesovských sítí, kteréžto vysvětlují kauzální vztah mezi náhodnými proměnnými, jak dokládá GlobalMIT toolkit [2]: učení globálně optimálních dynamických bayesovských sítí s vzájemně informačním testovacím kritériumem.
↑Alexander Kraskov, Harald Stögbauer, Ralph G. Andrzejak and Peter Grassberger, "Hierarchical Clustering Based on Mutual Information", (2003) ArXiv q-bio/0311039
↑Yao, Y. Y. Entropy Measures, Maximum Entropy Principle and Emerging Applications. [s.l.]: Springer, 2003. Dostupné v archivu pořízeném dne 2014-02-22. Kapitola Information-theoretic measures for knowledge discovery and data mining.Archivováno 22. 2. 2014 na Wayback Machine.
Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in H Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14–30.
CHURCH, Kenneth Ward; HANKS, Patrick. Word association norms, mutual information, and lexicography. Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics. 1989. Dostupné online.[nedostupný zdroj]
Haghighat, M. B. A., Aghagolzadeh, A., & Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering, 37(5), 744-756.
Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
Peng, H.C., Long, F. a Ding, C. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005. Dostupné online.
Andre S. Ribeiro, Stuart A. Kauffman, Jason Lloyd-Price, Bjorn Samuelsson a Joshua Socolar. Mutual Information in Random Boolean models of regulatory networks. Physical Review E. 2008. arXiv0707.3642.