EM algoritmus (z anglického expectation–maximization – očekávaná (střední) hodnota–maximalizace) je ve statisticeiterační metoda pro hledání maximálně věrohodného odhadu nebo odhadu parametrůstatistického modelu s maximální aposteriorní pravděpodobností (MAP), který závisí na nepozorovaných skrytých proměnných. Při EM iteracích se pravidelně střídají kroky výpočtu střední hodnoty (očekávání, E) s kroky maximalizace (M). V kroku E se vytváří očekávaná logaritmická věrohodnostní funkce na základě aktuálního odhadu parametrů. V kroku M se počítají parametry maximalizující očekávanou logaritmickou věrohodnostní funkci nalezenou v kroku E. Tyto odhady parametrů se pak používají pro určení rozdělení skrytých proměnných v dalším kroku E.
EM algoritmus popsali, vysvětlili a pojmenovali Arthur P. Dempster, Nan Laird a Donald Rubin v klasickém článku z roku 1977,[1] ve kterém zmínili, že EM algoritmus byl v minulosti „mnohokrát navržen a popsán pro speciální případy“ jinými autory. Jedním z prvních popisů byla metoda počítání genů pro odhadování frekvence alel, kterou popsal Cedric Smith[2]. Velmi podrobný popis EM metody pro exponenciální funkce publikoval Rolf Sundberg ve své diplomové práci a několika odborných článcích[3][4][5] vzniklých při jeho spolupráci s Per Martin-Löfem a Anders Martin-Löfem[6][7][8][9][10].[11][12] Článek Dempstera, Lairda a Rubina z roku 1977 zobecňuje metodu a načrtává analýzu konvergence pro širší třídu problémů. Bez ohledu na dřívější objevy, inovativní článek Dempstera, Lairda a Rubina v Journal of Royal Statistical Society vyvolal nadšenou diskuzi na setkání Royal Statistical Society se Sundberg vedl k označení článku za „brilantní“. Zmiňovaný článek učinil z EM metody důležitý nástroj statistické analýzy.
Později se ukázalo, že analýza konvergence EM algoritmu ve výše zmíněném článku byl chybná; opravenou analýzu konvergence publikoval C. F. Jeff Wu v roce 1983.[13]
Jeho důkaz prokázal konvergenci EM metody i mimo rodinu exponenciálních rozdělení, kterou vyžadoval původní článek.[13]
EM algoritmus se používá pro hledání (lokální) maximálně věrohodných parametrů statistického modelu v případech, kdy rovnice nelze vyřešit přímo. Tyto modely typicky kromě neznámých parametrů a známých dat pozorování zahrnují skryté proměnné. To znamená, že buď v datech existují chybějící hodnoty nebo lze model formulovat jednodušeji, pokud předpokládáme, že existují další nepozorované datové body. Například smíšený model lze popsat jednodušeji, pokud předpokládáme, že ke každému pozorovanému datovému bodu existuje další nepozorovaný datový bod nebo skrytá proměnná, která popisuje kombinační komponentu, do které každý datový bod patří.
Hledání maximálně věrohodného řešení typicky vyžaduje použití derivacevěrohodnostní funkce podle všech neznámých hodnot, parametrů a skrytých proměnných a současně řešení výsledné rovnice. U statistických modelů se skrytými proměnnými to obvykle není možné. Místo toho bývá výsledkem soustava vzájemně propojených rovnic, ve které řešení parametrů vyžaduje hodnoty skrytých proměnných a naopak, přičemž substituce jedné sady rovnic do druhé produkuje neřešitelné rovnice.
EM algoritmus vychází z pozorování, že tyto dvě sady rovnic lze řešit numericky: Je možné vybrat libovolné hodnoty pro jednu ze obou sad neznámých a pomocí nich odhadnout druhou sadu. Pak pomocí nových hodnot najít lepší odhad první sady, a tak pokračovat ve střídání obou kroků dokud výsledné hodnoty nekonvergují k pevným bodům. Lze dokázat, že v tomto kontextu tento postup konverguje, a že v tomto bodě je derivace věrohodnostní funkce libovolně blízko k nule, což znamená, že nalezený bod je buď maximem nebo sedlovým bodem.[13] Obecně však může existovat více maxim, a není záruka, že algoritmus nalezne globální maximum. Některé věrohodnostní funkce mají v sobě také singularity, tj. nesmyslná maxima. Například jedno z řešení, které může EM algoritmus nalézt ve smíšeném modelu, spočívá v tom, že jedna ze složek má nulový rozptyl a střední parametr pro stejnou složku se rovná jednomu z datových bodů.
Tato hodnota je však často nevyčíslitelná (například pokud je posloupnost událostí, poroste počet hodnot exponenciálně s délkou posloupnosti, takže přesný výpočet sumy bude extrémně obtížný).
EM algoritmus se snaží najít MLE marginální věrohodnosti iterativním používáním následujících dvou kroků:
M krok (Maximalizace): Najdeme parametry, které maximalizují následující výraz:
Typické modely, na které se EM aplikuje, používají jako skrytou proměnnou, což udává příslušnost k jedné z následujících situací:
Pozorované datové body mohou být diskrétní (hodnoty tvoří konečnou nebo spočetně nekonečnou množinu) nebo spojité (hodnoty tvoří nespočetně nekonečnou množinu). Každému bodu dat může být přiřazen vektor pozorování.
Parametry jsou spojité a jsou dvou druhů: Parametry, které jsou přiřazené k všem datovým bodům, a parametry přiřazené určité hodnotě skryté proměnné (tj. přiřazené ke všem datovým bodům, jejichž odpovídající skrytá proměnná má tuto hodnotu).
EM je však možné aplikovat i na jiné třídy modelů.
Motivace je následující: Pokud jsou známé hodnoty parametrů , lze hodnotu skryté proměnné obvykle nalézt maximalizací logaritmické věrohodnostní funkce přes všechny možné hodnoty , buď jednoduše iterováním přes nebo pomocí nějakého algoritmu, například Baumova–Welchova algoritmu pro skryté Markovovy modely. Pokud naopak známe hodnoty skryté proměnné , můžeme nalézt odhad parametrů docela snadno, typicky jednoduchým seskupováním pozorovaných datových bodů podle hodnoty příslušných skrytých proměnných a průměrováním hodnot, nebo nějaké funkce hodnot, bodů z každé skupiny. V případě, když i jsou neznámé, nabízí se použít iterativní algoritmus:
Nejdříve inicializovat parametry na nějaké náhodné hodnoty.
Spočítat pravděpodobnost každé možné hodnoty pro dané .
Pak, použít právě vypočtené hodnoty pro vypočítání lepšího odhadu parametrů .
Opakovat kroky 2 a 3 dokud nekonvergují.
Právě popsaný algoritmus se monotónně přibližuje lokálnímu minimu nákladové funkce.
Označení krok očekávání (E) je poněkud nevhodné pojmenování. V prvním kroku se počítají pevné parametry funkce Q (závislé na datech). Jakmile jsou parametry Q známé, je Q plně určena a ve druhém (M) kroku EM algoritmu se provádí její maximalizace.
Ačkoli EM iterace skutečně zvyšuje (marginální) hodnotu věrohodnostní funkce na pozorovaných datech, není záruka, že posloupnost konverguje k odhadu maximální věrohodnosti. Pro multimodální distribuce to znamená, že EM algoritmus může konvergovat k lokálnímu maximu pozorované věrohodnostní funkce, v závislosti na počátečních hodnotách. Pro únik z lokálního maxima existuje množství heuristik a metaheuristik, například gradientní algoritmus s opakovaným náhodným startem (začíná s několika různými náhodnými počátečními odhady θ(t)) nebo použití metod simulovaného žíhání.
EM algoritmus se snaží zlepšit , místo toho, aby přímo zlepšoval . Ukážeme, že vylepšení prvního znamená také vylepšení druhého.[14]
Pro jakékoli s nenulovou pravděpodobností , můžeme psát
Vezměme očekávání přes možné hodnoty neznámých dat podle aktuálního odhadu parametru , znásobíme obě strany a sečteme (nebo zintegrujeme) podle . Levá strana je očekávaná hodnota konstanty, takže dostáváme:
kde je definované jako opačná hodnota součtu, který nahrazuje.
Tato poslední rovnice platí pro každou hodnotu , včetně ,
a odečtením této poslední rovnice od předchozí rovnice dává
Díky schopnosti pracovat s chybějícími daty a pozorovat neidentifikované proměnné se EM stává užitečným nástrojem pro oceňování a správu rizik portfolia.
Ve strukturálním inženýrství je algoritmus STRIDE Structural Identification using Expectation Maximization[20] pouze výstupní metoda pro identifikaci přirozených vibračních vlastností strukturálního systému pomocí senzorových dat (viz operační modální analýza).
Kalmanův filtr se typicky používá pro online odhad stavu a vyhlazování s minimálním rozptylem může být použito pro offline nebo dávkový odhad stavu. Nicméně tato řešení s minimálním rozptylem vyžadují odhady parametrů modelu stavového prostoru. EM algoritmy lze používat pro řešení problémů sdružených stavů a odhady parametrů.
Filtrovací a vyhlazovací EM algoritmy vznikají opakováním následujícího dvoukrokového postupu:
krok E
Použít Kalmanův filtr nebo vyhlazování s minimálním rozptylem navržený s odhady aktuálních parametrů pro získání odhadů aktualizovaných stavů.
krok M
Použití filtrovaných nebo vyhlazených odhadů stavu pro výpočet maximální věrohodnosti pro získání odhadů aktualizovaných parametrů.
Předpokládejme, že Kalmanův filtr nebo vyhlazování s minimálním rozptylem pracuje s měřeními systému s jediným vstupem a jediným výstupem, který je ovlivněn aditivním bílým šumem. Aktualizovaný odhad měření rozptylu šumu lze získat z výpočtu maximální věrohodnosti
kde jsou odhady skalárního výstupu vypočítané filtrem nebo vyhlazováním z N skalárních měření . Výše uvedená aktualizace může také být aplikována na aktualizaci Poissonovo měření intenzity šumu. Podobně pro autoregresivní proces prvního řádu lze vypočítat odhad rozptylu aktualizovaného šumu procesu podle vzorce
kde a jsou skalární odhady stavu vypočítané filtrem nebo vyhlazování. Aktualizovaný odhad koeficientů modelu je získaný podle vzorce
Konvergence odhadů parametrů obdobných jako jsou uvedeny výše jsou dobře studované.[21][22][23][24]
Bylo navrženo několik metod pro zrychlení někdy pomalé konvergence EM algoritmu, například metody používající sdružený gradient a modifikace Newtonovy metody (Newtonova–Raphsonova metoda)[25]. EM lze také používat pro metody omezeného odhadu.
Algoritmus Parameter-expanded expectation maximization (PX-EM) vede často ke zrychlení díky „použití `nastavení kovariance' pro opravu analýzy kroku M, přičemž využívá zvláštní informace zachycené v přisuzovaných úplných datech“[26].
Expectation conditional maximization (ECM) nahrazuje každý M krok v posloupností kroků podmíněné maximalizace (CM), ve kterých se každý parametr θi maximalizuje samostatně, když se ostatní parametry nemění.[27] Rozšířením tohoto algoritmu je Expectation conditional maximization either (ECME).[28]
Uvedený přístup lze dále rozšířit na algoritmus generalized expectation maximization (GEM), u kterého se hledají pouze přírůstky účelové funkce F jak v kroku E tak v kroku M, jak je popsané v části Jako postup maximalizace maximalizace.[15] GEM se dále vyvíjí v distribuovaném prostředí a vykazuje slibné výsledky.[29]
Je také možné považovat EM algoritmus za podtřídu MM algoritmu (Majorize/Minimize nebo Minorize/Maximize, podle kontextu),[30][31] a používat pro něj všechny techniky vyvinuté pro obecnější případ.
Funkce Q používaná v EM algoritmu je založena na logaritmické věrohodnostní funkci. Proto je považována za log-EM algoritmus. Použití logaritmické věrohodnostní funkce lze zobecnit na použití α-logaritmu poměru věrohodností. Potom lze α-log poměru věrohodností pozorovaných dat přesně vyjádřit jako rovnost použitím funkce Q aplikované na α-logaritmus poměru věrohodností a α-divergence. Získání této funkce Q je zobecněný krok E. Jeho maximalizace je zobecněný krok M. Výsledný algoritmus se nazývá α-EM algoritmus.
[32]
α-EM algoritmus, jehož autorem je Yasuo Matsuyama je zobecněním log-EM algoritmu. Není potřeba žádný výpočet gradientu nebo matice Hessianů. Při výběru vhodného α vykazuje α-EM algoritmus rychlejší konvergenci než log-EM. α-EM algoritmus vede k rychlejší verzi algoritmu α-HMM odhadu skrytých Markovových modelů.
[33]
EM je částečně nebayesovská metoda založená na maximální věrohodnosti. Její konečný výsledek dává rozdělení pravděpodobnosti přes skryté proměnné (v bayesovském stylu) spolu s bodovým odhadem θ (buď maximálně věrohodný odhad anebo v a posterior režimu). Může být požadována jeho plně bayesovská verze, která dává rozdělení pravděpodobnosti podle θ a skryté proměnné. Při bayesovském přístupu k inference bychom jednoduše považovali θ za další skrytou proměnnou. Při tomto přístupu mizí rozdíl mezi kroky E a M. Při použití faktorizované aproximace Q popsané výše (variační bayesovská metoda) může řešení iterovat přes každou skrytou proměnnou (včetně θ) a optimalizovat je po jedné. Nyní je potřeba k kroků pro každou iteraci, kde k je počet skrytých proměnných. Pro grafické modely je to snadné udělat, protože nové Q pro každou proměnnou závisí pouze na jeho Markovově blanketu, takže pro efektivní inference lze používat lokální předávání variačních zpráv (Variational message passing, VMP).
Máme-li aktuální odhad parametrů θ(t), bude podmíněné rozdělení pravděpodobnosti Zi určeno Bayesovou větou, aby to byla proporcionální výška normální hustoty vážená parametrem τ:
.
Tyto hodnoty, které jsou obvykle považovány za výstup kroku E (přestože to není funkce Q popsaná níže), se nazývají „členské pravděpodobnosti“.
Tento E krok odpovídá nastavení této funkce pro Q:
Střední hodnota („očekávání“) v sumě se bere vzhledem k hustotě pravděpodobnosti , která může být pro každé z trénovací množiny jiná. Před provedením kroku E jsou známé všechny potřebné hodnoty kromě , které se počítají podle rovnice na začátku kroku E.
Tuto plně podmíněnou střední hodnotu není třeba počítat v jednom kroku, protože τ a μ/Σ se vyskytují ve zvláštních lineárních členech a mohou být tedy maximalizovány nezávisle.
Protože Q(θ | θ(t)) je kvadratická funkce, je určování maximalizujících hodnot θ relativně přímočaré. Také τ, (μ1,Σ1) a (μ2,Σ2) mohou být vesměs maximalizovány nezávisle, protože se všechny vyskytují v samostatných lineárních členech.
EM algoritmus byl implementován pro případ, kdy existuje podkladový model lineární regrese, který vysvětluje variace určité velikosti, ale skutečně pozorované hodnoty jsou cenzurovanou nebo zkrácenou verzí hodnot reprezentovaných v modelu.[34] Speciální případy tohoto modelu zahrnují cenzurované nebo zkrácené pozorování z jednoho normální rozdělení.[34]
EM algoritmus typicky konverguje k lokální optimu. Toto lokální optimum však nemusí být globálním optimem, a také nemáme jakýhokoli odhad rychlosti konvergence. V mnoharozměrném prostoru může být konvergence libovolně špatná a může existovat exponenciální počet lokálních optim. Proto existuje potřeba pro alternativní metody pro zaručené učení, zvláště v mnohadimanzionálních prostředích. Vedle algoritmu EM existují i jiné algoritmy, které lépe zaručují konzistenci. Tyto algoritmy využívají přístupy založené na momentech[35] nebo tak zvané spektrální techniky[36][37]. Zájem o algoritmy pro učení parametrů pravděpodobnostního modelu používající momenty se v poslední době stále zvyšuje, protože za určitých podmínek mohou na rozdíl od EM algoritmu, jehož velkým problémem je uváznutí v lokálním optimu, zaručit například globální konvergenci. Algoritmy se zaručeným učením mohou být odvozeny pro několik důležitých modelů, jako jsou smíšené modely, skryté Markovovy modely atd. V těchto spektrálních metodách, se neobjevují žádná nepravá lokální optima, a skutečné parametry lze při splnění určitých podmínek regularity konzistentně odhadnout.
↑
DEMPSTER, A.P.; LAIRD, N.M.; RUBIN, D.B. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of Royal Statistical Society, Series B. 1977. JSTOR2984875.
↑SUNDBERG, Rolf. Maximum likelihood theory for incomplete data from an exponential family. Scandinavian Journal of Statistics. 1974. JSTOR4615553.
↑ abSUNDBERG, Rolf. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. 1971. disertační práce. Institute for Mathematical Statistics, Stockholm University.
↑ abSUNDBERG, Rolf. An iterative method for solution of the likelihood equations for incomplete data from exponential families. Communications in Statistics – Simulation and Computation. 1976. DOI10.1080/03610917608812007.
↑Viz uznání od Dempstera, Lairda a Rubina na stránkách 3, 5 a 11.
↑KULLDORFF, G. Contributions to the theory of estimation from grouped and partially grouped samples. [s.l.]: Almqvist & Wiksell, 1961.
↑ abMARTIN-LÖF, Anders. Utvärdering av livslängder i subnanosekundsområdet (Evaluace sub-nanosekondových dob života). [s.l.]: [s.n.], 1963.
↑ abMARTIN-LÖF, Per. Statistics from the point of view of statistical mechanics. [s.l.]: Matemathical Institute, Aarhus University., 1966. Za autora „Sundbergova vzorce“ se považuje Anders Martin-Löf.
↑ abMARTIN-LÖF, Per. Statistika Modeller (Statistical Models): Anteckningar från seminarier läsåret 1969–1970. [s.l.]: [s.n.], 1970. S asistencí Rolfa Sundberga, Stockholm University („Sundbergův vzorec“).
↑ abMARTIN-LÖF, P. The notion of redundancy and its use as a quantitative measure of the deviation between a statistical hypothesis and a set of observational data. With a discussion by F. Abildgård, A. P. Dempster, D. Basu, D. R. Cox, A. W. F. Edwards, D. A. Sprott, G. A. Barnard, O. Barndorff-Nielsen, J. D. Kalbfleisch and G. Rasch and a reply by the author. 1. vyd. Aarhus: Dept. Theoret. Statist., Inst. Math., Univ. Aarhus, 1974.
↑ abMARTIN-LÖF. The notion of redundancy and its use as a quantitative measure of the discrepancy between a statistical hypothesis and a set of observational data. Scand. J. Statist.. 1974.
↑LITTLE, Roderick J.A.; RUBIN, Donald B. Statistical Analysis with Missing Data. New York: John Wiley & Sons, 1987. (Wiley Series in Probability and Mathematical Statistics). ISBN978-0-471-80254-9.
↑ abNEAL, Radford; HINTON, Geoffrey. A view of the EM algorithm that justifies incremental, sparse, and other variants. Cambridge, MA: MIT Press, 1999. Dostupné online. ISBN978-0-262-60032-3.
↑ abHASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The Elements of Statistical Learning. New York: Springer, 2001. Dostupné online. ISBN978-0-387-95284-0. Kapitola The 8.5 EM algorithm.
↑LINDSTROM, Mary J; BATES, Douglas M. Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data. Journal of the American Statistical Association. 1988. DOI10.1080/01621459.1988.10478693.
↑VAN DYK, David A. Fitting Mixed-Effects Models Using Efficient EM-Type Algorithms. Journal of Computational and Graphical Statistics. 2000. DOI10.2307/1390614. JSTOR1390614.
↑DIFFEY, S. M; SMITH, A. B; WELSH, A. H; CULLIS, B. R. A new REML (parameter expanded) EM algorithm for linear mixed models. Australian & New Zealand Journal of Statistics. 2017. DOI10.1111/anzs.12208.
↑MATARAZZO, T. J.; PAKZAD, S. N. STRIDE for Structural Identification using Expectation Maximization: Iterative Output-Only Method for Modal Identification. Journal of Engineering Mechanics. 2016. Dostupné online.
↑EINICKE, G.A.; MALOS, J.T.; REID, D.C. Riccati Equation and EM Algorithm Convergence for Inertial Navigation Alignment. IEEE Trans. Signal Process.. Lednu 2009. DOI10.1109/TSP.2008.2007090. Bibcode2009ITSP...57..370E.
↑JAMSHIDIAN, Mortaza; JENNRICH, Robert I. Acceleration of the EM Algorithm by using Quasi-Newton Methods. Journal of Royal Statistical Society, Series B. 1997. DOI10.1111/1467-9868.00083.
↑LIU, C. Parameter expansion to accelerate EM: The PX-EM algorithm. Biometrika. 1998. DOI10.1093/biomet/85.4.755.
↑MENG, Xiao-Li; RUBIN, Donald B. Maximum likelihood estimation via the ECM algorithm: A general framework. Biometrika. 1993. DOI10.1093/biomet/80.2.267.
↑LIU, Chuanhai; RUBIN, Donald B. The ECME Algorithm: A Simple Extension of EM and ECM with Faster Monotone Convergence. Biometrika. 1994. DOI10.2307/2337067. JSTOR2337067.
↑
Accelerating Expectation-Maximization Algorithms with Frequent Updates. Proceedings of the IEEE International Conference on Cluster Computing. 2012. Dostupné online.
↑HUNTER, DR; LANGE, K. A Tutorial on MM Algorithms [online]. 2004 [cit. 2019-12-10]. Dostupné v archivu pořízeném dne 2011-07-20.
↑
MATSUYAMA, Yasuo. The α-EM algorithm: Surrogate likelihood maximization using α-logarithmic information measures. IEEE Transactions on Information Theory. 2003. DOI10.1109/TIT.2002.808105.
↑
MATSUYAMA, Yasuo. Hidden Markov model estimation based on alpha-EM algorithm: Discrete and continuous alpha-HMMs. International Joint Conference na Neural Networks. 2011.
↑ abWOLYNETZ, M.S. Maximum likelihood estimation in a linear model from confined and censored normal data. Journal of Royal Statistical Society, Series C. 1979. DOI10.2307/2346749. JSTOR2346749.
↑SHABAN, Amirreza; MEHRDAD, Farajtabar; BO, Xie; LE, Song; BYRON, Boots. Learning Latent Variable Models by Improving Spectral Solutions with Exterior Point Method. UAI. 2015. Dostupné v archivu pořízeném dne 2016-12-24.Archivováno 24. 12. 2016 na Wayback Machine.
↑BALLE, BORJA QUATTONI, ARIADNA CARRERAS, XAVIER. Local Loss Optimization in Operator Models: A New Insight into Spectral Learning. [s.l.]: [s.n.], 2012-06-27. OCLC815865081
HOGG, Robert; MCKEAN, Joseph; CRAIG, Allen. Introduction to Mathematical Statistics. Upper Saddle River, NJ: Pearson Prentice Hall, 2005.
DELLAERT, Frank. The Expectation Maximization Algorithm. [s.l.]: [s.n.], 2002. dává jednodušší vysvětlení EM algoritmu jako maximalizace se spodní mezí.
GUPTA, M. R.; CHEN, Y. Theory and Use of the EM Algorithm. Foundations and Trends in Signal Processing. 2010. DOI10.1561/2000000034. Dobře napsaná krátká kniha o EM včetně podrobného odvození EM pro GMMs, skryté Markovovy modely a Dirichlet.
BILMES, Jeff. A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models. [s.l.]: [s.n.], 1998. obsahuje zjednodušené odvození EM rovnice pro gaussovské Kombinace a gaussovské Kombinace skrytých Markovových Modelů.
Různé 1D, 2D a 3D ukázky EM se smíšenými modely poskytnutý jako materiál pro SOCRStatistics Online Computational Resource činnosti a aplety. Tyto aplety a aktivity ukazují empirické vlastnosti EM algoritmu pro odhad parametrů při různých nastaveních.