Bellmanova rovnice pojmenovaná podle svého autora Richarda Bellmana, je nutná podmínka optimality matematických optimalizačních metod známých jako dynamické programování.[1] Určuje „hodnotu“ rozhodovacího problému v určitém časovém okamžiku podle výplaty závislé na nějakých počátečních rozhodnutích a „hodnoty“ zbývajícího rozhodovacího problému, který vyplývá z těchto počátečních rozhodnutí. Tím se dynamický optimalizační problém rozloží na posloupnost jednodušších podproblémů, jak popisuje „Bellmanův princip optimality“.[2]
Bellmanova rovnice byla nejdříve aplikována na inženýrskou teorii řízení a různé obory užité matematiky, poté se stala důležitým nástrojem v ekonomické teorii; základní koncepty dynamického programování jsou však popsány již v pracích Theory of Games and Economic Behavior Johna von Neumanna a Oskara Morgensterna a Sequential analysis Abrahama Walda.
Téměř jakýkoli problém, který lze vyřešit pomocí teorie optimálního řízení může také být vyřešený analýzou určité Bellmanovy rovnice. Termín 'Bellmanova rovnice' se obvykle používá pro rovnici dynamického programování popisující optimalizační problém v diskrétním čase[3]. Analogickou roli pro optimalizační problémy ve spojitém čase hraje parciální diferenciální rovnice, která se obvykle nazývá Hamiltonova–Jacobiho–Bellmanova rovnice[4][5].
Pro pochopení Bellmanovy rovnice je třeba znát několik základních pojmů. Prvním z nich je, že každý optimalizační problém má určitý cíl, jímž může být minimalizace doby trvání cesty, minimalizace ceny, maximalizace zisku, maximalizace užitku, atd. Matematické funkce, která popisuje tento cíl, se nazývá účelová funkce (anglicky objective function).
Dynamické programování rozkládá několikaetapové rozhodovací procesy na řadu postupných rozhodnutí. Proto je třeba sledovat, jak rozhodnutí učiněné v určitém okamžiku ovlivní další situaci. Informace o aktuální situaci, které jsou nutné pro optimální rozhodnutí, se nazývají „stav“[6][7]. Například pro rozhodnutí, jaké množství určitého statku (prostředku, majetku) spotřebovat a jaké vynaložit v dané časové etapě, je potřeba znát (mimo jiné) i počáteční množství majetku. Proto majetek bude jedna ze stavových proměnných, ale pravděpodobně budou existovat i další stavové proměnné.
Proměnné, které popisují, jaké rozhodnutí bylo učiněno v určité časové etapě, se obvykle nazývají řídicí proměnné. Je-li například dán výchozí majetek určité osoby, může se tato osoba rozhodovat, jak velkou jeho část v aktuální etapě spotřebovat. Volba hodnoty řídicí proměnné ovlivňuje budoucí stav; obecně však může být další stav ovlivněn i jinými faktory než aktuální hodnotou řídicí proměnné. Například v nejjednodušším případě dnešní majetek (stav) a spotřeba (hodnota řídicí proměnné) může jednoznačně určovat zítřejší majetek (nový stav), i když typicky budou zítřejší majetek ovlivňovat i jiné faktory (např. neočekávané bonusy nebo přírodní katastrofy).
Dynamické programování popisuje optimální plán hledáním pravidla, které říká, jaké mají být hodnoty řídicích proměnných v každé etapě pro libovolnou hodnotu stavu. Pokud například spotřeba (c) závisí pouze na majetku (W), hledáme pravidlo , které dává spotřebu jako funkci majetku. Takové pravidlo, které určuje hodnotu řídicí proměnné jako funkce stavů, se nazývá řídicí funkce (anglicky policy function, viz Bellman, 1957, Ch. III.2)[6].
Podle definice je optimální rozhodovací pravidlo takové, které zajišťuje nejlepší možnou hodnotu účelové funkce. Pokud například někdo zvolí jako cíl maximalizaci spotřeby při daném majetku, aby maximalizoval spokojenost (za předpokladu, že spokojenost H lze reprezentovat matematickou funkcí, jako je užitková funkce, a že spokojenost je něco definované majetkem), pak každá úroveň majetku bude spojena s nějakou nejvyšší možnou úrovní spokojenosti, . Nejlepší možná hodnota účelové funkce, zapsaná jako funkce stavu, se nazývá hodnotová funkce (anglicky value function).
Richard Bellman ukázal, že dynamický optimalizační problém v diskrétním čase lze vyjádřit v rekurzivním tvaru známém jako zpětná indukce, který vyjadřuje vztah mezi hodnotou optimálního řešení úlohy v jedné etapě a její hodnotou v následující etapě. Vztah mezi těmito dvěma hodnotami hodnotové funkce se nazývá „Bellmanova rovnice“. Optimální strategie v poslední časové etapě je u tohoto přístupu zadaná předem jako funkce hodnoty stavové proměnné v této etapě; výsledná optimální hodnota účelové funkce je tedy vyjádřena pomocí této hodnoty stavové proměnné. Optimalizace pro následující etapu znamená maximalizaci součtu aktuální hodnoty účelové funkce a optimální hodnoty budoucí účelové funkce, což dává kontingenci optimální strategie pro tuto etapu v závislosti na hodnotě stavové proměnné jakožto rozhodnutí v následujících etapách. S touto logikou pokračujeme rekurzivně zpět v čase až k odvození rozhodovacího pravidla pro první etapu jako funkce počáteční hodnoty stavové proměnné optimalizací sumy účelové funkce pro první etapu a hodnoty hodnotové funkce pro druhou etapu, která určuje hodnotu pro všechny budoucí etapy. Rozhodnutí pro každou etapu se tedy provádí na základě předpokladu, že také všechna budoucí rozhodnutí budou optimální.
Stav v čase budeme značit . Počáteční stav pro rozhodnutí učiněné v čase 0 je tedy . Množina akcí možných v libovolném čase závisí na okamžitém stavu; což můžeme psát jako , kde akce reprezentuje jednu nebo více řídicích proměnných. Také předpokládáme, že se provedením akce stav změní z do nového stavu , a že současná výplata z provedení akce ve stavu je . Míra netrpělivosti je reprezentována diskontním faktorem .
Rozhodovací problém s nekonečným časovým horizontem má za těchto předpokladů následující tvar:
při platnosti omezení
označuje optimální hodnotu, kterou lze získat maximalizací účelové funkce při platnosti uvedených omezení. Tato funkce je hodnotová funkce. Je funkcí počáteční stavové proměnné , protože nejlepší hodnota, kterou lze získat, závisí na počáteční situaci.
Metoda dynamického programování rozkládá rozhodovací problém na menší podproblémy. Richard Bellman zformuloval princip optimality, který popisuje, jak rozklad provést:
Princip optimality: Optimální strategie má tu vlastnost, že ať je počáteční stav a počáteční rozhodnutí jakékoli, zbývající rozhodnutí musí tvořit optimální strategii pro stav, který je výsledkem prvního rozhodnutí. (Viz Bellman, 1957, Chap. III.3.)[6][7][8]
O problému, který lze takto rozdělit na podproblémy, říkáme v matematické informatice, že má optimální podstrukturu. V kontextu dynamické teorie her je tento princip obdobou konceptu dokonalé rovnováhy podhry, i když to, z čeho se skládá optimální strategie, je v tomto případě podmíněné výběrem optimální (z pohledu protivníků) strategie protivníků.
V souladu s principem optimality budeme uvažovat první rozhodnutí odděleně, bez uvažování všech budoucích rozhodnutí (která začínají etapou 1 ve výchozím stavu ). Budoucí rozhodnutí jsou shrnuta v hranatých závorkách. Předchozí problém je ekvivalentní s:
při platnosti omezení
Zde volíme , protože víme, že naše rozhodnutí povede do stavu 1, tj. . Tento nový stav pak bude ovlivňovat rozhodovací problém od času 1 dále. Celý budoucí rozhodovací problém se objevuje v hranatých závorkách vpravo.
Zdá se, že oddělením aktuálního rozhodnutí od budoucích rozhodnutí jsme problém pouze zkomplikovali. Pokud si však všimneme, že výraz v hranatých závorkách vpravo je hodnota rozhodovacího problému v čase 1, začínající ze stavu , můžeme rovnici přepsat jako rekurzivní definici hodnotové funkce:
Tento tvar nazýváme Bellmanova rovnice. Rovnici můžeme dále zjednodušit vypuštěním časových indexů a použitím hodnoty dalšího stavu:
Je zřejmé, že Bellmanova rovnice je funkcionální rovnicí, protože jejím řešením je funkce V, která je hodnotová funkce. Hodnotová funkce tedy popisuje nejlepší možnou hodnotu účelové funkce jako funkci stavu x. Při výpočtu hodnotové funkce zjistíme také funkci a(x), která popisuje optimální akci jako funkci stavu; tato funkce se nazývá řídicí funkce.
V deterministickém prostředí lze pro řešení výše uvedeného problému optimálního řízení použít i jiné techniky než dynamické programování. V případě stochastických problémů optimálního řízení je však Bellmanova rovnice obvykle nejpohodlnější metodou jejich řešení.
Pro konkrétní příklad z ekonomie uvažujme spotřebitele žijícího nekonečnou dobu s počátečním majetkem v čase . Spotřebitel má okamžitou užitkovou funkci , kde označuje spotřebu a diskontování užitku v další periodě má velikost . Předpokládejme, že to, co není spotřebováno v čase , se přenáší do další etapy s úrokovou sazbou . Pak problém maximalizace užitku spotřebitele znamená vybrat takový plán spotřeby , který maximalizuje
za následujících omezení:
a
První omezení vyjadřuje akumulaci kapitálu popsanou v zadání problému, druhým omezením je podmínka transverzality, která říká, že spotřebitel nesmí mít na konci svého života dluh. Bellmanova rovnice této úlohy je
Problém posloupnosti můžeme řešit také přímo, například pomocí Hamiltonových rovnic.
Jestliže se úrokové sazby v jednotlivých etapách mění, musí spotřebitel řešit stochastický optimalizační problém. Pokud budeme změny sazby r považovat za Markovův proces s funkcí přechodu pravděpodobnosti , kde označuje pravděpodobnostní míru řídící výši úrokové sazby v další etapě, je-li současná úroková sazba je . V tomto modelu spotřebitel rozhoduje o své spotřebě v příští etapě po ohlášení úrokové sazby pro tuto etapu.
Místo výběru jediné posloupnosti musí spotřebitel nyní zvolit posloupnost pro každou možnou realizaci takovým způsobem, aby maximalizoval očekávaný užitek pro dobu svého života:
Očekávání se bere vzhledem k vhodné pravděpodobnostní míře dané Q na posloupnosti r. Protože r je řízeno Markovovým procesem, dynamické programování problém výrazně zjednodušuje. Bellmanova rovnice pak má jednoduchý tvar
Za určitého rozumného předpokladu je výsledná optimální řídicí funkce g(a,r) měřitelná.
Pro obecný stochastický sekvenční optimalizační problém s Markovskými změnami, v němž je agent konfrontován se svými rozhodnutími ex-post, přejde Bellmanova rovnice na velmi podobný tvar
První známá aplikace Bellmanovy rovnice v ekonomii se přičítá Martinu Beckmannovi a Richardu Muthovi.[14] Martin Beckmann ve svém článku z roku 1959 podrobně popsal teorii spotřeby pomocí Bellmanovy rovnice.[15] Jeho dílo mimo jiné ovlivnilo Edmunda S. Phelpse.
Dobře známou ekonomickou aplikací Bellmanovy rovnice je podnětný článek Roberta C. Mertona z roku 1973 o intertemporálním modelu oceňování kapitálových aktiv.[16] (Viz také Mertonův problém portfolia). Řešení Mertonova teoretického modelu, kdy investoři volí mezi příjmem současným a budoucím a kapitálovými zisky, má tvar Bellmanovy rovnice. Protože při aplikaci dynamického programování na ekonomii má Bellmanova rovnice tvar diferenční rovnice, používají ekonomové pro dynamické programování obvykle název „rekurzivní metoda“ a příslušný podobor ekonomie se nazývá rekurzivní ekonomie.
Nancy Stokey, Robert E. Lucas a Edward C. Prescott popsali velmi detailně stochastické a nestochastické dynamické programování a zformulovali věty pro existenci řešení problémů, které splňují určité podmínky. Popsali také mnoho příkladů modelování teoretických problémů v ekonomii pomocí rekurzivních metod.[17] Díky jejich knize se dynamické programování používá pro řešení nejrůznějších teoretických problémů v ekonomii, včetně optimálního ekonomického růstu, získávání prostředků, problému ředitel-agent, veřejných financí, obchodních investic, oceňování majetku, faktorů zásob a průmyslové organizace. Lars Ljungqvist a Thomas Sargent aplikovali dynamické programování na studium mnoha teoretických otázek v monetární politice, fiskální politice, zdaňování, hospodářském růstu, teorii vyhledávání a v ekonomii práce.[18] Avinash Dixit a Robert Pindyck ukázali význam metody pro rozvahy v oblasti kapitálového rozpočtování.[19] Anderson upravil tuto techniku pro ohodnocování firem, včetně soukromých.[20]
Používání dynamického programování pro řešení konkrétních problémů komplikují informační potíže, jako například problém nezjistitelnosti diskontního faktoru. Existují také výpočetní problémy, z nichž hlavní je prokletí dimenzionality způsobené obrovským množstvím možných akcí a hodnot stavových proměnných, které musí být uvažovány pro výběr optimální strategie. Výpočetní problémy podrobně diskutuje Miranda a Fackler,[21] a Meyn 2007.[22]
V Markovových rozhodovacích procesech je Bellmanova rovnice rekurzivním vztahem pro očekávaný výnos. Například pro očekávaný výnos při použití nějaké pevné strategie ve stavu s má Bellmanova rovnice tvar:
a popisuje očekávaný výnos provedení akce předepsané nějakou strategií .
Rovnice pro optimální strategii se nazývá Bellmanova rovnice optimality:
kde je optimální strategie a znamená hodnotovou funkci optimální strategie. Výše uvedená rovnice popisuje výnos z provedení akce, která dává nejvyšší očekávaný výnos.
V tomto článku byl použit překlad textu z článku Bellman equation na anglické Wikipedii.