Хоча класичні варіаційні задачі, такі як проблема брахістохрони, можна розв'язати за допомогою рівняння Гамільтона–Якобі–Беллмана,[8] цей метод можна застосувати до більш широкого спектру задач. Далі його можна узагальнити на стохастичні системи, у цьому випадку рівняння HJB є еліптичним диференціальним рівнянням у частинних похідних другого порядку.[9] Головним недоліком, однак, є те, що рівняння HJB допускає класичні рішення лише для достатньо гладкої функції значення, що не гарантується в більшості ситуацій. Натомість потрібне поняття в'язкісного рішення[en], в якому звичайні похідні замінюються (з заданим значенням) підпохідними.[10]
Розглянемо наступну задачу детермінованого оптимального управління за період часу :
де — скалярна функція норми втрат і є функцією, яка дає успадковану цінність[en] у кінцевому стані, — вектор стану системи, передбачається даним, і для — це вектор управління, який ми намагаємося знайти.
Система також повинна підпорядковуватися
де дає вектор, що визначає фізичну зміну вектора стану з часом.
Для цієї простої системи (нехай ), диференціальне рівняння з частинними похідними Гамільтона–Якобі–Беллмана представляє собою
залежно від термінальної умови
Невідомий скаляр у наведеному вище диференціальному рівнянні з частинними похідними є функцієї цінності Беллмана, яка представляє втрати, понесені від початку роботи в стані під час і оптимальне управління системою з тих пір і до часу .
Інтуїтивно рівняння HJB можна вивести наступним чином. Якщо є оптимальною функцією втрат на доставку (також званою «функцією цінності»), то відповідно до принципу оптимальності Річарда Беллмана, переходячи від часу t до t + dt, маємо
де позначає елементи в розкладанні Тейлора вищого порядку за одиницю у нотації з маленьким о. Тоді, якщо відняти з обох сторін, поділити на dt і знайти границю, коли dt наближається до нуля, то ми отримуємо рівняння HJB, визначене вище.
Рівняння HJB зазвичай розв'язується у зворотному напрямку в часі, починаючи з і закінчується на .
При розв'язанні на всьому просторі станів є безперервно диференційованою, рівняння HJB є необхідною та достатньою умовою оптимуму, коли кінцевий стан є необмеженим.[11] Якщо ми зможемо вирішити , то матимемо змогу знайти з нього елемент управління , що забезпечує мінімальну вартість (цінність).
Наближене динамічне програмування було введено Д. П. Берцекасом[en] та Дж. Цициклісом[en] із використанням штучних нейронних мереж (багатошарових персептронів) для апроксимації функції Беллмана в цілому.[13] Це ефективна стратегія пом'якшення для зменшення впливу розмірності шляхом заміни запам'ятовування повного відображення функцій для всієї просторової області запам'ятовуванням окремих параметрів нейронної мережі. Зокрема, для систем безперервного часу введено наближений підхід динамічного програмування, який поєднує обидва ітераційних підходи з нейронними мережами.[14] У дискретному часі було введено підхід до вирішення рівняння HJB, що поєднує ітерації значень і нейронні мережі.[15]
Крім того, було показано, що оптимізація суми квадратів[en] може дати наближений поліноміальний розв'язок рівняння Гамільтона-Якобі-Беллмана довільно добре по відношенню до норми.[16]
Ідею вирішення задачі управління шляхом застосування з подальшою розробкою стратегії оптимізації назад у часі можна узагальнити на стохастичні задачі управління. Розглянемо
де є стохастичним процесом для оптимізації та є управлінням. Спочатку використавши принцип оптимальності Беллмана, а потім розширивши за правилом Іто, можна знайти стохастичне рівняння HJB
Зауважте, що випадковість зникла. В даному випадку останнє рішення не обов'язково вирішує основну задачу, воно є лише кандидатом і потрібен додатковий перевіряючий аргумент. Цей метод широко використовується у фінансовій математиці для визначення оптимальних інвестиційних стратегій на ринку (див., наприклад, проблему портфеля Мертона[en]).
Рівняння Беллмана, аналог рівняння Гамільтона–Якобі–Беллмана з дискретним часом.
Принцип максимуму Понтрягіна, необхідна, але не достатня умова для оптимуму, шляхом максимізації гамільтоніана, але він має перевагу над HJB, оскільки його необхідно задовольнити лише на одній розглянутій траєкторії.
↑Naidu, Desineni S. (2003). The Hamilton–Jacobi–Bellman Equation. Optimal Control Systems. Boca Raton: CRC Press. с. 277–283 [p. 280]. ISBN0-8493-0892-5.
↑Kálmán, Rudolf E. (1963). The Theory of Optimal Control and the Calculus of Variations. У Bellman, Richard (ред.). Mathematical Optimization Techniques. Berkeley: University of California Press. с. 309—331. OCLC1033974.
↑Kemajou-Brown, Isabelle (2016). Brief History of Optimal Control Theory and Some Recent Developments. У Budzban, Gregory; Hughes, Harry Randolph; Schurz, Henri (ред.). Probability on Algebraic and Geometric Structures. Contemporary Mathematics. Т. 668. с. 119—130. doi:10.1090/conm/668/13400. ISBN9781470419455.
↑Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Optimal Control and Viscosity Solutions of Hamilton–Jacobi–Bellman Equations. Boston: Birkhäuser. ISBN0-8176-3640-4.
↑Bertsekas, Dimitri P. (2005). Dynamic Programming and Optimal Control. Athena Scientific.
↑Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Optimal Control and Viscosity Solutions of Hamilton-Jacobi-Bellman Equations. Boston: Birkhäuser. ISBN0-8176-3640-4.
↑Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-dynamic Programming. Athena Scientific. ISBN978-1-886529-10-6.
↑Abu-Khalaf, Murad; Lewis, Frank L. (2005). Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach. Automatica. 41 (5): 779—791. doi:10.1016/j.automatica.2004.11.034.
↑Al-Tamimi, Asma; Lewis, Frank L.; Abu-Khalaf, Murad (2008). Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics). 38 (4): 943—949. doi:10.1109/TSMCB.2008.926614. PMID18632382.
↑Jones, Morgan; Peet, Matthew (2020). Polynomial Approximation of Value Functions and Nonlinear Controller Design with Performance Bounds. arXiv:2010.06828.