Обирання дії — спосіб охарактеризувати найголовнішу проблему інтелектуальних систем: що робити далі. У штучному інтелекті та обчислювальній когнітивній науці «проблема вибору дії» зазвичай асоціюється із інтелектуальними агентами та аніматами[en] — штучними системами, які демонструють складну поведінку в середовищі агента. Термін також іноді використовується в етології або поведінці тварин.
Однією з проблем для розуміння вибору дії є визначення рівня абстракції, що використовується для визначення того, що саме є «дією». На самому базовому рівні абстракції атомна дія може бути будь-чим, від скорочення м'язової клітини до провокування війни. Зазвичай для будь-якого механізму вибору дії заздалегідь визначений і зафіксовано набір можливих дій.
Більшість дослідників, які працюють у цій галузі, висувають високі вимоги до своїх агентів:
З цих причин вибір дій не є тривіальним і привертає увагу багатьох дослідників.
Основною проблемою вибору дії є складність. Оскільки всі обчислення потребують часу і простору (у пам'яті), тому агенти, зазвичай, не можуть розглянути всі доступні їм варіанти для кожного моменту часу. Отже, вони повинні бути упереджені, і певним чином обмежувати свій пошук. Для штучного інтелекту (ШІ) питання вибору дій полягає в тому, яким найкращим чином можна обмежити цей пошук? Для біології та етології виникає питання як різні види тварин обмежують свій пошук? Чи всі тварини використовують однакові підходи? Чому вони використовують саме ті, що обрали?
Одне з фундаментальних питань щодо вибору дії полягає в тому, чи це справді проблема для агента, чи це просто опис властивості емерджентної поведінки розумного агента. Однак, якщо ми замислимося, як ми збираємося створити розумного агента, то стане очевидним, що має бути деякий спосіб вибору дій. Цей спосіб може бути дуже поширеним (як у випадку розподілених організмів, таких як колонії соціальних комах або слимаків), або це може бути модуль спеціального призначення.
Метод вибору дії (МВД) визначає не тільки дії агента з точки зору впливу на світ, але й спрямовує його перцептивну увагу та оновлює його пам'ять. Ці егоцентричні дії можуть, у свою чергу, призвести до зміни основних поведінкових здібностей агента, зокрема в тому, що оновлення пам'яті передбачає можливу певну форму машинного навчання. В ідеалі сам вибір дії також має бути здатним навчатися та адаптуватися, але існує багато проблем із комбінаторною складністю та трактуванням обчислень, які можуть вимагати обмеження простору пошуку для навчання.
У ШІ МВД також іноді або називають архітектурою агента[en], або вважають його істотною частиною.
Як правило, механізми штучного вибору дій можна розділити на декілька категорій: символьні системи, іноді відомі як системи класичного планування, системи розподіленого планування, і реактивне або динамічне планування[en]. Деякі підходи не підпадають під жодну з цих категорій. В інших насправді більше йдеться мова про надання наукової моделі, ніж практичне керування ШІ; останні описані далі в наступному розділі.
На початку історії штучного інтелекту передбачалося, що найкращим способом для агента вибрати, що робити далі, був би пошук оптимального рішення, а потім його виконання. Це призвело до гіпотези системи фізичних символів, що фізичний агент, який може маніпулювати символами, є необхідним і достатнім для створення інтелекту. Багато програмних агентів досі використовують цей підхід для вибору дій. Зазвичай це вимагає опису всіх показань датчиків, оточення, всіх дій і всіх цілей у певній формі логіки предикатів. Критики цього підходу скаржаться, що він є занадто повільним для пошуку рішення в реальному часі і що, незважаючи на докази, він все ще навряд чи зможе знайти оптимальне рішення, оскільки зведення описів реальності до логіки є процесом, схильним до помилок.
Задовільна стратегія — це стратегія прийняття рішень, яка намагається задовольнити критерії адекватності, а не визначати оптимальне рішення. Задовільна стратегія часто насправді може бути майже оптимальною, якщо витрати на сам процес прийняття рішень, такі як вартість отримання повної інформації, враховуються в обчисленні результатів.
Архітектури, орієнтовані на досягнення мети — у цих символьних архітектурах поведінка агента зазвичай описується набором цілей. Кожна мета може бути досягнута за допомогою процесу або діяльності, яка описується встановленим планом. Агент повинен просто вирішити, який процес продовжити для досягнення поставленої мети. Рішення може розширюватися до підцілей, що робить процес рекурсивним. Технічно, більш-менш, плани використовують умовні правила. Ці архітектури бувають реактивні[en] або гібридні. Класичними прикладами архітектур, орієнтованих на цілі, є реалізовані вдосконалення архітектури переконань-бажань-та-намірів, як-от JAM або IVE.
На відміну від символьного підходу, розподілені системи вибору дій фактично не мають жодного «ящику» в агенті, який вибирає наступну дію. Принаймні в їх ідеалізованій формі розподілені системи мають багато модулів, що працюють паралельно і вибирають найкращі дії на основі локального досвіду. Очікується, що в цих ідеалізованих системах загальна узгодженість виникне якимось чином, можливо, завдяки ретельній розробці взаємодіючих компонентів. Цей підхід часто надихається дослідженнями штучних нейронних мереж. На практиці майже завжди існує «деяка» централізована система, яка визначає, який модуль є «найактивнішим» або є найбільш помітним. Є докази, що біологічний мозок також має функції[en], які оцінюють, яка з конкуруючих систем заслуговує найбільше уваги, або, точніше, має більшу розгальмованість[en] при виборі дій.
Оскільки чисто розподілені системи важко побудувати, багато дослідників звернулися до використання чітко запрограмованих планів для визначення пріоритетів своєї системи.
Динамічні або реактивні[en] методи планування обчислюють лише одну наступну дію в кожну мить на основі поточного контексту та заздалегідь прописаних планів. На відміну від класичних методів планування, реактивні або динамічні підходи не страждають від комбінаторного вибуху. З іншого боку, іноді вони вважаються занадто жорсткими, щоб вважати їх сильним ШІ, оскільки плани закодовані заздалегідь. У той же час природний інтелект може бути жорстким в деяких контекстах, хоча він плинний і здатний до адаптації.
Приклади механізмів динамічного планування включають:
Іноді, щоб спробувати позбавитись негнучкості динамічного планування, використовуються гібридні методи. У них більш традиційна система планування ШІ шукає нові плани, коли агент має вільний час, і оновлює бібліотеку динамічних планів, коли знаходить оптимальні рішення. Важливим аспектом будь-якої такої системи є те, що коли агенту потрібно вибрати дію, існує деяке рішення, яке можна застосувати негайно (див. далі anytime algorithm[en]).
Ця стаття потребує уваги й турботи фахівця у своїй галузі. (січень 2022) |
Багато динамічних моделей штучного вибору дій спочатку були натхненні дослідженнями з етології. Зокрема, Конрад Лоренц і Ніколас Тінберген надали ідею вродженого механізму вивільнення[en] для пояснення інстинктивної поведінки (фіксована дія[en]). Під впливом ідей В. Макдугалла, Лоренц розвинув це в психогідравлічну модель мотивації поведінки. В етології ці ідеї мали вплив у 1960-х роках, але тепер вони вважаються застарілими через використання в них метафори потоку енергії[en]; нервова система і контроль поведінки зараз зазвичай розглядаються як передача інформації, а не потік енергії. Динамічні плани та нейронні мережі більше схожі на передачу інформації, тоді як розповсюджена активація більше схожа на дифузний контроль емоційних або гормональних систем.
Стен Франклін[en] припустив, що вибір дій є правильною точкою зору для розуміння ролі та еволюції розуму. Дивіться його сторінку про парадигму вибору дій.
Деякі дослідники створюють складні моделі вибору нейронних дій. Дивіться, наприклад: