Обирання дії

Обирання дії — спосіб охарактеризувати найголовнішу проблему інтелектуальних систем: що робити далі. У штучному інтелекті та обчислювальній когнітивній науці «проблема вибору дії» зазвичай асоціюється із інтелектуальними агентами та аніматами[en] — штучними системами, які демонструють складну поведінку в середовищі агента. Термін також іноді використовується в етології або поведінці тварин.

Однією з проблем для розуміння вибору дії є визначення рівня абстракції, що використовується для визначення того, що саме є «дією». На самому базовому рівні абстракції атомна дія може бути будь-чим, від скорочення м'язової клітини до провокування війни. Зазвичай для будь-якого механізму вибору дії заздалегідь визначений і зафіксовано набір можливих дій.

Більшість дослідників, які працюють у цій галузі, висувають високі вимоги до своїх агентів:

  • Виконавець, як правило, повинен вибирати свою дію в динамічних і непередбачуваних середовищах.
  • Агенти зазвичай діють в режимі реального часу; тому вони мають вчасно ухвалювати рішення.
  • Агенти зазвичай створюються для виконання кількох різних задач. Ці задачі можуть конфліктувати щодо розподілу ресурсів (наприклад, чи може агент одночасно загасити пожежу та принести чашку кави?)
  • Середовище, в якому діють агенти, може передбачати наявність людей, які ускладнюють роботу агента (навмисно або намагаючись допомогти).
  • Самі агенти часто призначені для моделювання тварин або людей, чия поведінка може бути досить складною.

З цих причин вибір дій не є тривіальним і привертає увагу багатьох дослідників.

Характеристика задачі вибору дії

[ред. | ред. код]

Основною проблемою вибору дії є складність. Оскільки всі обчислення потребують часу і простору (у пам'яті), тому агенти, зазвичай, не можуть розглянути всі доступні їм варіанти для кожного моменту часу. Отже, вони повинні бути упереджені, і певним чином обмежувати свій пошук. Для штучного інтелекту (ШІ) питання вибору дій полягає в тому, яким найкращим чином можна обмежити цей пошук? Для біології та етології виникає питання як різні види тварин обмежують свій пошук? Чи всі тварини використовують однакові підходи? Чому вони використовують саме ті, що обрали?

Одне з фундаментальних питань щодо вибору дії полягає в тому, чи це справді проблема для агента, чи це просто опис властивості емерджентної поведінки розумного агента. Однак, якщо ми замислимося, як ми збираємося створити розумного агента, то стане очевидним, що має бути деякий спосіб вибору дій. Цей спосіб може бути дуже поширеним (як у випадку розподілених організмів, таких як колонії соціальних комах або слимаків), або це може бути модуль спеціального призначення.

Метод вибору дії (МВД) визначає не тільки дії агента з точки зору впливу на світ, але й спрямовує його перцептивну увагу та оновлює його пам'ять. Ці егоцентричні дії можуть, у свою чергу, призвести до зміни основних поведінкових здібностей агента, зокрема в тому, що оновлення пам'яті передбачає можливу певну форму машинного навчання. В ідеалі сам вибір дії також має бути здатним навчатися та адаптуватися, але існує багато проблем із комбінаторною складністю та трактуванням обчислень, які можуть вимагати обмеження простору пошуку для навчання.

У ШІ МВД також іноді або називають архітектурою агента[en], або вважають його істотною частиною.

Механізми ШІ

[ред. | ред. код]

Як правило, механізми штучного вибору дій можна розділити на декілька категорій: символьні системи, іноді відомі як системи класичного планування, системи розподіленого планування, і реактивне або динамічне планування[en]. Деякі підходи не підпадають під жодну з цих категорій. В інших насправді більше йдеться мова про надання наукової моделі, ніж практичне керування ШІ; останні описані далі в наступному розділі.

Символьні підходи

[ред. | ред. код]

На початку історії штучного інтелекту передбачалося, що найкращим способом для агента вибрати, що робити далі, був би пошук оптимального рішення, а потім його виконання. Це призвело до гіпотези системи фізичних символів, що фізичний агент, який може маніпулювати символами, є необхідним і достатнім для створення інтелекту. Багато програмних агентів досі використовують цей підхід для вибору дій. Зазвичай це вимагає опису всіх показань датчиків, оточення, всіх дій і всіх цілей у певній формі логіки предикатів. Критики цього підходу скаржаться, що він є занадто повільним для пошуку рішення в реальному часі і що, незважаючи на докази, він все ще навряд чи зможе знайти оптимальне рішення, оскільки зведення описів реальності до логіки є процесом, схильним до помилок.

Задовільна стратегія — це стратегія прийняття рішень, яка намагається задовольнити критерії адекватності, а не визначати оптимальне рішення. Задовільна стратегія часто насправді може бути майже оптимальною, якщо витрати на сам процес прийняття рішень, такі як вартість отримання повної інформації, враховуються в обчисленні результатів.

Архітектури, орієнтовані на досягнення мети — у цих символьних архітектурах поведінка агента зазвичай описується набором цілей. Кожна мета може бути досягнута за допомогою процесу або діяльності, яка описується встановленим планом. Агент повинен просто вирішити, який процес продовжити для досягнення поставленої мети. Рішення може розширюватися до підцілей, що робить процес рекурсивним. Технічно, більш-менш, плани використовують умовні правила. Ці архітектури бувають реактивні[en] або гібридні. Класичними прикладами архітектур, орієнтованих на цілі, є реалізовані вдосконалення архітектури переконань-бажань-та-намірів, як-от JAM або IVE.

Розподілені підходи

[ред. | ред. код]

На відміну від символьного підходу, розподілені системи вибору дій фактично не мають жодного «ящику» в агенті, який вибирає наступну дію. Принаймні в їх ідеалізованій формі розподілені системи мають багато модулів, що працюють паралельно і вибирають найкращі дії на основі локального досвіду. Очікується, що в цих ідеалізованих системах загальна узгодженість виникне якимось чином, можливо, завдяки ретельній розробці взаємодіючих компонентів. Цей підхід часто надихається дослідженнями штучних нейронних мереж. На практиці майже завжди існує «деяка» централізована система, яка визначає, який модуль є «найактивнішим» або є найбільш помітним. Є докази, що біологічний мозок також має функції[en], які оцінюють, яка з конкуруючих систем заслуговує найбільше уваги, або, точніше, має більшу розгальмованість[en] при виборі дій.

  • ASMO — це attention-архітектура, розроблена Роні Новіанто.[1] Вона організовує різні модульні розподілені процеси, які можуть використовувати власні уявлення та методи для сприйняття навколишнього середовища, обробки інформації, планування дії та вибирати дії для виконання.
  • Різні типи архітектур winner-take-all, в яких одна вибрана дія отримує повний контроль над руховою системою
  • Поширена активація, включаючи Maes Nets (ANA)
  • Extended Rosenblatt & Payton — це розповсюджена архітектура активації, розроблена Тобі Тиреллом у 1993 році. Поведінка агента зберігається у формі ієрархічної конекціоністської мережі, яку Тирелл назвав ієрархією вільного потоку. Наприклад, de Sevin & Thalmann (2005) або Kadleček (2001).
  • Інтелект заснований на поведінці[en], був відповіддю на повільну швидкість роботів із використанням символьних методів вибору дій. У цій формі окремі модулі реагують на різні стимули і генерують власні реакції. У початковій формі, при використанні архітектури підкорення[en], вони складалися з різних шарів, які могли контролювати та приглушувати вхідні та вихідні дані один одного.
  • Істоти[en] — це віртуальні домашні тварини з комп'ютерної гри, керовані адаптивною тришаровою нейронною мережею. Механізм їх роботи реактивний, оскільки мережа на кожному кроці часу визначає завдання, яке має виконати істота. Мережа добре описана в статті Grand et al. (1997) та в The Creatures Developer Resources. Див. також Creatures Wiki.

Підходи динамічного планування

[ред. | ред. код]

Оскільки чисто розподілені системи важко побудувати, багато дослідників звернулися до використання чітко запрограмованих планів для визначення пріоритетів своєї системи.

Динамічні або реактивні[en] методи планування обчислюють лише одну наступну дію в кожну мить на основі поточного контексту та заздалегідь прописаних планів. На відміну від класичних методів планування, реактивні або динамічні підходи не страждають від комбінаторного вибуху. З іншого боку, іноді вони вважаються занадто жорсткими, щоб вважати їх сильним ШІ, оскільки плани закодовані заздалегідь. У той же час природний інтелект може бути жорстким в деяких контекстах, хоча він плинний і здатний до адаптації.

Приклади механізмів динамічного планування включають:

  • Скінченні автомати. Це реактивні[en] архітектури, що використовуються переважно для агентів комп'ютерних ігор, зокрема для шутерів від першої особи, ботів або для віртуальних акторів кіно. Як правило, скінченні автомати є ієрархічними. Для конкретних прикладів ігор дивіться статтю Halo 2 bots Деміена Айсла (2005) або магістерську роботу про ботів Quake III Яна Пола ван Ваверена (2001). Для прикладу фільму див. Softimage.
  • Інші структуровані реактивні плани мають тенденцію виглядати трохи більше схожими на звичайні плани, часто із способами представлення ієрархічної та послідовної структури. Деякі, наприклад, дії процедурної системи міркувань[en] (ПСМ), використовують частковий план[en].[2] Багато архітектур агентів з середини 1990-х включали такі плани як проміжний шар, що забезпечував організацію низькорівневих модулів поведінки[en], одночасно керуючись планувальником вищого рівня в реальному часі. Хоча такий підхід передбачає сумісність з автоматизованими планувальниками, більшість структурованих реактивних планів кодуються вручну (Bryson 2001, ch. 3). Приклади структурованих реактивних планів включають систему Джеймса Фірбі RAP і Нільса Нільсена[en] Teleo-reactive plans. ПСМ, RAP і TRP більше не розробляються та не підтримуються. Ще одним досі діючим (станом на 2006 рік) нащадком цього підходу є паралельна ієрархічна система вибору дій на основі стеку (або POSH), яка є частиною системи Behavior Oriented Design, створеної Джоанною Брайсон[en].

Іноді, щоб спробувати позбавитись негнучкості динамічного планування, використовуються гібридні методи. У них більш традиційна система планування ШІ шукає нові плани, коли агент має вільний час, і оновлює бібліотеку динамічних планів, коли знаходить оптимальні рішення. Важливим аспектом будь-якої такої системи є те, що коли агенту потрібно вибрати дію, існує деяке рішення, яке можна застосувати негайно (див. далі anytime algorithm[en]).

Теорії вибору дій в природі

[ред. | ред. код]

Багато динамічних моделей штучного вибору дій спочатку були натхненні дослідженнями з етології. Зокрема, Конрад Лоренц і Ніколас Тінберген надали ідею вродженого механізму вивільнення[en] для пояснення інстинктивної поведінки (фіксована дія[en]). Під впливом ідей В. Макдугалла, Лоренц розвинув це в психогідравлічну модель мотивації поведінки. В етології ці ідеї мали вплив у 1960-х роках, але тепер вони вважаються застарілими через використання в них метафори потоку енергії[en]; нервова система і контроль поведінки зараз зазвичай розглядаються як передача інформації, а не потік енергії. Динамічні плани та нейронні мережі більше схожі на передачу інформації, тоді як розповсюджена активація більше схожа на дифузний контроль емоційних або гормональних систем.

Стен Франклін[en] припустив, що вибір дій є правильною точкою зору для розуміння ролі та еволюції розуму. Дивіться його сторінку про парадигму вибору дій.

Моделі ШІ для вибору нейронних дій

[ред. | ред. код]

Деякі дослідники створюють складні моделі вибору нейронних дій. Дивіться, наприклад:

Див. також

[ред. | ред. код]

Посилання

[ред. | ред. код]
  1. Samsonovich, A. V. «Attention in the ASMO cognitive architecture.» Biologically Inspired Cognitive Architectures (2010): 98.[недоступне посилання з 01.01.2021]
  2. Karen L. Myers. PRS-CL: A Procedural Reasoning System. Artificial Intelligence Center. SRI International. Процитовано 13 червня 2013.

Література

[ред. | ред. код]

Посилання

[ред. | ред. код]