Розпізнавання емоцій — це процес виявлення людських емоцій. Люди суттєво відрізняються між собою за здатністю точно розпізнавати емоції інших людей. Використання технологій, які допомагають людям з розпізнаванням емоцій, є відносно новою сферою досліджень. Як правило, технологія працює найкраще, якщо вона використовує кілька способів у різних контекстах. На сьогодні найбільша робота була проведена з автоматизації розпізнавання виразів обличчя[en] з відео, мовленнєвих виразів із аудіо, письмових виразів із тексту та фізіології, виміряної за допомогою переносних пристроїв.
Люди демонструють велику мінливість у своїх здібностях розпізнавати емоції. Ключовим моментом, який слід пам'ятати, вивчаючи автоматичне розпізнавання емоцій, є кілька джерел «фундаментальної істини» або правди про те, що таке справжня емоція. Припустимо, ми намагаємося розпізнати емоції Алекса. Одне з джерел: «Що більшість людей скаже, що відчуває Алекс?» У цьому випадку «правда» може не відповідати тому, що відчуває Алекс, але може відповідати тому, що більшість людей скаже, що виглядає так, як відчуває Алекс. Наприклад, Алекс може бути сумним, але він широко посміхається, а потім більшість людей кажуть, що він виглядає щасливим. Якщо автоматизований метод досягає тих же результатів, що й група спостерігачів, його можна вважати точним, навіть якщо він насправді не вимірює те, що Алекс справді відчуває. Інше джерело «правди» — запитати Алекса, що він насправді відчуває. Це працює, якщо Алекс добре відчуває свій внутрішній стан, хоче розповісти вам, що це таке, і вміє точно передати це словами чи цифрами. Однак деякі люди погано відчувають свої внутрішні відчуття або не можуть точно передати їх словами й цифрами. Взагалі, щоб дізнатися правду про те, яка емоція насправді присутня, може знадобитися певна робота, вона може змінюватися залежно від обраних критеріїв і зазвичай вимагає підтримки певного рівня невизначеності.
Точність розпізнавання емоцій зазвичай покращується, коли воно поєднує аналіз людських виразів із мультимодальних форм, таких як тексти, фізіологія, аудіо чи відео.[5] Різні типи емоцій виявляються завдяки інтеграції інформації з виразів обличчя, рухів тіла та жестів[en], а також мови.[6] Кажуть, що ця технологія сприяє появі так званого емоційного або емоційного Інтернету[en].[7]
Теперішні підходи до розпізнавання емоцій для класифікації певних типів емоцій можна загалом розділити на три основні категорії: методи, засновані на знаннях, статистичні методи та гібридні підходи.[8]
Техніки, засновані на знаннях (іноді їх називають методиками, заснованими на лексиці), використовують знання предметної області та семантичні та синтаксичні характеристики мови для виявлення певних типів емоцій. У цьому підході зазвичай використовуються ресурси, засновані на знаннях, під час процесу класифікації емоцій, такі як WordNet, SenticNet,[9]ConceptNet[en] і EmotiNet[10], щоб назвати лише деякі.[11] Однією з переваг цього підходу є доступність та економічність, зумовлені великою доступністю таких баз знань.[8] Обмеженням цієї техніки, з іншого боку, є її нездатність обробляти концептуальні нюанси та складні лінгвістичні правила.[8]
Методи, засновані на знаннях, можна в основному розділити на дві категорії: підходи, засновані на словнику та на основі корпусу. Підходи, засновані на словнику, знаходять у словнику початкові слова думки чи емоції та шукають їх синоніми й антоніми, щоб розширити початковий список думок чи емоцій.[12] З іншого боку, підходи, засновані на корпусі, починаються з початкового списку слів думок або емоцій і розширюють базу даних шляхом пошуку інших слів із контекстно-специфічними характеристиками у великому корпусі.[12] Хоча підходи, засновані на корпусі, враховують контекст, їх ефективність все ще різниться в різних областях, оскільки слово в одному домені може мати різну орієнтацію в іншому домені.[13]
Статистичні методи зазвичай передбачають використання різних контрольованих алгоритмів машинного навчання, в яких великий набір анотованих даних подається в алгоритми, щоб система вивчала та передбачала відповідні типи емоцій.[8] Алгоритми машинного навчання, як правило, забезпечують більш розумну точність класифікації у порівнянні іншими підходами, але однією з проблем у досягненні кращих результатів у процесі класифікації є необхідність мати достатньо великий навчальний набір.[8]
Гібридні підходи до розпізнавання емоцій, по суті, є комбінацією методів, заснованих на знаннях, і статистичних методів, які використовують додаткові характеристики обох методів.[8] Деякі з робіт, у яких застосовано сукупність керованих знаннями лінгвістичних елементів і статистичних методів, включають септичні обчислення та iFeel, обидві з яких використовують ресурс на основі знань на рівні концепції SenticNet.[18][19] Роль таких ресурсів на основі знань у реалізації гібридних підходів дуже важлива в процесі класифікації емоцій.[11] Оскільки гібридні методи отримують переваги як підходів, що ґрунтуються на знаннях, так і статистичних підходів, вони, як правило, мають кращу ефективність класифікації, ніж використання методів, заснованих на знаннях або статистичних, незалежно. Недоліком використання гібридних методів є складність обчислень під час процесу класифікації.[11]
Дані є невіддільною частиною наявних підходів до розпізнавання емоцій, і в більшості випадків отримати анотовані дані, необхідні для навчання алгоритмів машинного навчання, є складним завданням.[12] Для завдання класифікації різних типів емоцій із мультимодальних джерел у вигляді текстів, аудіо, відео чи фізіологічних сигналів доступні такі набори даних:
HUMAINE: надає природні кліпи зі словами емоцій та мітками контексту в різних модальностях[20]
База даних Белфаста: надає кліпи з широким спектром емоцій з телевізійних програм та записів інтерв'ю[21]
SEMAINE: забезпечує аудіовізуальні записи між людиною та віртуальним агентом і містить анотації емоцій, такі як гнів, щастя, страх, огида, смуток, презирство та розвага[22]
IEMOCAP: забезпечує записи діадичних сеансів між акторами та містить анотації емоцій, такі як щастя, гнів, смуток, розчарування та нейтральний стан[23]
ІНТЕРФЕЙС: забезпечує аудіовізуальні записи суб'єктів семи національностей та містить анотації емоцій, такі як щастя, гнів, смуток, здивування, огида та страх[24]
MuSe: забезпечує аудіовізуальні записи природних взаємодій між людиною та об'єктом.[29] Він має дискретні й безперервні анотації емоцій з точки зору валентності, збудження та надійності, а також теми мовлення, корисні для мультимодального аналізу настроїв[en] та розпізнавання емоцій.
UIT-VSMEC: це стандартний в'єтнамський корпус емоцій у соціальних мережах (UIT-VSMEC) з приблизно 6927 анотованими людьми речень із шістьма мітками емоцій, що сприяє дослідженню розпізнавання емоцій у в'єтнамській мові, яка є малоресурсною мовою в обробці природної мови (NLP).[30]
BED: забезпечує записи електроенцефалографії (ЕЕГ), а також анотації емоцій з точки зору валентності та збудження людей, які переглядають зображення. Він також включає записи електроенцефалографії (ЕЕГ) людей, які зазнали впливу різних подразників (SSVEP[en] , відпочинок із закритими очима, відпочинок з відкритими очима, когнітивні завдання) для завдання біометричних даних на основі ЕЕГ.[31]
Розпізнавання емоцій використовується в суспільстві з різних причин. Affectiva[en], що виникла з Массачусетського технологічного інституту, надає програмне забезпечення для штучного інтелекту, яке робить його більш ефективним для виконання завдань, які раніше виконували люди вручну, в основному для збору інформації про вираз обличчя та голос, пов'язану з конкретними контекстами, де глядачі погодилися поділитися цією інформацією. Наприклад, замість того, щоб заповнювати довге опитування про те, як ви себе почуваєте під час перегляду навчального відео чи реклами, ви можете погодитися на те, щоб камера спостерігала за вашим обличчям і слухала, що ви говорите, і відзначати, під час яких частин досвіду ви показували такі вирази, як нудьга, інтерес, розгубленість або посмішка. (Зауважте, що це не означає, що це читає ваші найпотаємніші почуття — це лише те, що ви висловлюєте зовні.) Інші види використання Affectiva[en] містять в собі допомогу дітям з аутизмом, допомогу сліпим людям читати вирази обличчя, допомогу роботам взаємодіяти більш розумно з людьми та моніторинг ознак уваги під час водіння, щоб підвищити безпеку водія.[32]
Патент, поданий Snapchat у 2015 році, описує метод вилучення даних про натовпи на публічних заходах шляхом виконання алгоритмічного розпізнавання емоцій на селфі користувачів із географічними тегами.[33]
Emotient була стартап-компанією, яка застосовувала розпізнавання емоцій до читання нахмурених, посмішок та інших виразів на обличчях, а саме штучний інтелект, щоб передбачати «ставлення та дії на основі виразів обличчя».[34]Apple купила Emotient у 2016 році і використовує технологію розпізнавання емоцій для підвищення емоційного інтелекту своїх продуктів.[34]
nViso забезпечує розпізнавання емоцій у режимі реального часу для веб та мобільних додатків через API в режимі реального часу.[35] Visage Technologies AB пропонує оцінку емоцій як частину свого Visage SDK[en] для маркетингових і наукових досліджень та подібних цілей.[36]
Eyeris — це компанія з розпізнавання емоцій, яка співпрацює з виробниками вбудованих систем, включаючи виробників автомобілів і компаній, що працюють у соціальних мережах, над інтеграцією свого програмного забезпечення для аналізу облич і розпізнавання емоцій; а також із творцями відеоконтенту, щоб допомогти їм оцінити ефективність їх короткого та довгої відеореклами.[37][38]
Також існує багато продуктів для об'єднання інформації з емоцій, переданих в Інтернеті, в тому числі за допомогою натискання кнопки «подобається» та кількості позитивних і негативних фраз у тексті, а розпізнавання афектів все частіше використовується в деяких видах ігор і віртуальної реальності, як для навчальних цілей, так і для надати гравцям більш природний контроль над своїми соціальними аватарами.
Розпізнавання емоцій, ймовірно, досягне найкращого результату, якщо застосовує кілька способів[en], поєднуючи різні об'єкти, включаючи текст (розмову), аудіо, відео та фізіологію для виявлення емоцій.
Текстові дані є сприятливим об'єктом дослідження для розпізнавання емоцій, коли вони безплатні та доступні скрізь у житті людини. У порівнянні з іншими типами даних, зберігання текстових даних легше і легко стискається до найкращої продуктивності через часте повторення слів і символів у мовах. Емоції можна витягти з двох основних текстових форм: письмових текстів і розмов (діалогів).[39] Для письмових текстів багато вчених зосереджуються на роботі з рівнем речень, щоб витягти «слова/фрази», що представляють емоції.[40][41]
Розпізнавання емоцій у розмові[en] (ERC) витягує думки між учасниками з масивних даних розмови в соціальних платформах, таких як Facebook, Twitter, YouTube та інших.[28] ERC може приймати вхідні дані, такі як текст, аудіо, відео або комбіновану форму, щоб виявити кілька емоцій, таких як страх, пожадливість, біль і задоволення.
↑Hari Krishna Vydana, P. Phani Kumar, K. Sri Rama Krishna and Anil Kumar Vuppala. «Improved emotion recognition using GMM-UBMs». 2015 International Conference on Signal Processing and Communication Engineering Systems
↑Singh, Premjeet; Saha, Goutam; Sahidullah, Md (2021). Non-linear frequency warping using constant-Q transformation for speech emotion recognition. 2021 International Conference on Computer Communication and Informatics (ICCCI). с. 1—4. arXiv:2102.04029. doi:10.1109/ICCCI50826.2021.9402569. ISBN978-1-7281-5875-4.
↑ абвMadhoushi, Zohreh; Hamdan, Abdul Razak; Zainudin, Suhaila (2015). Sentiment analysis techniques in recent works. 2015 Science and Information Conference (SAI). с. 288—291. doi:10.1109/SAI.2015.7237157. ISBN978-1-4799-8547-0.
↑Hemmatian, Fatemeh; Sohrabi, Mohammad Karim (18 грудня 2017). A survey on classification techniques for opinion mining and sentiment analysis. Artificial Intelligence Review. 52 (3): 1495—1545. doi:10.1007/s10462-017-9599-6.
↑ абвSun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). A review of natural language processing techniques for opinion mining systems. Information Fusion. 36: 10—25. doi:10.1016/j.inffus.2016.10.004.
↑Majumder, Navonil; Poria, Soujanya; Gelbukh, Alexander; Cambria, Erik (March 2017). Deep Learning-Based Document Modeling for Personality Detection from Text. IEEE Intelligent Systems. 32 (2): 74—79. doi:10.1109/MIS.2017.23.
↑Mahendhiran, P. D.; Kannimuthu, S. (May 2018). Deep Learning Techniques for Polarity Classification in Multimodal Sentiment Analysis. International Journal of Information Technology & Decision Making. 17 (3): 883—910. doi:10.1142/S0219622018500128.
↑Yu, Hongliang; Gui, Liangke; Madaio, Michael; Ogan, Amy; Cassell, Justine; Morency, Louis-Philippe (23 жовтня 2017). Temporally Selective Attention Model for Social and Affective State Recognition in Multimedia Content. MM '17. ACM. с. 1743—1751. doi:10.1145/3123266.3123413. ISBN9781450349062.
↑Araújo, Matheus; Gonçalves, Pollyanna; Cha, Meeyoung; Benevenuto, Fabrício (7 квітня 2014). iFeel: a system that compares and combines sentiment analysis methods. WWW '14 Companion. ACM. с. 75—78. doi:10.1145/2567948.2577013. ISBN9781450327459.
↑Paolo Petta, ред. (2011). Emotion-oriented systems the humaine handbook. Berlin: Springer. ISBN978-3-642-15184-2.
↑Poria, Soujanya; Hazarika, Devamanyu; Majumder, Navonil; Naik, Gautam; Cambria, Erik; Mihalcea, Rada (2019). MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics: 527—536. arXiv:1810.02508. doi:10.18653/v1/p19-1050.
↑Stappen, Lukas; Schuller, Björn; Lefter, Iulia; Cambria, Erik; Kompatsiaris, Ioannis (2020). Summary of MuSe 2020: Multimodal Sentiment Analysis, Emotion-target Engagement and Trustworthiness Detection in Real-life Media. Proceedings of the 28th ACM International Conference on Multimedia. Seattle, PA, USA: Association for Computing Machinery: 4769—4770. arXiv:2004.14858. doi:10.1145/3394171.3421901.