شناخت عواطف فرایند شناسایی عواطف انسانی است. دقت افراد در تشخیص احساسات دیگران، معمولاً بسیار متفاوت است. استفاده از فناوری برای کمک به افراد در حوزهٔ تشخیص احساسات، یک حوزه تحقیقاتی نسبتاً نوپا است. بهطور کلی، این فناوری در صورتی که از روشهای چندوجهی در پردازش دادهها استفاده کند، بسیار کارآمد خواهد بود. تا به امروز، بیشترین کار روی تشخیص خودکار حالات چهره از دادهٔ تصویری، عبارات گفتاری از دادههای صوتی، عبارات نوشتاری از دادههای متنی، و فیزیولوژی که توسط ابزارهای پوشیدنی اندازهگیری میشود، انجام شدهاست.
انسانها انعطاف زیادی در تواناییهای خود برای تشخیص عواطف نشان میدهند. نکته کلیدی که هنگام یادگیری در مورد تشخیص خودکار عواطف باید به خاطر داشت این است که چندین منبع "حقیقت پایه" یا حقیقت در مورد اینکه عواطف واقعی چیست، وجود دارد. فرض کنید سعی داریم که احساسات فردی به نام الکس را شناسایی کنیم. یک منبع این است که "بیشتر مردم چه میگویند در مورد این که الکس چه احساسی دارد؟" در این مورد، "حقیقت" ممکن است با آنچه الکس احساس میکند منطبق نباشد، اما ممکن است با آن عواطفی که اکثر مردم میگویند که به نظر میرسد الکس آنها را احساس میکند، مطابقت داشته باشد. به عنوان مثال، الکس ممکن است واقعاً احساس غمگینی کند، اما در ظاهر لبخند بزرگی میزند، درنتیجه اکثر مردم میگویند که او خوشحال به نظر میرسد. اگر یک روش خودکار به نتایجی یکسان با گروهی از ناظران دست یابد، ممکن است آن روش، روش دقیقی به حساب بیاید، حتی اگر واقعاً آنچه را که الکس واقعاً احساس میکند اندازهگیری نکند. منبع دیگر برای «حقیقت» این است که از خود الکس بپرسید که واقعاً چه احساسی دارد. این منبع هنگامی کارا است که الکس درک خوبی از وضعیت درونی خود داشته باشد و بخواهد که به شما بگوید که آن وضعیت درونیاش چیست، و همچنین توانایی بیان دقیق آن وضعیت درونی را با کلمات یا یک عدد داشته باشد. با این حال، برخی از افراد دارای نارسایی هیجانی هستند (افراد دارای نارسایی هیجانی، افرادی هستند که از بیان احساسات و عواطف خود عاجزند) و درک خوبی از احساسات درونی خود ندارند، یا با استفاده کلمات و اعداد، قادر به برقراری یک ارتباط دقیق با این احساسات درونی نیستند. بهطور کلی، دستیابی به این حقیقت که واقعاً عواطف چه چیزی را بیان میکنند، نیاز به تحقیقات بیشتری دارد، و بسته به انتخاب شاخصها، چگونگی این تحقیقات میتواند متفاوت باشد و معمولاً مستلزم درنظر گرفتن مقداری از عدم قطعیت است.
رویکردهای موجود در تشخیص احساسات برای طبقهبندی کردن انواع خاص عواطف را میتوان بهطور کلی به سه دسته اصلی طبقهبندی کرد: تکنیکهای مبتنی بر دانش، روشهای آماری و رویکردهای ترکیبی.[۸]
تکنیکهای مبتنی بر دانش (که گاهی به عنوان تکنیکهای مبتنی بر واژگان شناخته میشوند)، از دانش حوزه و ویژگیهای معنایی و نحوی زبان برای تشخیص انواع خاص احساسات استفاده میکنند.[نیازمند منبع] در این رویکرد، استفاده از منابع مبتنی بر دانش در طول فرایند طبقهبندی احساسات، مانند WordNet , SenticNet,[۹]ConceptNet و EmotiNet,[۱۰] رایج است.[۱۱] یکی از مزایای این رویکرد، دسترسی و صرفه اقتصادیای است که به سبب دسترسی زیاد به چنین منابع مبتنی بر دانش، به ارمغان آمدهاست.[۸] از سوی دیگر، یک محدودیت این تکنیک، ناتوانی آن در رسیدگی به مفاهیم ظریف و قوانین پیچیده زبانی است.[۸]
تکنیکهای دانش محور را میتوان عمدتاً در دو دسته، طبقهبندی کرد: رویکردهای مبتنی بر فرهنگ لغت و رویکردهای مبتنی بر پیکره.[نیازمند منبع] رویکردهای مبتنی بر فرهنگ لغت، کلمات بذر نظرات یا احساسات را در فرهنگ لغت پیدا میکنند و مترادف و متضاد آنها را جستجو میکنند تا فهرست اولیه نظرات یا احساسات را گسترش دهند.[۱۲] از سوی دیگر، رویکردهای مبتنی بر پیکره، با یک لیست اولیه از نظرات یا کلمات احساسات شروع میشوند و با یافتن کلمات دیگری با ویژگیهای زمینه خاص در یک مجموعه بزرگ، دادگان را گسترش میدهند.[۱۲] در حالی که رویکردهای مبتنی بر پیکره، زمینه را در نظر میگیرند، عملکرد آنها همچنان در حوزههای مختلف متفاوت است زیرا یک کلمه در یک حوزه میتواند جهتگیری متفاوتی در حوزهای دیگر داشته باشد.[۱۳]
روشهای آماری معمولاً شامل استفاده از الگوریتمهای مختلف یادگیری ماشین تحت نظارت است که در آن مجموعه بزرگی از دادههای مشروح به الگوریتمها وارد میشود تا سیستم یاد بگیرد و انواع احساسات مناسب را پیشبینی کند.[۸] الگوریتمهای یادگیری ماشین عموماً دقت طبقهبندی معقولتری را در مقایسه با سایر رویکردها ارائه میکنند، اما یکی از چالشهای دستیابی به نتایج خوب در فرایند طبقهبندی، نیاز به مجموعه آموزشی به اندازه کافی بزرگ است.[۸]
رویکردهای ترکیبی در تشخیص عواطف، اساساً ترکیبی از تکنیکهای مبتنی بر دانش و روشهای آماری هستند که از ویژگیهای مکمل هر دو تکنیک استفاده میکنند.[۸] برخی از آثاری که مجموعهای از عناصر زبانی دانش محور و روشهای آماری را به کار گرفتهاند، شامل محاسبات حسی و iFeel هستند، که هر دو از منابع مبتنی بر دانش SenticNet در سطح مفهومی استفاده کردهاند. نقش چنین منابع دانش بنیان در اجرای رویکردهای ترکیبی در فرایند طبقهبندی احساسات بسیار مهم است.[۱۱] از آنجایی که تکنیکهای ترکیبی از مزایای ارائه شده توسط هر دو رویکرد مبتنی بر دانش و آماری به دست میآیند، در مقایسه با استفاده از روشهای مبتنی بر دانش یا آماری بهطور مستقل، عملکرد طبقهبندی بهتری دارند.[نیازمند منبع] اما یک نقطه ضعف استفاده از تکنیکهای ترکیبی، پیچیدگی محاسباتی در طول فرایند طبقهبندی است.[۱۱]
داده بخشی جدایی ناپذیر از رویکردهای موجود در تشخیص احساسات هستند و یک چالش در اکثر موارد، به دست آوردن دادههای حاشیه نویسی است که برای آموزش الگوریتمهای یادگیری ماشین ضروری هستند. برای فرایند طبقهبندی انواع احساسات مختلف از منابع چندوجهی در قالب متون، صدا، ویدئو یا سیگنالهای فیزیولوژیکی، دادگانهای زیر موجود است:
دادگان HUMAINE: کلیپهای طبیعی را با کلمات احساسی و برچسبهای نوشتاری در چند وجه مختلف ارائه میکند
پایگاه داده بلفاست: کلیپهایی را در طیف گستردهای از احساسات از برنامههای تلویزیونی و ضبط مصاحبه ارائه میدهد[۱۸]
دادگان SEMAINE: ضبط سمعی و بصری را بین یک شخص و یک عامل مجازی فراهم میکند و حاوی حاشیه نویسی احساساتی مانند عصبانیت، خوشحالی، ترس، انزجار، غم، تحقیر و سرگرمی است[۱۹]
دادگان SEMAINE: ضبط جلسات دوتایی بین بازیگران را فراهم میکند و حاوی حاشیه نویسی احساساتی مانند شادی، خشم، غم، ناامیدی و حالت خنثی است[۲۰]
دادگان eNTERFACE: ضبطهای سمعی و بصری از سوژههایی از هفت ملیت را فراهم میکند و حاوی حاشیهنویسیهای احساساتی مانند شادی، خشم، غم، تعجب، انزجار و ترس است
دادگان MELD: یک مجموعه داده مکالمه چند جانبه است که در آن هر گفته با عواطف و احساسات برچسب گذاری میشود. MELD[۲۳] مکالمات را در قالب ویدئویی فراهم میکند و از این رو برای تشخیص احساسات چندوجهی و تجزیه و تحلیل احساسات مناسب است. MELD برای تجزیه و تحلیل احساسات چندوجهی و تشخیص احساسات، سیستمهای گفتگو و تشخیص احساسات در مکالمات مفید است.[۲۴]
دادگان MuSe: ضبط سمعی و بصری از تعاملات طبیعی بین یک فرد و یک شی را فراهم میکند.[۲۵] دارای حاشیهنویسیهای هیجانی گسسته و پیوسته از نظر ظرفیت، برانگیختگی و قابل اعتماد بودن و همچنین موضوعات گفتاری مفید برای تجزیه و تحلیل احساسات چندوجهی و تشخیص احساسات است.
دادگان UIT-VSMEC: یک مجموعه احساسی رسانه اجتماعی استاندارد ویتنامی (UIT-VSMEC) با حدود ۶۹۲۷ جمله مشروح شده توسط انسان با شش برچسب احساس است که به تحقیقات تشخیص احساسات در ویتنامی کمک میکند که یک زبان کم منابع در پردازش زبان طبیعی (NLP) است. .[۲۶]
دادگان BED: ضبطهای الکتروانسفالوگرافی (EEG) و همچنین حاشیه نویسی احساسات از نظر ظرفیت و برانگیختگی افراد در حال تماشای تصاویر را فراهم میکند. همچنین شامل ضبط الکتروانسفالوگرافی (EEG) از افرادی است که در معرض محرکهای مختلف (SSVEP، استراحت با چشمان بسته، استراحت با چشمان باز، وظایف شناختی) برای انجام وظایف بیومتریک مبتنی بر EEG هستند.[۲۷]
تشخیص احساسات به دلایل مختلفی در جامعه مورد استفاده قرار میگیرد. Affectiva که توسط MIT توسعه داده شدهاست، یک نرمافزار هوش مصنوعی را ارائه میکند که انجام کارهایی که قبلاً به صورت دستی توسط افراد انجام میشد را کارآمدتر میکند. این نرمافزار عمدتاً برای جمعآوری اطلاعات حالت چهره و حالت صوتی مربوط به زمینههای خاصی است که بینندگان رضایت دادهاند این اطلاعات را به اشتراک بگذارند. به عنوان مثال، به جای پر کردن یک نظرسنجی طولانی دربارهٔ احساس شما در هر مرحله از تماشای یک فیلم آموزشی یا یک تبلیغات، میتوانید موافقت کنید که یک دوربین چهره شما را تماشا کند و به آنچه میگویید گوش فرا دهد، و توجه کند که در چه بخشهایی از تجربه، شما حالاتی مانند خستگی، علاقهمندی، سردرگمی یا لبخند زدن را نشان میدهید. (توجه داشته باشید که این به معنای خواندن احساسات درونی شما نیست - بلکه فقط آنچه را که شما به صورت ظاهری بیان میکنید میخواند) از دیگر کاربردهای نرمافزار Affectiva میتوان به کمک به کودکان مبتلا به اوتیسم، کمک به افراد نابینا برای خواندن حالات چهره، کمک به روباتها برای تعامل هوشمندانهتر با مردم و نظارت بر علائم هشدار هنگام رانندگی به منظور افزایش ایمنی راننده اشاره کرد.[۲۸]
اسنپ چت در سال ۲۰۱۵ یک ثبت اختراع انجام داد. این اختراع، روشی را برای استخراج دادههای مربوط به جمعیت در رویدادهای عمومی، با اجرای الگوریتمی شناسایی احساسات بر روی سلفیهای برچسب جغرافیاییدار کاربران شرح میدهد.[۲۹]
Emotient یک شرکت استارتاپی بود که از تشخیص احساسات برای خواندن اخمها، لبخندها و سایر حالات روی صورت، یعنی هوش مصنوعی برای پیشبینی «نگرشها و اعمال بر اساس حالات چهره» استفاده میکرد.[۳۰]اپل در سال ۲۰۱۶ Emotient را خرید و از فناوری تشخیص احساسات برای افزایش هوش هیجانی محصولات خود استفاده میکند.[۳۰]
nViso تشخیص احساسات بیدرنگ را برای برنامههای وب و تلفنهمراه از طریق یک API بیدرنگ فراهم میکند.[۳۱] Visage Technologies AB تخمین احساسات را به عنوان بخشی از Visage SDK خود، برای بازاریابی و تحقیقات علمی و اهداف مشابه ارائه میدهد.[۳۲]
Eyeris یک شرکت تشخیص احساسات است که برای ادغام نرمافزار تجزیه و تحلیل چهره و شناسایی احساسات خود، با سازندگان سیستمهای تعبیه شده از جمله خودروسازان و شرکتهای رباتیکی (ساخت رباتهای) اجتماعی کار میکند، همچنین این شرکت با سازندگان محتوای ویدیویی هم همکاری دارد، به اینصورت که به آنها کمک میکند اثربخشی درک شده از خلاقیت ویدیویی کوتاه و بلند خود را اندازهگیری کنند.[۳۳][۳۴]
همچنین بسیاری از محصولات برای جمعآوری اطلاعات از احساسات مخابره شدهٔ برخط، از جمله از طریق فشار دادن دکمه «پسندیدم» و از طریق تعداد عبارات مثبت و منفی موجود در متن وجود دارند. همچنین تشخیص تأثیر در برخی از انواع بازیها و واقعیت مجازی، هم برای اهداف آموزشی و هم برای این هدف که به بازیکنان کنترل طبیعی بیشتری بر روی آواتارهای اجتماعی خود بدهد، بهطور فزایندهای استفاده میشود.[نیازمند منبع]
تشخیص احساسات چنانچه به صورت اعمال چندین روش با ترکیب اشیاء مختلف، از جمله متن (مکالمه)، صدا، ویدیو و فیزیولوژی باشد، احتمالاً بهترین نتیجه را در شناسایی احساسات به دست میدهد.
دادههای متنی هنگامی که در همه جای زندگی انسان در دسترس و رایگان باشند، یک هدف تحقیقاتی مطلوب برای تشخیص احساسات است. در مقایسه با انواع دیگر دادهها، ذخیرهسازی دادههای متنی، به دلیل تکرار مکرر کلمات و کاراکترها در زبانها، کم حجمتر است و فشردهسازی آن آسان است. احساسات را میتوان از دو گونه اساسی متنی استخراج کرد: متون نوشتاری و متون مکالمه (دیالوگها).[۳۵] برای متون نوشتاری، بسیاری از محققان بر روی کار در سطح جمله برای استخراج «کلمات/عبارات» معرف احساسات تمرکز میکنند.[۳۶][۳۷]
تشخیص احساسات در مکالمه (ERC) نظرات بین شرکتکنندگان را از دادههای عظیم مکالمهای در پلتفرمهای اجتماعی، مانند فیسبوک، توییتر، یوتیوب و دیگران استخراج میکند.[۲۴] تشخیص احساسات در مکالمه میتواند دادههای ورودی مانند متن، صدا، ویدئو یا یک فرم ترکیبی را برای تشخیص چندین احساس مانند ترس، شهوت، درد و لذت دریافت کند.
↑Hari Krishna Vydana, P. Phani Kumar, K. Sri Rama Krishna and Anil Kumar Vuppala. "Improved emotion recognition using GMM-UBMs". 2015 International Conference on Signal Processing and Communication Engineering Systems
↑Caridakis, George; Castellano, Ginevra; Kessous, Loic; Raouzaiou, Amaryllis; Malatesta, Lori; Asteriadis, Stelios; Karpouzis, Kostas (19 September 2007). Multimodal emotion recognition from expressive faces, body gestures and speech. IFIP the International Federation for Information Processing (به انگلیسی). Vol. 247. pp. 375–388. doi:10.1007/978-0-387-74161-1_41. ISBN978-0-387-74160-4.
↑Hemmatian, Fatemeh; Sohrabi, Mohammad Karim (18 December 2017). "A survey on classification techniques for opinion mining and sentiment analysis". Artificial Intelligence Review. 52 (3): 1495–1545. doi:10.1007/s10462-017-9599-6.
↑ ۱۴٫۰۱۴٫۱۱۴٫۲Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
↑Majumder, Navonil; Poria, Soujanya; Gelbukh, Alexander; Cambria, Erik (March 2017). "Deep Learning-Based Document Modeling for Personality Detection from Text". IEEE Intelligent Systems. 32 (2): 74–79. doi:10.1109/MIS.2017.23.
↑Mahendhiran, P. D.; Kannimuthu, S. (May 2018). "Deep Learning Techniques for Polarity Classification in Multimodal Sentiment Analysis". International Journal of Information Technology & Decision Making. 17 (3): 883–910. doi:10.1142/S0219622018500128.
↑Yu, Hongliang; Gui, Liangke; Madaio, Michael; Ogan, Amy; Cassell, Justine; Morency, Louis-Philippe (23 October 2017). Temporally Selective Attention Model for Social and Affective State Recognition in Multimedia Content. MM '17. ACM. pp. 1743–1751. doi:10.1145/3123266.3123413. ISBN978-1-4503-4906-2. S2CID3148578.
↑Poria, Soujanya; Hazarika, Devamanyu; Majumder, Navonil; Naik, Gautam; Cambria, Erik; Mihalcea, Rada (2019). "MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations". Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics: 527–536. arXiv:1810.02508. doi:10.18653/v1/p19-1050.
↑Stappen, Lukas; Schuller, Björn; Lefter, Iulia; Cambria, Erik; Kompatsiaris, Ioannis (2020). "Summary of MuSe 2020: Multimodal Sentiment Analysis, Emotion-target Engagement and Trustworthiness Detection in Real-life Media". Proceedings of the 28th ACM International Conference on Multimedia. Seattle, PA, USA: Association for Computing Machinery: 4769–4770. arXiv:2004.14858. doi:10.1145/3394171.3421901.