У обробці природної мовизв'язування сутностей (англ.Entity Linking), яке також називають зв'язування іменованих сутностей (ЗІС),[1]розпізнаванняіменованих сутностей (РІС), розпізнавання і неоднозначності іменованих сутностей (РНІС) або нормалізація іменованих сутностей (НІС),[2] — це присвоєння унікальної ідентичності об'єктам (наприклад, відомим особам, місцям чи компаніям), що згадуються у тексті. Наприклад, розглянемо речення «Дніпро — річка України». Ідея полягає в тому, щоб визначити, що «Дніпро» належить до річки Дніпро, а не до Дніпро-арена чи будь-якої іншої організації, яку можна назвати «Дніпро». Зв'язування сутностей відрізняється від розпізнавання іменованих сутностей (РІС) тим, що РІС ідентифікує появу іменованої сутності в тексті, але не визначає, що саме це за сутність (див. Відмінності від інших технік).
У зв'язуванні сутностей слова, що цікавлять (імена осіб, місцеположення та компанії) відображаються з вхідного тексту до відповідних унікальних сутностей у цільовій базі знань. Слова, що представляють інтерес, називаються названими сутностями (НС), згадками або поверхневими формами. Цільова база знань залежить від передбачуваної програми, але для систем зв'язування сутностей, призначених для роботи з текстом відкритого домену, зазвичай використовують бази знань, отримані з Вікіпедії (наприклад, Wikidata або DBpedia).[3] У цьому випадку кожна окрема сторінка Вікіпедії розглядається як окрема сутність. Методи зв'язування сутностей, які відображають іменовані сутності до сутностей Вікіпедії, також називають вікіфікацією.[4]
Знову розглянувши приклад речення «Дніпро — річка України», очікуваним результатом системи зв'язування об'єктів буде Дніпро і річка України. Ці уніфіковані локатори ресурсів (URL) можна використовувати як унікальні уніфіковані ідентифікатори ресурсів (URI) для сутностей у базі знань. Використання іншої бази знань повертає різні URI, але для баз знань, створених із Вікіпедії, існують індивідуальні відображення URI.[5]
У більшості випадків бази знань створюються вручну,[6] але в програмах, де доступні великі корпуси текстів, базу знань можна вивести автоматично з доступного тексту.[7]
Зв'язування сутностей — це важливий крок для з'єднання вебданих з базами знань, що корисно для коментування величезної кількості необроблених і часто зашумлених даних в Інтернеті та сприяє баченню семантичної павутини.[8] На додаток до зв'язування сутностей, існують інші важливі кроки, включаючи виділення подій[9] та зв'язування подій[10], тощо.
Зв'язування сутностей корисно в областях, яким потрібно витягувати абстрактні уявлення з тексту, наприклад, як в аналізі тексту, рекомендаційних системах, семантичному пошуку та чат-ботах. У всіх цих областях поняття, що мають відношення до пошукового запиту, відокремлені від тексту та інших даних, що не мають сенсу.[11][12]
Наприклад, звичайне завдання, яке виконують пошукові системи, — це знайти документи, подібні до введених, або знайти додаткову інформацію про осіб, які в ньому згадуються. Розглянемо речення, яке містить вираз «річка України»: без посилання на об'єкти пошукова система, яка переглядає вміст документів, не зможе безпосередньо отримати документи, що містять слово «Дніпро», що призведе до так званих хибно негативних (ХН) результатів, коли буде вважатися, що документ не відповідає пошуковому запиту. Ще гірше те, що пошукова система може видати помилкові збіги (або хибно позитивні (ХП)), наприклад, отримати документи, які посилаються на «Україну» як на країну.
Існує багато підходів, ортогональних до зв'язування сутностей, які використовуються для отримання документів подібних до початкового документа. Наприклад, латентно-семантичний аналіз (ЛСА) або порівняння вставок документів, отриманих за допомогою doc2vec. Однак, ці методи не дозволяють отримати детальний контроль, який пропонується зв'язуванням сутностей, оскільки вони будуть повертати інші документи замість створення високорівневого представлення оригінального документу. Наприклад, отримання схематичної інформації про «Дніпро», яка представлена в інформаційній картці Вікіпедії, може бути не настільки простим, а іноді навіть нездійсненним, залежно від складності запиту.[13]
Крім того, зв'язування сутностей використовувалося для покращення продуктивності систем інформаційного пошуку та для покращення ефективності пошуку в цифрових бібліотеках.[14] Зв'язування об'єктів також є ключовим параметром для семантичного пошуку[en].[15]
Система зв'язування сутностей повинна впоратися з низкою проблем, перш ніж стати ефективною в реальних застосунках. Деякі з цих проблем притаманні завданням зв'язування сутностей, наприклад, неоднозначність тексту, тоді як інші, такі як масштабованість і час виконання, стають актуальними при розгляді реального використання таких систем.
Варіанти назви: один і той самий об'єкт може з'являтися з текстовими представленнями. Джерела цих варіацій включають абревіатури (Нью-Йорк, NY), псевдоніми (Нью-Йорк, Велике Яблуко) або варіанти написання та помилки (Nью-Йокр).
Неоднозначність: одна й та сама згадка часто може стосуватися багатьох різних сутностей, залежно від контексту, оскільки багато назв сутностей, як правило, багатозначні (тобто мають кілька значень). Слово Дніпро, серед іншого, може означати річку України або Дніпро-арену. У деяких випадках (як у річці) немає текстової подібності між текстом згадки та фактичною ціллю (Дніпро).
Відсутність: іноді деякі названі сутності можуть не мати правильне посилання на сутність у цільовій базі знань. Це може статися під час роботи з незвичайними об'єктами або під час обробки документів про нещодавні події, в яких можуть бути згадки про осіб або події, які ще не мають відповідної сутності в базі знань. Іншою поширеною ситуацією, коли відсутні сутності, є використання специфічних баз знань (наприклад, бази знань з біології чи бази даних фільмів). У всіх цих випадках система зв'язування сутностей повинна повертати NIL посилання на сутність. Зрозуміти, коли повертати передбачення NIL, непросто, і було запропоновано багато різних підходів. Наприклад, шляхом встановлення порогового значення певного рівня довіри до системи зв'язування сутностей або додавання додаткової сутності NIL до бази знань, яка обробляється так само як і інші сутності. Більш того, у деяких випадках надання неправильного, але пов'язаного прогнозування зв'язку об'єкта може бути кращим, ніж відсутність результату, з точки зору кінцевого користувача.
Масштабованість і швидкість: бажано, щоб система зв'язування промислових об'єктів забезпечувала результати в розумний час, а часто і в режимі реального часу. Ця вимога є критичною для пошукових систем, чат-ботів і систем зв'язування об'єктів, які пропонуються платформами аналізу даних. Забезпечення високої швидкості виконання може бути складним при використанні великих баз знань або при обробці великих документів.[16] Наприклад, Вікіпедія містить майже 9 мільйонів сутностей і понад 170 мільйонів зв'язків між ними.
Розвивається інформація: система зв'язування об'єктів також повинна мати справу з інформацією, що розвивається, і легко інтегрувати оновлення в базу знань. Проблема розвитку інформації іноді пов'язана з проблемою відсутніх сутностей, наприклад, при обробці останніх статей новин, у яких є згадки про події, які не мають відповідного запису в базі знань через їх новизну.[17]
Кілька мов: система зв'язування сутностей може підтримувати запити, що виконуються кількома мовами. В ідеалі на точність системи зв'язування сутностей не повинна впливати мова введення, а сутності в базі знань повинні бути однаковими для різних мов.[18]
Зв'язування сутностей також відоме як розшифровка іменованих сутностей (РІС) і глибоко пов'язане з вікіфікацією та зв’язуванням записів[en].[19] Визначення часто розмиті та дещо відрізняються між різними авторами: Alhelbawy et al.[20] розглядають зв'язування сутностей як ширшу версію РІС, оскільки РІС має припускати, що сутність, яка правильно відповідає певній текстовій згадці іменованого об'єкта, знаходиться в базі знань. Системи зв'язування сутностей можуть мати справу з випадками, коли в довідковій базі знань немає запису про названу сутність. Інші автори не роблять такого розмежування і використовують обидві назви як взаємозамінні.[21]
Вікіфікація — це завдання зв'язування текстових згадок із сутностями у Вікіпедії (загалом, обмежуючи область застосування англійською Вікіпедією у разі міжмовної вікіфікації).
Зв’язування записів[en] (ЗЗ) вважається ширшим полем, ніж зв'язування сутностей, і полягає в пошуку записів у кількох і часто неоднорідних наборах даних, які посилаються на один і той самий об'єкт.[14] Зв'язування записів є ключовим компонентом для оцифрування архівів і для об'єднання багатьох баз знань.[14]
Розпізнавання іменованих сутностей знаходить і класифікує названі об'єкти в неструктурованому тексті за попередньо визначеними категоріями, такими як назви, організації, розташування тощо. Наприклад, таке речення:
Дніпро - річка України.
даний приклад буде оброблений системою для отримання результату
[Дніпро]річка - річка Україні [Україна]країна.
Розпізнавання іменованого об'єкта зазвичай є етапом попередньої обробки системи зв'язування сутностей, оскільки може бути корисно знати заздалегідь, які слова мають бути пов'язані з сутностями бази знань.
Кореферентність розуміє, чи посилаються кілька слів у тексті до однієї сутності. Це може бути корисно, наприклад, для розуміння слова, до якого відноситься займенник. Розглянемо наступний приклад:
Дніпро річка України. Також, вона найбільша річка в Україні.
У цьому прикладі алгоритм розділення кореференцій визначить, що займенник вона відноситься до Дніпра, а не до України чи іншої сутності. Примітна відмінність у порівнянні зі зв'язуванням сутностей полягає в тому, що роздільна здатність Coreference Resolution не призначає жодної унікальної ідентичності словам, які збігаються, а просто вказує, чи посилаються вони на ту саму сутність чи ні. У цьому сенсі передбачення системи роздільної здатності кореференцій можуть бути корисними для наступного компонента зв'язування сутностей.
Протягом останнього десятиліття зв'язування сутностей було гарячою темою в промисловості та наукових колах. Однак на сьогодні більшість наявних проблем все ще не вирішені, і було запропоновано багато систем зв'язування об'єктів із дуже різними сильними та слабкими сторонами.[22]
Загалом, сучасні системи зв'язування сутностей можна розділити на дві категорії:
Підходи на основі тексту, які використовують текстові елементи, витягнуті з великих текстових розділів (наприклад Частота слова — Обернена частота документа (Tf–Idf), ймовірність спільного зустрічання слів тощо).[23]
Підходи на основі графів, які використовують структуру графів знань[en] для представлення контексту та відношення сутностей.[24]
Часто системи зв'язування сутностей не можна строго класифікувати в жодній із категорій. Вони використовують графи знань, збагачені додатковими текстовими функціями, витягнутими, наприклад, із текстових корпусів, які використовувалися для побудови самих графів знань.[25]
Фундаментальна робота Кусерзана у 2007 році запропонувала одну з перших систем зв'язування сутностей, які з'явилися в літературі, і вирішували завдання вікіфікації, пов'язуючи текстові згадки зі сторінками Вікіпедії.[26] Ця система розділяє сторінки як сторінки об'єктів, значень або списків, які використовуються для призначення категорій кожній сутності. Набір сутностей, присутніх на кожній сторінці сутності, використовується для побудови контексту сутності. Останнім етапом зв'язування сутності є колективне розкриття неоднозначності, що виконується шляхом порівняння бінарних векторів, отриманих з об'єктів, створених вручну, і з контексту кожної сутності. Система зв'язування сутностей Кусерзана все ще використовується як базова для багатьох останніх робіт.[27]
Робота Рао та ін. є добре відомим документом у сфері зв'язування сутностей.[28] Автори пропонують двоетапний алгоритм зв'язування іменованих сутностей з сутностями цільової бази знань. По-перше, набір сутностей-кандидатів вибирається за допомогою відповідності рядків, акронімів і відомих псевдонімів. Тоді найкраще посилання серед кандидатів вибирається за допомогою методу опорних векторів рейтингу (МОВ), яка використовує лінгвістичні особливості.
Останні системи, такі як система, запропонована Цай та ін., використовують вкладання слів, отримане за допомогою моделі пропуску, як особливості мови, і їх можна застосувати до будь-якої мови, якщо надається великий корпус для створення вставок слів. Подібно до більшості систем зв'язування об'єктів, зв'язування виконується в два етапи, з початковим вибором об'єктів-кандидатів і МВП лінійного ранжирування як другим кроком.
Для розв'язання проблеми неоднозначності сутності були спробувані різні підходи. У основоположному підході Мілна і Віттена кероване навчання працює за допомогою якірних текстів об'єктів Вікіпедії як навчальних даних.[29] Інші підходи також збирали навчальні дані на основі однозначних синонімів.[30]
Сучасні системи зв'язування сутностей не обмежують свій аналіз текстовими функціями, створеними з вхідних документів або текстових корпусів, а використовують великі графи знань[en], створені з баз знань, таких як Вікіпедія. Ці системи виділяють складні функції, які використовують переваги топології графа знань, або використовують багатоетапні зв'язки між об'єктами, які можна приховати за допомогою простого аналізу тексту. Більш того, створення багатомовних систем зв'язування об'єктів, заснованих на обробці природної мови (ОПМ), по суті є складним, оскільки вимагає або великих текстових корпусів, часто відсутніх для багатьох мов, або створених вручну граматичних правил, які сильно відрізняються між мовами. Хан та ін. запропонувати створення графа значень (підграф бази знань, який містить об'єкти-кандидати). Цей графік використовується для суто колективної процедури рейтингу, яка знаходить найкраще посилання-кандидат для кожного текстовоЇ згадки.
Іншим відомим підходом до зв'язування об'єктів є AIDA, який використовує серію алгоритмів складних графів і жадібний алгоритм, який ідентифікує узгоджені згадки на щільному підграфі, також враховуючи подібність контексту та особливості важливості вершин для виконання колективної неоднозначності.
Ранжування графів (або ранжування вершин) позначає такі алгоритми, як PageRank (PR) і Hyperlink-Induced Topic Search[en] (HITS), з метою призначити оцінку кожній вершині, яка представляє її відносну важливість в загальному графу. Система зв'язування сутностей, представлена в Alhelbawy et al. використовує PageRank для виконання колективного зв'язування сутностей на графі значень, а також для розуміння того, які об'єкти більш тісно пов'язані один з одним і представляють краще зв'язування.
Математичні вирази (символи та формули) можуть бути пов'язані із семантичними об'єктами (наприклад, статтями Вікіпедії[31] або елементами Вікіданих), позначеними їх значенням природної мови. Це важливо для визначення неоднозначності, оскільки символи можуть мати різне значення (наприклад, «E» може бути «енергією» або «математичним сподіванням», тощо).[32] Процес зв'язування математичних об'єктів можна полегшити та прискорити за допомогою рекомендацій щодо анотацій, наприклад, за допомогою системи «AnnoMathTeX», яка розміщена у Wikimedia.[33][34][35]
Щоб полегшити відтворюваність експериментів з математичним зв'язуванням об'єктів (MathEL), було створено еталонний тест MathMLben.[36] Він містить формули з Вікіпедії, arXiV та цифрової бібліотеки математичних функцій DLMF[en] від Національного інституту стандартів і технології (NIST). Записи формул у тесті позначаються та доповнюються розміткою Вікіданих. Крім того, для двох великих корпусів із репозиторіїв arXiv[37] та zbMATH[38] було досліджено розподіли математичних позначень. Математичні об'єкти інтересу (MOI) визначені як потенційні кандидати на MathEL.[39]
Окрім посилання на Вікіпедію, Шубоц[40] та Шарпф та ін. описують зв'язування вмісту математичної формули з Вікіданими, як у розмітці MathML, так і в LaTeX. Щоб розширити класичні цитати математичними, вони закликають до розробки автоматизованого MathEL для виявлення концепції формули (Formula Concept Discovery, FCD) та розпізнавання концепції формули (Formula Concept Recognition, FCR). Їх підхід FCD дає повноту 68 % для отримання еквівалентних представлень частих формул і 72 % для вилучення назви формули з навколишнього тексту в наборі даних NTCIR[41] arXiv.
↑Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (1 січня 2013). Artificial Intelligence, Wikipedia and Semi-Structured ResourcesEvaluating Entity Linking with Wikipedia. Artificial Intelligence. 194: 130—150. doi:10.1016/j.artint.2012.04.005.
↑Aaron M. Cohen (2005). Unsupervised gene/protein named entity normalization using automatically extracted dictionaries. Proc. ACL[en]-ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, pp. 17–24.
↑Shen W, Wang J, Han J. Entity linking with a knowledge base: Issues, techniques, and solutions[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 27(2): 443—460.
↑Chang Y C, Chu C H, Su Y C, et al. PIPE: a protein–protein interaction passage extraction module for BioCreative challenge[J]. Database, 2016, 2016.
↑Lou P, Jimeno Yepes A, Zhang Z, et al. BioNorm: deep learning-based event normalization for the curation of reaction databases[J]. Bioinformatics, 2020, 36(2): 611—620.
↑Zhou, Ming; Lv, Weifeng; Ren, Pengjie; Wei, Furu; Tan, Chuanqi (2017). Entity Linking for Queries by Searching Wikipedia Sentences. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing(амер.). с. 68—77. arXiv:1704.02788. doi:10.18653/v1/D17-1007.
↑ абвHui Han, Hongyuan Zha, C. Lee Giles, "Name disambiguation in author citations using a K-way spectral clustering method, " ACM/IEEE Joint Conference on Digital Libraries 2005 (JCDL 2005): 334—343, 2005
↑STICS. Архів оригіналу за 1 вересня 2021. Процитовано 18 червня 2022.
↑Ji, Heng; Nothman, Joel; Hachey, Ben; Florian, Radu (2015). Overview of TAC-KBP2015 Tri-lingual Entity Discovery and Linking. TAC.
↑Cucerzan, Silviu. Large-Scale Named Entity Disambiguation Based on Wikipedia Data(амер.). Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL): 708—716. Архів оригіналу за 2 липня 2019. Процитовано 18 травня 2022.
↑Weikum, Gerhard; Thater, Stefan; Taneva, Bilyana; Spaniol, Marc; Pinkal, Manfred; Fürstenau, Hagen; Bordino, Ilaria; Yosef, Mohamed Amir; Hoffart, Johannes (2011). Robust Disambiguation of Named Entities in Text. Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing(амер.): 782—792. Архів оригіналу за 2 липня 2019. Процитовано 18 травня 2022.
↑Cucerzan, Silviu. Large-Scale Named Entity Disambiguation Based on Wikipedia Data(амер.). Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL): 708—716. Архів оригіналу за 2 липня 2019. Процитовано 18 травня 2022.
↑Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Collective annotation of Wikipedia entities in web text. Proc. 15th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining (KDD). doi:10.1145/1557019.1557073. ISBN9781605584959.
↑Rao, Delip; McNamee, Paul; Dredze, Mark (2013). Entity Linking: Finding Extracted Entities in a Knowledge Base. Multi-source, Multilingual Information Extraction and Summarization. Theory and Applications of Natural Language Processing (англ.). Springer Berlin Heidelberg: 93—115. doi:10.1007/978-3-642-28569-1_5. ISBN978-3-642-28568-4.
↑David Milne and Ian H. Witten (2008). Learning to link with Wikipedia. Proc. CIKM.
↑Zhang, Wei; Jian Su; Chew Lim Tan (2010). Entity Linking Leveraging Automatically Generated Annotation. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010).
↑Giovanni Yoko Kristianto; Goran Topic; Akiko Aizawa та ін. (2016). Entity Linking for Mathematical Expressions in Scientific Documents. International Conference on Asian Digital Libraries. Lecture Notes in Computer Science. Springer. 10075: 144—149. doi:10.1007/978-3-319-49304-6_18. ISBN978-3-319-49303-9.
↑Moritz Schubotz; Philipp Scharpf та ін. (2018). Introducing MathQA: a Math-Aware question answering system. Information Discovery and Delivery. Emerald Publishing Limited. 46 (4): 214—224. arXiv:1907.01642. doi:10.1108/IDD-06-2018-0022.
↑Akiko Aizawa; Michael Kohlhase; Iadh Ounis; Moritz Schubotz. NTCIR-11 Math-2 Task Overview. Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies.