Зв'язування іменованих сутностей

У обробці природної мови зв'язування сутностей (англ. Entity Linking), яке також називають зв'язування іменованих сутностей (ЗІС),[1] розпізнавання іменованих сутностей (РІС), розпізнавання і неоднозначності іменованих сутностей (РНІС) або нормалізація іменованих сутностей (НІС),[2] — це присвоєння унікальної ідентичності об'єктам (наприклад, відомим особам, місцям чи компаніям), що згадуються у тексті. Наприклад, розглянемо речення «Дніпро — річка України». Ідея полягає в тому, щоб визначити, що «Дніпро» належить до річки Дніпро, а не до Дніпро-арена чи будь-якої іншої організації, яку можна назвати «Дніпро». Зв'язування сутностей відрізняється від розпізнавання іменованих сутностей (РІС) тим, що РІС ідентифікує появу іменованої сутності в тексті, але не визначає, що саме це за сутність (див. Відмінності від інших технік).

У зв'язуванні сутності кожна названа сутність пов'язана з унікальним ідентифікатором. Часто цей ідентифікатор відповідає сторінці Вікіпедії.


Вступ

[ред. | ред. код]

У зв'язуванні сутностей слова, що цікавлять (імена осіб, місцеположення та компанії) відображаються з вхідного тексту до відповідних унікальних сутностей у цільовій базі знань. Слова, що представляють інтерес, називаються названими сутностями (НС), згадками або поверхневими формами. Цільова база знань залежить від передбачуваної програми, але для систем зв'язування сутностей, призначених для роботи з текстом відкритого домену, зазвичай використовують бази знань, отримані з Вікіпедії (наприклад, Wikidata або DBpedia).[3] У цьому випадку кожна окрема сторінка Вікіпедії розглядається як окрема сутність. Методи зв'язування сутностей, які відображають іменовані сутності до сутностей Вікіпедії, також називають вікіфікацією.[4]

Знову розглянувши приклад речення «Дніпро — річка України», очікуваним результатом системи зв'язування об'єктів буде Дніпро і річка України. Ці уніфіковані локатори ресурсів (URL) можна використовувати як унікальні уніфіковані ідентифікатори ресурсів (URI) для сутностей у базі знань. Використання іншої бази знань повертає різні URI, але для баз знань, створених із Вікіпедії, існують індивідуальні відображення URI.[5]

У більшості випадків бази знань створюються вручну,[6] але в програмах, де доступні великі корпуси текстів, базу знань можна вивести автоматично з доступного тексту.[7]

Зв'язування сутностей — це важливий крок для з'єднання вебданих з базами знань, що корисно для коментування величезної кількості необроблених і часто зашумлених даних в Інтернеті та сприяє баченню семантичної павутини.[8] На додаток до зв'язування сутностей, існують інші важливі кроки, включаючи виділення подій[9] та зв'язування подій[10], тощо.

Застосування

[ред. | ред. код]

Зв'язування сутностей корисно в областях, яким потрібно витягувати абстрактні уявлення з тексту, наприклад, як в аналізі тексту, рекомендаційних системах, семантичному пошуку та чат-ботах. У всіх цих областях поняття, що мають відношення до пошукового запиту, відокремлені від тексту та інших даних, що не мають сенсу.[11][12]

Наприклад, звичайне завдання, яке виконують пошукові системи, — це знайти документи, подібні до введених, або знайти додаткову інформацію про осіб, які в ньому згадуються. Розглянемо речення, яке містить вираз «річка України»: без посилання на об'єкти пошукова система, яка переглядає вміст документів, не зможе безпосередньо отримати документи, що містять слово «Дніпро», що призведе до так званих хибно негативних (ХН) результатів, коли буде вважатися, що документ не відповідає пошуковому запиту. Ще гірше те, що пошукова система може видати помилкові збіги (або хибно позитивні (ХП)), наприклад, отримати документи, які посилаються на «Україну» як на країну.

Існує багато підходів, ортогональних до зв'язування сутностей, які використовуються для отримання документів подібних до початкового документа. Наприклад, латентно-семантичний аналіз (ЛСА) або порівняння вставок документів, отриманих за допомогою doc2vec. Однак, ці методи не дозволяють отримати детальний контроль, який пропонується зв'язуванням сутностей, оскільки вони будуть повертати інші документи замість створення високорівневого представлення оригінального документу. Наприклад, отримання схематичної інформації про «Дніпро», яка представлена в інформаційній картці Вікіпедії, може бути не настільки простим, а іноді навіть нездійсненним, залежно від складності запиту.[13]

Крім того, зв'язування сутностей використовувалося для покращення продуктивності систем інформаційного пошуку та для покращення ефективності пошуку в цифрових бібліотеках.[14] Зв'язування об'єктів також є ключовим параметром для семантичного пошуку[en].[15]

Проблеми у зв'язуванні сутностей

[ред. | ред. код]

Система зв'язування сутностей повинна впоратися з низкою проблем, перш ніж стати ефективною в реальних застосунках. Деякі з цих проблем притаманні завданням зв'язування сутностей, наприклад, неоднозначність тексту, тоді як інші, такі як масштабованість і час виконання, стають актуальними при розгляді реального використання таких систем.

  • Варіанти назви: один і той самий об'єкт може з'являтися з текстовими представленнями. Джерела цих варіацій включають абревіатури (Нью-Йорк, NY), псевдоніми (Нью-Йорк, Велике Яблуко) або варіанти написання та помилки (Nью-Йокр).
  • Неоднозначність: одна й та сама згадка часто може стосуватися багатьох різних сутностей, залежно від контексту, оскільки багато назв сутностей, як правило, багатозначні (тобто мають кілька значень). Слово Дніпро, серед іншого, може означати річку України або Дніпро-арену. У деяких випадках (як у річці) немає текстової подібності між текстом згадки та фактичною ціллю (Дніпро).
  • Відсутність: іноді деякі названі сутності можуть не мати правильне посилання на сутність у цільовій базі знань. Це може статися під час роботи з незвичайними об'єктами або під час обробки документів про нещодавні події, в яких можуть бути згадки про осіб або події, які ще не мають відповідної сутності в базі знань. Іншою поширеною ситуацією, коли відсутні сутності, є використання специфічних баз знань (наприклад, бази знань з біології чи бази даних фільмів). У всіх цих випадках система зв'язування сутностей повинна повертати NIL посилання на сутність. Зрозуміти, коли повертати передбачення NIL, непросто, і було запропоновано багато різних підходів. Наприклад, шляхом встановлення порогового значення певного рівня довіри до системи зв'язування сутностей або додавання додаткової сутності NIL до бази знань, яка обробляється так само як і інші сутності. Більш того, у деяких випадках надання неправильного, але пов'язаного прогнозування зв'язку об'єкта може бути кращим, ніж відсутність результату, з точки зору кінцевого користувача.
  • Масштабованість і швидкість: бажано, щоб система зв'язування промислових об'єктів забезпечувала результати в розумний час, а часто і в режимі реального часу. Ця вимога є критичною для пошукових систем, чат-ботів і систем зв'язування об'єктів, які пропонуються платформами аналізу даних. Забезпечення високої швидкості виконання може бути складним при використанні великих баз знань або при обробці великих документів.[16] Наприклад, Вікіпедія містить майже 9 мільйонів сутностей і понад 170 мільйонів зв'язків між ними.
  • Розвивається інформація: система зв'язування об'єктів також повинна мати справу з інформацією, що розвивається, і легко інтегрувати оновлення в базу знань. Проблема розвитку інформації іноді пов'язана з проблемою відсутніх сутностей, наприклад, при обробці останніх статей новин, у яких є згадки про події, які не мають відповідного запису в базі знань через їх новизну.[17]
  • Кілька мов: система зв'язування сутностей може підтримувати запити, що виконуються кількома мовами. В ідеалі на точність системи зв'язування сутностей не повинна впливати мова введення, а сутності в базі знань повинні бути однаковими для різних мов.[18]

Відмінності від інших технік

[ред. | ред. код]

Зв'язування сутностей також відоме як розшифровка іменованих сутностей (РІС) і глибоко пов'язане з вікіфікацією та зв’язуванням записів[en].[19] Визначення часто розмиті та дещо відрізняються між різними авторами: Alhelbawy et al.[20] розглядають зв'язування сутностей як ширшу версію РІС, оскільки РІС має припускати, що сутність, яка правильно відповідає певній текстовій згадці іменованого об'єкта, знаходиться в базі знань. Системи зв'язування сутностей можуть мати справу з випадками, коли в довідковій базі знань немає запису про названу сутність. Інші автори не роблять такого розмежування і використовують обидві назви як взаємозамінні.[21]

  • Вікіфікація — це завдання зв'язування текстових згадок із сутностями у Вікіпедії (загалом, обмежуючи область застосування англійською Вікіпедією у разі міжмовної вікіфікації).
  • Зв’язування записів[en] (ЗЗ) вважається ширшим полем, ніж зв'язування сутностей, і полягає в пошуку записів у кількох і часто неоднорідних наборах даних, які посилаються на один і той самий об'єкт.[14] Зв'язування записів є ключовим компонентом для оцифрування архівів і для об'єднання багатьох баз знань.[14]
  • Розпізнавання іменованих сутностей знаходить і класифікує названі об'єкти в неструктурованому тексті за попередньо визначеними категоріями, такими як назви, організації, розташування тощо. Наприклад, таке речення:
Дніпро - річка України.
даний приклад буде оброблений системою для отримання результату
[Дніпро]річка - річка Україні [Україна]країна.
Розпізнавання іменованого об'єкта зазвичай є етапом попередньої обробки системи зв'язування сутностей, оскільки може бути корисно знати заздалегідь, які слова мають бути пов'язані з сутностями бази знань.
  • Кореферентність розуміє, чи посилаються кілька слів у тексті до однієї сутності. Це може бути корисно, наприклад, для розуміння слова, до якого відноситься займенник. Розглянемо наступний приклад:
Дніпро річка України. Також, вона найбільша річка в Україні.
У цьому прикладі алгоритм розділення кореференцій визначить, що займенник вона відноситься до Дніпра, а не до України чи іншої сутності. Примітна відмінність у порівнянні зі зв'язуванням сутностей полягає в тому, що роздільна здатність Coreference Resolution не призначає жодної унікальної ідентичності словам, які збігаються, а просто вказує, чи посилаються вони на ту саму сутність чи ні. У цьому сенсі передбачення системи роздільної здатності кореференцій можуть бути корисними для наступного компонента зв'язування сутностей.

Підходи до зв'язування сутностей

[ред. | ред. код]

Протягом останнього десятиліття зв'язування сутностей було гарячою темою в промисловості та наукових колах. Однак на сьогодні більшість наявних проблем все ще не вирішені, і було запропоновано багато систем зв'язування об'єктів із дуже різними сильними та слабкими сторонами.[22]

Загалом, сучасні системи зв'язування сутностей можна розділити на дві категорії:

  • Підходи на основі тексту, які використовують текстові елементи, витягнуті з великих текстових розділів (наприклад Частота слова — Обернена частота документа (Tf–Idf), ймовірність спільного зустрічання слів тощо).[23]
  • Підходи на основі графів, які використовують структуру графів знань[en] для представлення контексту та відношення сутностей.[24]

Часто системи зв'язування сутностей не можна строго класифікувати в жодній із категорій. Вони використовують графи знань, збагачені додатковими текстовими функціями, витягнутими, наприклад, із текстових корпусів, які використовувалися для побудови самих графів знань.[25]

Зображення основних кроків в алгоритмі зв'язування сутності. Більшість алгоритмів зв'язування об'єктів складається з початкового кроку розпізнавання іменованого об'єкта, на якому названі об'єкти знаходяться в оригінальному тексті (тут Париж і Франція), і наступного кроку, на якому кожен названий об'єкт пов'язується зі своїм відповідним унікальним ідентифікатором (тут, сторінка Вікіпедії). Цей останній крок часто виконується шляхом створення невеликого набору ідентифікаторів кандидатів для кожного названого об'єкта та шляхом вибору найбільш перспективного кандидата щодо обраного показника.

Зв'язування об'єктів на основі тексту

[ред. | ред. код]

Фундаментальна робота Кусерзана у 2007 році запропонувала одну з перших систем зв'язування сутностей, які з'явилися в літературі, і вирішували завдання вікіфікації, пов'язуючи текстові згадки зі сторінками Вікіпедії.[26] Ця система розділяє сторінки як сторінки об'єктів, значень або списків, які використовуються для призначення категорій кожній сутності. Набір сутностей, присутніх на кожній сторінці сутності, використовується для побудови контексту сутності. Останнім етапом зв'язування сутності є колективне розкриття неоднозначності, що виконується шляхом порівняння бінарних векторів, отриманих з об'єктів, створених вручну, і з контексту кожної сутності. Система зв'язування сутностей Кусерзана все ще використовується як базова для багатьох останніх робіт.[27]

Робота Рао та ін. є добре відомим документом у сфері зв'язування сутностей.[28] Автори пропонують двоетапний алгоритм зв'язування іменованих сутностей з сутностями цільової бази знань. По-перше, набір сутностей-кандидатів вибирається за допомогою відповідності рядків, акронімів і відомих псевдонімів. Тоді найкраще посилання серед кандидатів вибирається за допомогою методу опорних векторів рейтингу (МОВ), яка використовує лінгвістичні особливості.

Останні системи, такі як система, запропонована Цай та ін., використовують вкладання слів, отримане за допомогою моделі пропуску, як особливості мови, і їх можна застосувати до будь-якої мови, якщо надається великий корпус для створення вставок слів. Подібно до більшості систем зв'язування об'єктів, зв'язування виконується в два етапи, з початковим вибором об'єктів-кандидатів і МВП лінійного ранжирування як другим кроком.

Для розв'язання проблеми неоднозначності сутності були спробувані різні підходи. У основоположному підході Мілна і Віттена кероване навчання працює за допомогою якірних текстів об'єктів Вікіпедії як навчальних даних.[29] Інші підходи також збирали навчальні дані на основі однозначних синонімів.[30]

Пов'язування сутностей на основі графів

[ред. | ред. код]

Сучасні системи зв'язування сутностей не обмежують свій аналіз текстовими функціями, створеними з вхідних документів або текстових корпусів, а використовують великі графи знань[en], створені з баз знань, таких як Вікіпедія. Ці системи виділяють складні функції, які використовують переваги топології графа знань, або використовують багатоетапні зв'язки між об'єктами, які можна приховати за допомогою простого аналізу тексту. Більш того, створення багатомовних систем зв'язування об'єктів, заснованих на обробці природної мови (ОПМ), по суті є складним, оскільки вимагає або великих текстових корпусів, часто відсутніх для багатьох мов, або створених вручну граматичних правил, які сильно відрізняються між мовами. Хан та ін. запропонувати створення графа значень (підграф бази знань, який містить об'єкти-кандидати). Цей графік використовується для суто колективної процедури рейтингу, яка знаходить найкраще посилання-кандидат для кожного текстовоЇ згадки.

Іншим відомим підходом до зв'язування об'єктів є AIDA, який використовує серію алгоритмів складних графів і жадібний алгоритм, який ідентифікує узгоджені згадки на щільному підграфі, також враховуючи подібність контексту та особливості важливості вершин для виконання колективної неоднозначності.

Ранжування графів (або ранжування вершин) позначає такі алгоритми, як PageRank (PR) і Hyperlink-Induced Topic Search[en] (HITS), з метою призначити оцінку кожній вершині, яка представляє її відносну важливість в загальному графу. Система зв'язування сутностей, представлена в Alhelbawy et al. використовує PageRank для виконання колективного зв'язування сутностей на графі значень, а також для розуміння того, які об'єкти більш тісно пов'язані один з одним і представляють краще зв'язування.

Зв'язування математичних сутностей

[ред. | ред. код]

Математичні вирази (символи та формули) можуть бути пов'язані із семантичними об'єктами (наприклад, статтями Вікіпедії[31] або елементами Вікіданих), позначеними їх значенням природної мови. Це важливо для визначення неоднозначності, оскільки символи можуть мати різне значення (наприклад, «E» може бути «енергією» або «математичним сподіванням», тощо).[32] Процес зв'язування математичних об'єктів можна полегшити та прискорити за допомогою рекомендацій щодо анотацій, наприклад, за допомогою системи «AnnoMathTeX», яка розміщена у Wikimedia.[33][34][35]

Щоб полегшити відтворюваність експериментів з математичним зв'язуванням об'єктів (MathEL), було створено еталонний тест MathMLben.[36] Він містить формули з Вікіпедії, arXiV та цифрової бібліотеки математичних функцій DLMF[en] від Національного інституту стандартів і технології (NIST). Записи формул у тесті позначаються та доповнюються розміткою Вікіданих. Крім того, для двох великих корпусів із репозиторіїв arXiv[37] та zbMATH[38] було досліджено розподіли математичних позначень. Математичні об'єкти інтересу (MOI) визначені як потенційні кандидати на MathEL.[39]

Окрім посилання на Вікіпедію, Шубоц[40] та Шарпф та ін. описують зв'язування вмісту математичної формули з Вікіданими, як у розмітці MathML, так і в LaTeX. Щоб розширити класичні цитати математичними, вони закликають до розробки автоматизованого MathEL для виявлення концепції формули (Formula Concept Discovery, FCD) та розпізнавання концепції формули (Formula Concept Recognition, FCR). Їх підхід FCD дає повноту 68 % для отримання еквівалентних представлень частих формул і 72 % для вилучення назви формули з навколишнього тексту в наборі даних NTCIR[41] arXiv.

Див. також

[ред. | ред. код]

Посилання

[ред. | ред. код]
  1. Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (1 січня 2013). Artificial Intelligence, Wikipedia and Semi-Structured ResourcesEvaluating Entity Linking with Wikipedia. Artificial Intelligence. 194: 130—150. doi:10.1016/j.artint.2012.04.005.
  2. M. A. Khalid, V. Jijkoun and M. de Rijke[en] (2008). The impact of named entity normalization on information retrieval for question answering[недоступне посилання]. Proc. ECIR.
  3. Han, Xianpei; Sun, Le; Zhao, Jun (2011). Collective Entity Linking in Web Text: A Graph-based Method. Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM: 765—774. doi:10.1145/2009916.2010019.
  4. Rada Mihalcea and Andras Csomai (2007)Wikify! Linking Documents to Encyclopedic Knowledge [Архівовано 20 січня 2022 у Wayback Machine.]. Proc. CIKM.
  5. Wikipedia Links. Архів оригіналу за 20 квітня 2021. Процитовано 18 травня 2022.
  6. Wikidata
  7. Aaron M. Cohen (2005). Unsupervised gene/protein named entity normalization using automatically extracted dictionaries. Proc. ACL[en]-ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, pp. 17–24.
  8. Shen W, Wang J, Han J. Entity linking with a knowledge base: Issues, techniques, and solutions[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 27(2): 443—460.
  9. Chang Y C, Chu C H, Su Y C, et al. PIPE: a protein–protein interaction passage extraction module for BioCreative challenge[J]. Database, 2016, 2016.
  10. Lou P, Jimeno Yepes A, Zhang Z, et al. BioNorm: deep learning-based event normalization for the curation of reaction databases[J]. Bioinformatics, 2020, 36(2): 611—620.
  11. Slawski, Bill. How Google Uses Named Entity Disambiguation for Entities with the Same Names. Архів оригіналу за 21 травня 2022. Процитовано 18 травня 2022.
  12. Zhou, Ming; Lv, Weifeng; Ren, Pengjie; Wei, Furu; Tan, Chuanqi (2017). Entity Linking for Queries by Searching Wikipedia Sentences. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (амер.). с. 68—77. arXiv:1704.02788. doi:10.18653/v1/D17-1007.
  13. Le, Quoc; Mikolov, Tomas (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on International Conference on Machine Learning - Volume 32. JMLR.org: II–1188–II–1196. arXiv:1405.4053.
  14. а б в Hui Han, Hongyuan Zha, C. Lee Giles, "Name disambiguation in author citations using a K-way spectral clustering method, " ACM/IEEE Joint Conference on Digital Libraries 2005 (JCDL 2005): 334—343, 2005
  15. STICS. Архів оригіналу за 1 вересня 2021. Процитовано 18 червня 2022.
  16. Parravicini, Alberto; Patra, Rhicheek; Bartolini, Davide B.; Santambrogio, Marco D. (2019). Fast and Accurate Entity Linking via Graph Embedding. Proceedings of the 2Nd Joint International Workshop on Graph Data Management Experiences & Systems (GRADES) and Network Data Analytics (NDA). ACM: 10:1–10:9. doi:10.1145/3327964.3328499. ISBN 9781450367899.
  17. Hoffart, Johannes; Altun, Yasemin; Weikum, Gerhard (2014). Discovering Emerging Entities with Ambiguous Names. Proceedings of the 23rd International Conference on World Wide Web. ACM: 385—396. doi:10.1145/2566486.2568003. ISBN 9781450327442.
  18. Doermann, David S.; Oard, Douglas W.; Lawrie, Dawn J.; Mayfield, James; McNamee, Paul (2011). Cross-Language Entity Linking (англ.).
  19. Tsai, Chen-Tse; Roth, Dan (2016). Cross-lingual Wikification Using Multilingual Embeddings. Proceedings of NAACL-HLT 2016: 589—598. Архів оригіналу за 10 червня 2018. Процитовано 18 травня 2022.
  20. Alhelbawy, Ayman; Gaizauskas, Robert. Collective Named Entity Disambiguation using Graph Ranking and Clique Partitioning Approaches. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers (Dublin City University and Association for Computational Linguistics): 1544—1555. Архів оригіналу за 8 лютого 2019. Процитовано 18 травня 2022.
  21. Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013). Evaluating Entity Linking with Wikipedia. Artif. Intell. 194: 130—150. doi:10.1016/j.artint.2012.04.005. ISSN 0004-3702.
  22. Ji, Heng; Nothman, Joel; Hachey, Ben; Florian, Radu (2015). Overview of TAC-KBP2015 Tri-lingual Entity Discovery and Linking. TAC.
  23. Cucerzan, Silviu. Large-Scale Named Entity Disambiguation Based on Wikipedia Data (амер.). Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL): 708—716. Архів оригіналу за 2 липня 2019. Процитовано 18 травня 2022.
  24. Weikum, Gerhard; Thater, Stefan; Taneva, Bilyana; Spaniol, Marc; Pinkal, Manfred; Fürstenau, Hagen; Bordino, Ilaria; Yosef, Mohamed Amir; Hoffart, Johannes (2011). Robust Disambiguation of Named Entities in Text. Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing (амер.): 782—792. Архів оригіналу за 2 липня 2019. Процитовано 18 травня 2022.
  25. Zwicklbauer, Stefan; Seifert, Christin; Granitzer, Michael (2016). Robust and Collective Entity Disambiguation Through Semantic Embeddings. Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM: 425—434. doi:10.1145/2911451.2911535. ISBN 9781450340694.
  26. Cucerzan, Silviu. Large-Scale Named Entity Disambiguation Based on Wikipedia Data (амер.). Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL): 708—716. Архів оригіналу за 2 липня 2019. Процитовано 18 травня 2022.
  27. Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Collective annotation of Wikipedia entities in web text. Proc. 15th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining (KDD). doi:10.1145/1557019.1557073. ISBN 9781605584959.
  28. Rao, Delip; McNamee, Paul; Dredze, Mark (2013). Entity Linking: Finding Extracted Entities in a Knowledge Base. Multi-source, Multilingual Information Extraction and Summarization. Theory and Applications of Natural Language Processing (англ.). Springer Berlin Heidelberg: 93—115. doi:10.1007/978-3-642-28569-1_5. ISBN 978-3-642-28568-4.
  29. David Milne and Ian H. Witten (2008). Learning to link with Wikipedia. Proc. CIKM.
  30. Zhang, Wei; Jian Su; Chew Lim Tan (2010). Entity Linking Leveraging Automatically Generated Annotation. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010).
  31. Giovanni Yoko Kristianto; Goran Topic; Akiko Aizawa та ін. (2016). Entity Linking for Mathematical Expressions in Scientific Documents. International Conference on Asian Digital Libraries. Lecture Notes in Computer Science. Springer. 10075: 144—149. doi:10.1007/978-3-319-49304-6_18. ISBN 978-3-319-49303-9.
  32. Moritz Schubotz; Philipp Scharpf та ін. (2018). Introducing MathQA: a Math-Aware question answering system. Information Discovery and Delivery. Emerald Publishing Limited. 46 (4): 214—224. arXiv:1907.01642. doi:10.1108/IDD-06-2018-0022.
  33. AnnoMathTeX Formula/Identifier Annotation Recommender System. Архів оригіналу за 28 березня 2022. Процитовано 18 червня 2022.
  34. Philipp Scharpf; Ian Mackerracher та ін. (17 вересня 2019). AnnoMathTeX : a formula identifier annotation recommender system for STEM documents (PDF). Proceedings of the 13th ACM Conference on Recommender Systems (RecSys 2019): 532—533. doi:10.1145/3298689.3347042. ISBN 9781450362436. Архів оригіналу (PDF) за 22 січня 2022. Процитовано 18 травня 2022.
  35. Philipp Scharpf; Moritz Schubotz; Bela Gipp (14 квітня 2021). Fast Linking of Mathematical Wikidata Entities in Wikipedia Articles Using Annotation Recommendation (PDF). Companion Proceedings of the Web Conference 2021 (WWW '21 Companion): 602—609. arXiv:2104.05111. doi:10.1145/3442442.3452348. ISBN 9781450383134. Архів оригіналу (PDF) за 20 січня 2022. Процитовано 18 травня 2022.
  36. MathMLben formula benchmark. Архів оригіналу за 23 січня 2022. Процитовано 18 червня 2022.
  37. arXiv preprint repository. Архів оригіналу за 22 лютого 2011. Процитовано 18 червня 2022.
  38. zbMath mathematical document library. Архів оригіналу за 15 червня 2022. Процитовано 18 червня 2022.
  39. André Greiner-Petter; Moritz Schubotz; Fabian Mueller; Corinna Breitinger; Howard S. Cohl; Akiko Aizawa; Bela Gipp (2020). Discovering Mathematical Objects of Interest – A Study of Mathematical Notations (PDF). Proceedings of the Web Conference 2020 (WWW '20): 1445—1456. arXiv:2002.02712. doi:10.1145/3366423.3380218. ISBN 9781450370233. Архів оригіналу (PDF) за 20 січня 2022. Процитовано 18 травня 2022.
  40. Moritz Schubotz; André Greiner-Petter; Philipp Scharpf; Norman Meuschke; Howard Cohl; Bela Gipp (2018). Improving the Representation and Conversion of Mathematical Formulae by Considering their Textual Context (PDF). 18th ACM/IEEE on Joint Conference on Digital Libraries 2018: 233—242. arXiv:1804.04956. doi:10.1145/3197026.3197058. ISBN 9781450351782. Архів оригіналу (PDF) за 20 січня 2022. Процитовано 18 травня 2022.
  41. Akiko Aizawa; Michael Kohlhase; Iadh Ounis; Moritz Schubotz. NTCIR-11 Math-2 Task Overview. Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies.