Связывание именованных сущностей

Cвязывание именованных сущностей (от англ. Named Entity Linking, NEL) — задача, заключающаяся в определении идентичности сущностей, упомянутых в тексте. Рассмотрим, например, предложение «Я поеду в Киров на выходных». Суть связывания, в этом случае, будет заключаться в соотнесении слова «Киров» с городом Киров, а не с человеком по фамилии Киров, или с чем-либо ещё. NEL отличается от распознавания именованных сущностей (Named Entity Recognition, NER) тем, что NER определяет тип упоминаемой сущности (Личность, Географическая локация, Организация и т. п.), но не связывает сущность с каким-либо конкретным объектом.

Связывание именованных сущностей требует наличие базы знаний, содержащей сущности (или концепты), с которыми упоминания могут быть связаны. Популярным решением для связывания сущностей в тексте из открытых источников являются базы знаний, основанные на Wikipedia [1] [2], в которых каждая страница является именованной сущностью. NEL, использующий сущности Wikipedia, иногда называют викификаторами (англ. wikification). База знаний также может быть получена автоматически из обучающего текста[3] или построена вручную[4].

Упоминание именованных сущностей может быть существенно неоднозначным, любой метод связывания должен уметь устранять эту неоднозначность. Было испробовано множество подходов для решения этой проблемы. Одним из плодотворных вариантов решения этой проблемы было предложено Милне и Виттеном (Milne and Witten), оно было основано на применении обучения с учителем с использованием текста ссылок wikipedia в качестве обучающих данных. [5] Кулкарни и др. использовали общее свойство близких по теме документов ссылаться на сущности сильно связанных типов. [6] Список самых современных систем для связывания именованных сущностей включает в себя AIDA, [7] AGDISTIS,[8] Babelfy[9] и TagMe.[10]

Связывание именованных сущностей используется для улучшения качества систем информационного поиска [1] и для улучшения качества электронных библиотек. [11] [12] NEL также является ключом к построению семантического поиска[13] . Например, NEL был успешно применен для валидации результата методов распознания именованных сущностей с использованием предположения о том, что каждый текст имеет специфичную область и контекст, и, следовательно, сущности, упомянутые в этом тексте, должны были иметь семантическую связь между собой[14]. Измерение семантической близости может быть использовано для фильтрации ошибок в идентификации сущностей вне контекста, даже когда для единственного упоминания возможно множество интерпретаций.

Компания по оценке NEL (Entity Linking evaluation campaigns) организована Национальным Институтом Стандартов и Технологий США (NIST) в контексте задачи Пополнения Баз Знаний (Knowledge Base Population task) Конференции Анализа Текста (Text Analysis Conference).

Примечания

[править | править код]
  1. 1 2 M. A. Khalid, V. Jijkoun and M. de Rijke (2008). The impact of named entity normalization on information retrieval for question answering (недоступная ссылка). Proc. ECIR.
  2. Xianpei Han, Le Sun and Jun Zhao (2011). Collective entity linking in web text: a graph-based method Архивная копия от 5 марта 2016 на Wayback Machine. Proc. SIGIR.
  3. Aaron M. Cohen (2005). Unsupervised gene/protein named entity normalization using automatically extracted dictionaries. Proc. ACL-ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, pp. 17-24.
  4. Wikidata
  5. David Milne and Ian H. Witten (2008). Learning to link with Wikipedia. Proc. CIKM.
  6. Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Collective annotation of Wikipedia entities in web text. Proc. 15th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining (KDD). doi:10.1145/1557019.1557073. ISBN 9781605584959.
  7. Hoffart, J., Yosef, M. A., Bordino, I., Fürstenau, H., Pinkal, M., Spaniol, M., Taneva, B., Thater, S., and Weikum, G. (2011). Robust disambiguation of named entities in text Архивная копия от 29 марта 2017 на Wayback Machine. In EMNLP
  8. Usbeck, R., Ngomo, A. N., Röder, M., Gerber, D., Coelho, S. A., Auer, S., and Both, A. (2014). AGDISTIS — graph-based disambiguation of named entities using linked data. In ISWC Архивная копия от 17 ноября 2015 на Wayback Machine
  9. Moro, A., Raganato, A., and Navigli, R. (2014).Entity Linking meets Word Sense Dis- ambiguation: a Unified Approach Архивная копия от 13 июля 2017 на Wayback Machine
  10. TAGME: on-the-fly annotation of short text fragments! tagme.d4science.org. Дата обращения: 25 сентября 2016. Архивировано 27 сентября 2016 года.
  11. Hui Han, Hongyuan Zha, C. Lee Giles, "Name disambiguation in author citations using a K-way spectral clustering method, " ACM/IEEE Joint Conference on Digital Libraries 2005 (JCDL 2005): 334—343, 2005
  12. Deutsche Nationalbibliothek — Projects — Evaluation of a NERD process. Дата обращения: 25 декабря 2016. Архивировано 5 января 2018 года.
  13. STICS. Дата обращения: 25 декабря 2016. Архивировано 1 сентября 2021 года.
  14. Grego, Tiago; Couto, Francisco. Identification of chemical entities in patent documents (англ.) // PLOS One : journal. — 2013. — doi:10.1145/1557019.1557073.