Ця стаття є сирим перекладом з іншої мови. Можливо, вона створена за допомогою машинного перекладу або перекладачем, який недостатньо володіє обома мовами. (листопад 2016) |
Ця стаття містить текст, що не відповідає енциклопедичному стилю. (травень 2016) |
Видобування знань (англ. knowledge extraction, рос. извлечение знаний) є створення знань зі структурованих (реляційних баз даних, XML) і неструктурованих (тексти, документи, зображення) джерел. Отримане знання повинно бути збережене у форматі, придатному для автоматичного читання та інтерпретації. Також знання повинні бути представлені таким чином, щоб полегшити логічний висновок. Попри те, що це методично схоже на видобування інформації (англ. Data Mining, NLP) і ETL (зберігання даних), основними критеріями є те, що результат видобування виходить за рамки створення структурованої інформації або перетворення її в реляційну схему. Це вимагає або повторного використання наявних формальних знань (повторне використання ідентифікаторів або онтологій), або генерацію схеми[що це?] на основі вихідних даних.
Група RDB2RDF W3C[1] в даний час[коли?] стандартизує мову для видобутку RDF (англ. Resource Description Framework) з реляційних баз даних. Ще одним популярним прикладом видобутку знань є перетворення Вікіпедії в структуровані дані, а також відображення до наявних знань (див. DBpedia і Freebase).
Після стандартизації мов представлення знань, таких як RDF і OWL, багато досліджень було проведено в області, особливо щодо перетворення реляційних баз даних в RDF, задачі ідентифікації, виявлення знань і навчання онтологій. Загальний процес використовує традиційні методи добування даних, виймання, перетворення і завантаження (ETL), які перетворюють дані з джерел у структуровані формати.
Наступні критерії можуть бути використані для класифікації підходів в цій темі (деякі з них використовуються лише для видобутку з реляційних баз даних): [2]
Джерело | Джерела даних, які використовуються: Текст, реляційні бази даних, XML, CSV |
---|---|
Експозиція | В якому вигляді добуваються дані? (файл онтології, семантична база даних)? Як можна зробити запит? |
Синхронізація | Чи виконується процес видобутку знань один раз для отримання дампа або результат синхронізується з джерелом? Статична або динамічна синхронізація. Чи записуються зміни результатів назад (двонаправлена синхронізація) |
Повторне використання словників | Інструмент здатний повторно використовувати наявні словники при видобутку. Наприклад, стовпчик таблиці 'FirstName' можуть бути зіставленні з foaf:firstName. Деякі автоматичні підходи не здатні зіставляти словники. |
Автоматизація | Ступінь, в якій видобуток вимагає втручання/автоматизований. Допомога оператора, GUI, напівавтоматичний, автоматичний. |
Потрібна онтологія предметної області | Потрібно побудувати відображення у вже задану онтологію. Так чином, що або створюється відображення або отримується схема з джерела (навчання онтологій[en]). |
Президент Обама [Архівовано 12 жовтня 2008 у Wayback Machine.] у середу закликав Конгрес продовжити податкові пільги для студентів, включених до економічних стимулів у минулому році, стверджуючи, що політика забезпечує більш щедру допомогу.
Ім'я | одружений | домашня сторінка | статус |
---|---|---|---|
Peter | Mary | http://example.org/Peters_page[недоступне посилання з березня 2019] | 1 |
Claus | Eva | http://example.org/Claus_page[недоступне посилання з березня 2019] | 2 |
:Peter :marriedTo :Mary .
:marriedTo a owl:SymmetricProperty .
:Peter foaf:homepage <http://example.org/Peters_page> .
:Peter a foaf:Person .
:Peter a :Student .
:Claus a :Teacher .
При створенні вистави RDB в проблемній області, відправною точкою часто є сутність-зв'язок діаграма (ERD). Як правило, кожним об'єктом представленому у вигляді таблиці бази даних, кожний атрибут сутності стає стовпець в цій таблиці, і відносини між об'єктами позначаються зовнішніми ключами. Кожна таблиця, як правило, визначає конкретний клас суті, кожен стовпець один з його атрибутів. Кожен рядок в таблиці описує екземпляр сутності, однозначно ідентифікується первинним ключем. Рядки таблиці в сукупності описують набір сутностей. В еквівалентній RDF представлення одного і того ж набору сутностей:
Таким чином, щоб зробити еквівалентне уявлення на основі RDF семантики, основне відображення алгоритму буде виглядати наступним чином:
Найперша згадка цього основного або прямого відображення можна знайти в порівнянні Тім Бернерс-Лі моделі ER до моделі RDF. [4].
1: 1 згадуване вище надає застарілі дані у вигляді RDF прямим шляхом, додаткові уточнення можуть бути використані для підвищення корисності RDF виведення відповідного до Use Cases. Як правило, втрачається інформація в процесі перетворення в сутність-зв'язок діаграми (ERD) для реляційних таблиць (подробиці можна знайти в об'єктно-реляційному імпедансі) і повинна бути зворотня інженерія. З концептуальної точки зору, підходи до видобутку можуть надходити з двох напрямків. Перший напрямок намагається витягти або дізнатися-схему OWL з даної схеми бази даних. Ранні підходи використовували фіксовану кількість створених вручну правил відображення для уточнення відображення 1:1[5][6][7]. Більш складні методи з використанням евристики або алгоритмів навчання, щоб викликати схематичну інформацію (методи перекриватися з навчанням онтологій). У той час як деякі підходи намагаються витягти інформацію зі структури, властивої схемою SQL[8] (аналізуючи наприклад, зовнішні ключі), інші аналізують зміст і значення в таблицях для створення концептуальних ієрархій[9] (наприклад, стовпці з декількома значеннями є кандидатами для становлення категорії), Другий напрямок намагається відобразити схему і його вміст вже існуючої онтології предметної області (дивись також: вирівнювання онтології). Часто, однак, відповідна онтологія не існує, і повинен бути створений першим.
Так як XML структурована у вигляді дерева, будь-які дані можуть бути легко представлені в RDF, який структурований у вигляді графіка. XML2RDF є одним із прикладів такого підходу, який використовує RDF порожні вузли і перетворює XML-елементи і атрибути властивостей RDF. Тема, однак, є більш складним, як і в разі реляційних баз даних. У реляційної таблиці первинний ключ є ідеальним кандидатом, щоб стати предметом здобутих трійок. XML-елемент, однак, можуть бути перетворені — в залежності від контексту — як суб'єкт, предикат або об'єкт потрійний. XSLT може бути використаний стандартний мову перетворення вручну перетворити XML в RDF.
Name | Data Source | Data Exposition | Data Synchronisation | Mapping Language | Vocabulary Reuse | Mapping Automat. | Req. Domain Ontology | Uses GUI |
---|---|---|---|---|---|---|---|---|
A Direct Mapping of Relational Data to RDF [Архівовано 9 травня 2016 у Wayback Machine.] | Relational Data | SPARQL/ETL | dynamic | N/A | false | automatic | false | false |
CSV2RDF4LOD [Архівовано 22 серпня 2016 у Wayback Machine.] | CSV | ETL | static | RDF | true | manual | false | false |
Convert2RDF [Архівовано 22 вересня 2016 у Wayback Machine.] | Delimited text file | ETL | static | RDF/DAML | true | manual | false | true |
D2R Server [Архівовано 26 лютого 2012 у Wayback Machine.] | RDB | SPARQL | bi-directional | D2R Map | true | manual | false | false |
DartGrid | RDB | own query language | dynamic | Visual Tool | true | manual | false | true |
DataMaster [Архівовано 21 травня 2016 у Wayback Machine.] | RDB | ETL | static | proprietary | true | manual | true | true |
Google Refine's RDF Extension | CSV, XML | ETL | static | none | semi-automatic | false | true | |
Krextor | XML | ETL | static | xslt | true | manual | true | false |
MAPONTO [Архівовано 2 червня 2016 у Wayback Machine.] | RDB | ETL | static | proprietary | true | manual | true | false |
METAmorphoses [Архівовано 17 квітня 2016 у Wayback Machine.] | RDB | ETL | static | proprietary xml based mapping language | true | manual | false | true |
MappingMaster | CSV | ETL | static | MappingMaster | true | GUI | false | true |
ODEMapster | RDB | ETL | static | proprietary | true | manual | true | true |
OntoWiki CSV Importer Plug-in — DataCube & Tabular | CSV | ETL | static | The RDF Data Cube Vocaublary | true | semi-automatic | false | true |
Poolparty Extraktor (PPX) [Архівовано 26 червня 2012 у Wayback Machine.] | XML, Text | LinkedData | dynamic | RDF (SKOS) | true | semi-automatic | true | false |
RDBToOnto | RDB | ETL | static | none | false | automatic, the user furthermore has the chance to fine-tune results | false | true |
RDF 123 [Архівовано 20 липня 2011 у Wayback Machine.] | CSV | ETL | static | false | false | manual | false | true |
RDOTE | RDB | ETL | static | SQL | true | manual | true | true |
Relational.OWL | RDB | ETL | static | none | false | automatic | false | false |
T2LD [Архівовано 20 липня 2011 у Wayback Machine.] | CSV | ETL | static | false | false | automatic | false | false |
The RDF Data Cube Vocabulary | Multidimensional statistical data in spreadsheets | Data Cube Vocabulary | true | manual | false | |||
TopBraid Composer | CSV | ETL | static | SKOS | false | semi-automatic | false | true |
Triplify [Архівовано 6 січня 2009 у Wayback Machine.] | RDB | LinkedData | dynamic | SQL | true | manual | false | false |
Ultrawrap | RDB | SPARQL/ETL | dynamic | R2RML | true | semi-automatic | false | true |
Virtuoso RDF Views [Архівовано 5 вересня 2014 у Wayback Machine.] | RDB | SPARQL | dynamic | Meta Schema Language | true | semi-automatic | false | true |
Virtuoso Sponger [Архівовано 5 вересня 2014 у Wayback Machine.] | structured and semi-structured data sources | SPARQL | dynamic | Virtuoso PL & XSLT | true | semi-automatic | false | false |
VisAVis | RDB | RDQL | dynamic | SQL | true | manual | true | true |
XLWrap: Spreadsheet to RDF [Архівовано 8 травня 2016 у Wayback Machine.] | CSV | ETL | static | TriG Syntax | true | manual | false | false |
XML to RDF [Архівовано 11 травня 2016 у Wayback Machine.] | XML | ETL | static | false | false | automatic | false | false |
Найбільша частина інформації, що міститься в бізнес-документах (близько 80 %[10]) кодується природною мовою і, отже, неструктурована. Оскільки неструктуровані дані є досить складним завданням для вилучення знань, більш складні методи необхідні, які, як правило, поставляють гірші результати в порівнянні з неструктурованими даними. Потенціал для масового придбання здобутих знань, проте, повинні компенсувати підвищену складність і зниження якості видобутку. Надалі, природні джерела мови розуміються як джерела інформації, де дані наведені неструктурованим чином, як звичайний текст. Якщо даний текст додатково вбудований в розмітки документа (е. Г. HTML документ), згадані системи зазвичай видаляють елементи розмітки автоматично.
Традиційне вилучення інформації[11] є технологією обробки природної мови, яке витягує інформацію з текстів природною мовою, як правило, і структури даних відповідним чином. Види інформації, що підлягає ідентифікованого повинні бути вказані як модель перед початком процесу, тому весь процес традиційного вилучення інформації залежний. IE розділений на наступні п'ять підзадач.
Завдання названого розпізнавання особи є визнати і класифікувати всі названі об'єкти, що містяться в тексті (присвоєння імені об'єкта до визначеної категорії). Це працює шляхом застосування граматики на основі методів або статистичних моделей.
Дозвіл конферентногсті визначає еквівалентні об'єкти, які були визнані НЕК, в тексті. Існують два види відповідних відносин еквівалентності. Перший з них відноситься до відносин між двома різними представленими суб'єктами (наприклад, IBM Europe і IBM), а другий до відносин між суб'єктом і їх анафорических посилань (наприклад, він і IBM). Обидва види можуть бути визнані відповідно до резолюції кореферентності.
Під час будівництва елемента шаблону система ідентифікує IE описові властивості сутностей, визнаних НЕК і CO. Ці властивості відповідають звичайним якостям, як червоний або великий.
Шаблонна конструкція відношення визначає відносини, які існують між елементами шаблону. Ці відносини можуть бути декількох видів, таких як роботи з питання або знаходження, з обмеженням, що обидва домени і діапазон відповідають суб'єктам.
У шаблоні сценарію здійснюються події, які описані в тексті, вони будуть визначені і структуровані щодо осіб, визнаних Нью-Йорку і СО і відносин, які були визначені TR.
Онтологія на основі вилучення інформації є полем вилучення інформації, за допомогою якої щонайменше одна онтологія використовується для управління процесом добування інформації з текстів природною мовою. Система OBIE використовує методи традиційної вилучення інформації для ідентифікації понять, екземпляри і відносини використовуваних онтологій в тексті, які будуть структуровані з онтологією після процесу. Таким чином, вхідна онтологія є моделлю інформації, яку необхідно витягти.
Вивчення Онтології є автоматичним або напівавтоматичним створення онтологій, включаючи витяг термінів відповідної області від природного тексту мови. Оскільки будівля онтологій вручну є надзвичайно трудомістким і займає багато часу, є велика мотивація для автоматизації процесу.
Під час семантичної анотації[12], текст природною мовою доповнюється метаданими (часто представлені в RDFa), які повинні складати семантику термінів, що містяться машини зрозумілим. У цьому процесі, який, як правило, напівавтоматична, знання видобувається в тому сенсі, що зв'язок між лексичних термінів і понять, наприклад, з онтологією встановлюється. Таким чином, знання здобувається, що значення терміна в обробленому контексті був призначений і, отже, сенс тексту ґрунтується на машинозчитуваних даних з можливістю зробити висновки. Семантичне анотування як правило, розділені на наступні дві підзадачі.
На рівні вилучення термінології, лексичні терміни з тексту витягуються. Для цієї мети токенізатор визначає спочатку кордони слів і вирішує скорочити. Згодом терміни з тексту, які відповідають концепції, витягуються за допомогою лексикону предметно-орієнтованого щоб зв'язати ці по суті посилання.
По суті пов'язуючи[13] зв'язок між видобутих лексичних термінів з вихідного тексту і понять з онтології або бази знань, таких як встановлено DBpedia. Для цього, кандидати-концепції виявляються відповідно в декількох значеннях терміна за допомогою лексикону. І, нарешті, контекст термінів аналізується з метою визначення найбільш підходящої однозначністі і призначити термін для правильної концепції.
Наступні критерії можуть бути використані для класифікації інструментів, які витягують знання з текстів природною мовою.
Джерело | Які формати введення можуть бути оброблені за допомогою інструменту (наприклад, простий текст, HTML або PDF)? |
Доступ до Paradigm | Чи може інструмент запитувати джерела даних або потребує цілого дампа для процесу екстракції? |
Синхронізація даних | Є результатом процесу екстракції синхронізований з джерелом? |
Використання Output Ontology | Чи зв'язані інструмент результат з онтологією? |
Mapping Автоматизація | Як це автоматизований процес екстракції (ручний, напівавтоматичний або автоматичний)? |
вимагає Онтологія | Чи потрібно інструмент онтології для вилучення? |
Використання графічного інтерфейсу користувача | Чи надає інструмент графічний інтерфейс користувача? |
Підхід | Який підхід (IS, OBIE, ПР або SA) використовується інструментом? |
Витягнуті Сутності | Які типи сутностей (наприклад, названі особи, поняття або відношення) можуть бути вилучені за допомогою інструменту? |
Застосовувані методи | Які методи застосовуються (наприклад, NLP, статистичні методи, кластеризація або машинного навчання)? |
Вихід моделі | Яка модель використовується для представлення результату інструменту (е. Г. RDF або OWL)? |
Підтримувані домени |
Які домени підтримуються (наприклад, економіка або біологія)? |
Підтримувані Мови | Які мови можуть бути оброблені (наприклад, англійську чи німецьку)? |
У наведеній нижче таблиці характеризується деякі інструменти для здобуття знань з природних джерел мови.
Назва | Джерело | доступ до Paradigm | Data Synchronization | Uses Output Ontology | Mapping Automation | Requires Ontology | Uses GUI | Approach | Extracted Entities | Applied Techniques | Output Model | Supported Domains | Supported Languages |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
AeroText[14] | plain text, HTML, XML, SGML | dump | no | yes | automatic | yes | yes | IE | named entities, relationships, events | linguistic rules | proprietary | domain-independent | English, Spanish, Arabic, Chinese, indonesian |
AlchemyAPI [Архівовано 1 серпня 2013 у Wayback Machine.][15] | plain text, HTML | automatic | yes | SA | multilingual | ||||||||
ANNIE [Архівовано 15 березня 2016 у Wayback Machine.] [Архівовано 15 березня 2016 у Wayback Machine.][16] | plain text | dump | yes | yes | IE | finite state algorithms | multilingual | ||||||
ASIUM [Архівовано 11 червня 2017 у Wayback Machine.] [Архівовано 11 червня 2017 у Wayback Machine.][17] | plain text | dump | semi-automatic | yes | OL | concepts, concept hierarchy | NLP, clustering | ||||||
Attensity Exhaustive Extraction[18] | automatic | IE | named entities, relationships, events | NLP | |||||||||
Dandelion API [Архівовано 28 травня 2016 у Wayback Machine.] | plain text, HTML, URL | REST | no | no | automatic | no | yes | SA | named entities, concepts | statistical methods | JSON | domain-independent | multilingual |
DBpedia Spotlight[19] | plain text, HTML | dump, SPARQL | yes | yes | automatic | no | yes | SA | annotation to each word, annotation to non-stopwords | NLP, statistical methods, machine learning | RDFa | domain-independent | English |
EntityClassifier.eu [Архівовано 3 березня 2016 у Wayback Machine.] | plain text, HTML | dump | yes | yes | automatic | no | yes | IE, OL, SA | annotation to each word, annotation to non-stopwords | rule-based grammar | XML | domain-independent | English, German, Dutch |
FRED [Архівовано 8 травня 2016 у Wayback Machine.] [Архівовано 8 травня 2016 у Wayback Machine.][20] | plain text, PDF and Word via Sheldon [Архівовано 20 травня 2016 у Wayback Machine.] | dump, REST | yes | automatic | no | yes | OL+IE+SA | concepts, concept hierarchy, frames, events, relationships, named entities, negation, modality, tense, entity linking, schema alignment, sentiment (via Sentilo [Архівовано 18 червня 2016 у Wayback Machine.]) | NLP, SPARQL, heuristical rules, ontology design patterns | RDF-OWL, Turtle, NT, JSON-LD, DAG, diagrams | domain-independent | English, multilingual input | |
K-Extractor[21][22] | plain text, HTML, XML, PDF, MS Office, e-mail | dump, SPARQL | yes | yes | automatic | no | yes | IE, OL, SA | concepts, named entities, instances, concept hierarchy, generic relationships, user-defined relationships, events, modality, tense, entity linking, event linking, sentiment | NLP, machine learning, heuristic rules | RDF, OWL, proprietary XML | domain-independent | English, Spanish |
iDocument [Архівовано 21 червня 2021 у Wayback Machine.][23] | HTML, PDF, DOC | SPARQL | yes | yes | OBIE | instances, property values | NLP | personal, business | |||||
NetOwl Extractor [Архівовано 9 квітня 2016 у Wayback Machine.] [Архівовано 9 квітня 2016 у Wayback Machine.][24] | plain text, HTML, XML, SGML, PDF, MS Office | dump | No | Yes | Automatic | yes | Yes | IE | named entities, relationships, events | NLP | XML, JSON, RDF-OWL, others | multiple domains | English, Arabic Chinese (Simplified and Traditional), French, Korean, Persian (Farsi and Dari), Russian, Spanish |
OntoGen [Архівовано 30 березня 2010 у Wayback Machine.] [Архівовано 30 березня 2010 у Wayback Machine.][25] | semi-automatic | yes | OL | concepts, concept hierarchy, non-taxonomic relations, instances | NLP, machine learning, clustering | ||||||||
OntoLearn [Архівовано 9 серпня 2017 у Wayback Machine.] [Архівовано 9 серпня 2017 у Wayback Machine.][26] | plain text, HTML | dump | no | yes | automatic | yes | no | OL | concepts, concept hierarchy, instances | NLP, statistical methods | proprietary | domain-independent | English |
OntoLearn Reloaded [Архівовано 4 березня 2016 у Wayback Machine.] | plain text, HTML | dump | no | yes | automatic | yes | no | OL | concepts, concept hierarchy, instances | NLP, statistical methods | proprietary | domain-independent | English |
OntoSyphon [Архівовано 10 березня 2016 у Wayback Machine.] [Архівовано 10 березня 2016 у Wayback Machine.][27] | HTML, PDF, DOC | dump, search engine queries | no | yes | automatic | yes | no | OBIE | concepts, relations, instances | NLP, statistical methods | RDF | domain-independent | English |
ontoX [Архівовано 27 травня 2016 у Wayback Machine.][28] | plain text | dump | no | yes | semi-automatic | yes | no | OBIE | instances, datatype property values | heuristic-based methods | proprietary | domain-independent | language-independent |
OpenCalais [Архівовано 24 жовтня 2008 у Wayback Machine.] | plain text, HTML, XML | dump | no | yes | automatic | yes | no | SA | annotation to entities, annotation to events, annotation to facts | NLP, machine learning | RDF | domain-independent | English, French, Spanish |
PoolParty Extractor [Архівовано 17 травня 2016 у Wayback Machine.] [Архівовано 17 травня 2016 у Wayback Machine.][29] | plain text, HTML, DOC, ODT | dump | no | yes | automatic | yes | yes | OBIE | named entities, concepts, relations, concepts that categorize the text, enrichments | NLP, machine learning, statistical methods | RDF, OWL | domain-independent | English, German, Spanish, French |
Rosoka [Архівовано 10 травня 2016 у Wayback Machine.] [Архівовано 10 травня 2016 у Wayback Machine.][30] | plain text, HTML, XML, SGML, PDF, MS Office | dump | Yes | Yes | Automatic | no | Yes | IE | named entities, relationships, attributes, concepts | NLP | XML, JSON, RDF, others | multiple domains | Multilingual (230) |
SCOOBIE [Архівовано 11 червня 2018 у Wayback Machine.] | plain text, HTML | dump | no | yes | automatic | no | no | OBIE | instances, property values, RDFS types | NLP, machine learning | RDF, RDFa | domain-independent | English, German |
SemTag [Архівовано 11 червня 2017 у Wayback Machine.] [Архівовано 11 червня 2017 у Wayback Machine.][31][32] | HTML | dump | no | yes | automatic | yes | no | SA | machine learning | database record | domain-independent | language-independent | |
smart FIX [Архівовано 17 травня 2016 у Wayback Machine.] | plain text, HTML, PDF, DOC, e-Mail | dump | yes | no | automatic | no | yes | OBIE | named entities | NLP, machine learning | proprietary | domain-independent | English, German, French, Dutch, polish |
Text2Onto [Архівовано 2 травня 2016 у Wayback Machine.] [Архівовано 2 травня 2016 у Wayback Machine.][33] | plain text, HTML, PDF | dump | yes | no | semi-automatic | yes | yes | OL | concepts, concept hierarchy, non-taxonomic relations, instances, axioms | NLP, statistical methods, machine learning, rule-based methods | OWL | deomain-independent | English, German, Spanish |
Text-To-Onto [Архівовано 15 травня 2013 у Wayback Machine.] [Архівовано 15 травня 2013 у Wayback Machine.][34] | plain text, HTML, PDF, PostScript | dump | semi-automatic | yes | yes | OL | concepts, concept hierarchy, non-taxonomic relations, lexical entities referring to concepts, lexical entities referring to relations | NLP, machine learning, clustering, statistical methods | German | ||||
ThatNeedle [Архівовано 13 травня 2016 у Wayback Machine.] | Plain Text | dump | automatic | no | concepts, relations, hierarchy | NLP, proprietary | JSON | multiple domains | English | ||||
The Wiki Machine[35] | plain text, HTML, PDF, DOC | dump | no | yes | automatic | yes | yes | SA | annotation to proper nouns, annotation to common nouns | machine learning | RDFa | domain-independent | English, German, Spanish, French, Portuguese, Italian, Russian |
ThingFinder[36] | IE | named entities, relationships, events | multilingual |
Виявлення знань описує процес автоматичного пошуку великих обсягів даних для моделей, які можна вважати знання про дані[37]. Він часто описується як вилучення знань з вхідних даних. Виявлення знань розвинулася з області інтелектуального аналізу даних, а також тісно пов'язана з нею як з точки зору методології та термінології. [38]
Найбільш відома гілка інтелектуального аналізу даних є виявлення знань, також відомий як виявлення знань в базах даних (KDD). Так само, як і багато інших форм виявлення знань створює абстракції вхідних даних. Знання, отримані в процесі, можуть стати додаткові дані, які можуть бути використані для подальшого використання і відкриття. Часто результати від виявлення знань не дієві, відкриття знання дієві, також відомий як домен приводом інтелектуального аналізу даних, має на меті виявити та доставити дієві знання та ідеї.
Іншим перспективним застосування виявлення знань в області модернізації програмного забезпечення, виявлення слабкості і дотримання яких передбачає розуміння існуючих програмних артефактів. Цей процес пов'язаний з концепцією зворотної інженерії. Як правило, знання, отримані з існуючого програмного забезпечення представлені у вигляді моделей, в якій конкретні запити можуть бути зроблені при потреби. Відносини суті є найчастішим форматом представлення знань, отриманих з існуючого програмного забезпечення. Об'єкт Management Group (OMG) розробила специфікації знання Discovery Metamodel (KDM), який визначає онтологію для засобів програмного забезпечення та їх відносин з метою виконання виявлення знань всі наявні коди. Виявлення знань з існуючих програмних систем, також відомий як програмне забезпечення видобутку корисних копалин тісно пов'язана з видобутком корисних копалин даних, оскільки існуючі програмні артефакти містять величезне значення для управління ризиками та вартості бізнесу, ключ для оцінки та розвитку програмних систем. Замість того, щоб видобуток окремих наборів даних, гірничодобувної промисловості програмного забезпечення фокусується на метаданих, таких як потоки процесу (наприклад, потоки даних, потоки управління, & назвати карти), архітектура, схеми баз даних і бізнес-правила / умови / процесу.
Wikipedia has a Linked Data twin called DBpedia. DBpedia has the same structured information as Wikipedia – but translated into a machine-readable format.