استخراج المعرفة هو إنشاء المعرفة من مصادر ( قواعد البيانات العلائقية ، XML ) ومصادر ( نص ، وثائق ، صور ) غير منظمة. يجب أن تكون المعرفة الناتجة بتنسيق يمكن قراءته آليًا وتفسيره آليًا ويجب أن تمثل المعرفة بطريقة تسهل الاستنتاج. على الرغم من أنها تشبه بشكل منهجي استخراج المعلومات ( NLP ) و ETL (مستودع البيانات) ، إلا أن المعيار الرئيسي هو أن نتيجة الاستخراج تتجاوز إنشاء المعلومات المهيكلة أو التحول إلى مخطط علائقي . يتطلب إما إعادة استخدام المعرفة الرسمية الحالية (إعادة استخدام المعرفات أو الأنطولوجيات ) أو إنشاء مخطط بناءً على البيانات المصدر. ويمكن لكل شخص استخراج البيانات ومعرفة قيمتها من خلال دراسة المحتوى العميق.
تقوم مجموعة RDB2RDF W3C [1] حاليًا بتوحيد لغة لاستخراج أطر وصف الموارد (RDF) من قواعد البيانات العلائقية . مثال شائع آخر لاستخراج المعرفة هو تحويل ويكيبيديا إلى بيانات منظمة وأيضًا رسم الخرائط للمعرفة الحالية (انظر DBpedia و Freebase ).