استخراج المعلومات[1] (آي أي) هو نوع من استرجاع المعلومات التي تهدف إلى استخراج المعلومات المهيكلة تلقائيا من الوثائق غير المهيكلة المقروءة آليا، بشكل عام استخراج المعلومات المهيكلة من نصوص اللغات البشرية عن طريق معالجة اللغة الطبيعية.
ونظرا لصعوبة المشكلة، فإن النهج الحالي لاستخراج المعلومات هو التركيز على مجالات محدودة ضيقة. ومن الأمثلة على ذلك هو الاستخراج من تقارير وكالات الأنباءمن عمليات الدمج بين الشركات، كما توضح العلاقة التالية:
من الجملة الأخبارية على الإنترنت مثل:
الهدف الاشمل لعملية استخراج المعلومات هو السماح للمعالجة الحاسوبية ان تتم سلفا على البيانات غير الهيكلية. وثمة هدف أكثر تحديدا هو السماح للتفكير المنطقي أن يقوم بالاستدلال على أساس المحتوى المنطقي للبيانات المدخلة. البيانات الهيكلية هي بيانات واضحة المعالم دلاليا من المجال المختار، تم تفسيره بدقة وعناية وفقا للتصنيف والسياق.
استخراج المعلومات يعود إلى أواخر 1970s في الأيام الأولى من معالجة اللغات الطبيعية.[2] وكان أول نظام تجاري من منتصف 1980s هو «جاسبر» وتم بناءه لرويترز عبر مجموعة كارنيجي بهدف تقديم الأخبار المالية في وقت نشرها للتجار المنافسين. [3]
{{استشهاد ويب}}
: Explicit use of et al. in: |مؤلف=
(مساعدة)