نوع | |
---|---|
النموذج المصدري | |
متوفر بلغات | |
المطور الأصلي | |
موقع الويب |
dbpedia.org (الإنجليزية) |
ضمان الجودة | |
---|---|
لغة البرمجة | |
الإصدار الأول | |
الإصدار الأخير | |
المستودع | |
الرخصة |
دي بيبيديا (من "DB" التي تعني "قاعدة البيانات") هو مشروع يهدف إلى استخراج المحتوى الهيكلي من المعلومات التي تم إنشاؤها في مشروع ويكيبيديا. يتم توفير هذه المعلومات الهيكلية عبر شبكة الإنترنت العالمية باستخدام OpenLink Virtuoso. يتيح دي بيبيديا للمستخدمين إمكانية الاستعلام الدلالي عن العلاقات والخصائص لموارد ويكيبيديا، بما في ذلك الروابط إلى مجموعة بيانات أخرى ذات صلة.[4]
تم تمجيد المشروع باعتباره "واحدة من القطع الأكثر شهرة" في جهود البيانات المرتبطة اللامركزية من قبل تيم بيرنرز-لي، أحد رواد الإنترنت. اعتبارًا من يونيو 2021، كانت دي بيبيديا تحتوي على أكثر من 850 مليون مثلث.[5][6]
تم بدء المشروع من قبل أشخاص في الجامعة الحرة في برلين وجامعة لايبزيغ[7] بالتعاون مع OpenLink Software، وهو الآن يُدار من قبل أشخاص في جامعة مانهايم وجامعة لايبزيغ.[8] تم نشر أول مجموعة بيانات متاحة للجمهور في عام 2007.[7] تُتاح البيانات بموجب ترخيصات مجانية (CC BY-SA)، مما يسمح للآخرين بإعادة استخدام مجموعة البيانات؛ ولا تستخدم ترخيص البيانات المفتوحة للتنازل عن حقوق قاعدة البيانات الخاصة.[9]
تتكون مقالات ويكيبيديا في الغالب من نصوص حرة، لكنها تتضمن أيضًا معلومات هيكلية مدمجة في المقالات، مثل جداول "صندوق المعلومات" (الألواح المنبثقة التي تظهر في الزاوية اليمنى العليا من العرض الافتراضي للعديد من مقالات ويكيبيديا، أو في بداية الإصدارات المحمولة)، معلومات التصنيف، الصور، الإحداثيات الجغرافية والروابط إلى صفحات ويب خارجية. يتم استخراج هذه المعلومات الهيكلية ووضعها في مجموعة بيانات موحدة يمكن الاستعلام عنها.[10][11]
تصف نسخة بيانات دي بيبيديا في أبريل 2016 ما يقرب من 6.0 مليون كيان، منها 5.2 مليون تم تصنيفها في أونتولوجيا متسقة، بما في ذلك 1.5 مليون شخص، 810,000 مكان، 135,000 ألبوم موسيقي، 106,000 فيلم، 20,000 لعبة فيديو، 275,000 منظمة، 301,000 نوع من الكائنات و5,000 مرض. تستخدم دي بيبيديا إطار وصف الموارد (RDF) لتمثيل المعلومات المستخلصة وتتكون من 9.5 مليار مثلث RDF، منها 1.3 مليار تم استخراجها من النسخة الإنجليزية من ويكيبيديا و5.0 مليار من إصدارات اللغات الأخرى.[12]
من خلال هذه المجموعة من البيانات، يمكن استخراج المعلومات المنتشرة عبر صفحات متعددة. على سبيل المثال، يمكن تجميع تأليف الكتب من صفحات العمل أو المؤلف.[13]
أحد التحديات في استخراج المعلومات من ويكيبيديا هو أن نفس المفاهيم قد يتم التعبير عنها باستخدام معلمات مختلفة في جداول المعلومات وقوالب أخرى، مثل |مكان الميلاد=
و|مكان الولادة=
. نظرًا لذلك، فإن الاستعلامات حول أماكن ولادة الأشخاص يجب أن تبحث عن كل من هذه الخصائص للحصول على نتائج أكثر اكتمالاً. كنتيجة لذلك، تم تطوير لغة تخطيط دي بيبيديا للمساعدة في ربط هذه الخصائص بأونتولوجيا مع تقليل عدد المرادفات. نظرًا للتنوع الكبير في جداول المعلومات والخصائص المستخدمة في ويكيبيديا، تم فتح عملية تطوير وتحسين هذه التخطيطات للمساهمات العامة.
تم إصدار النسخة 2014 في سبتمبر 2014.[14] كان التغيير الرئيسي منذ الإصدارات السابقة هو طريقة استخراج النصوص المجردة. على وجه التحديد، جعل تشغيل نسخة محلية من ويكيبيديا واسترجاع الملخصات المعروضة منها النصوص المستخلصة أكثر نظافة بشكل ملحوظ. كما تم تقديم مجموعة بيانات جديدة تم استخراجها من ويكيميديا كومنز.[15]
اعتبارًا من يونيو 2021، تحتوي دي بيبيديا على أكثر من 850 مليون مثلث.[16]
تستخرج دي بيبيديا المعلومات الواقعية من صفحات ويكيبيديا، مما يسمح للمستخدمين بالعثور على إجابات للأسئلة التي تتوزع معلوماتها عبر مقاطع متعددة من مقالات ويكيبيديا. يتم الوصول إلى البيانات باستخدام لغة استعلام مشابهة لـ لغة الاستعلامات المهيكلة الخاصة بـ RDF، وتسمى سباركل.[17]
على سبيل المثال، إذا كان المرء مهتمًا بسلسلة المانغا اليابانية Tokyo Mew Mew ويرغب في معرفة أنواع الأعمال الأخرى التي كتبها رسامها ميا إيكومي، يمكن لـ دي بيبيديا دمج المعلومات من مقاطع ويكيبيديا المتعلقة بـ Tokyo Mew Mew وميا إيكومي وأعمال هذا المؤلف مثل Super Doll Licca-chan وKoi Cupid. بما أن دي بيبيديا يقوم بتوحيد المعلومات في قاعدة بيانات واحدة، يمكن طرح الاستعلام التالي بدون الحاجة لمعرفة بالضبط أي مدخل يحتوي على كل جزء من المعلومات، وسيتم عرض الأنواع ذات الصلة:[18]
PREFIX dbprop: <http://dbpedia.org/ontology/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE {
db:Tokyo_Mew_Mew dbprop:author ?who .
?WORK dbprop:author ?who .
OPTIONAL { ?WORK dbprop:genre ?genre } .
}
تتمتع دي بيبيديا بنطاق واسع من الكيانات التي تغطي مختلف مجالات المعرفة البشرية. وهذا يجعلها محورًا طبيعيًا لربط مجموعات البيانات، حيث يمكن للمجموعات الخارجية الارتباط بمفاهيمها.[19] تتم ربط مجموعة بيانات دي بيبيديا على مستوى RDF مع العديد من مجموعات البيانات الأخرى على الويب مثل Freebase وOpenCyc وUMBEL وGeoNames وMusicBrainz وCIA World Fact Book وDBLP وProject Gutenberg وDBtune جامندو وEurostat وUniProt وBio2RDF وبيانات US Census. كما تشمل مبادرة تومسون رويترز OpenCalais ومشروع البيانات المفتوحة من نيويورك تايمز وواجهة برمجة التطبيقات Zemanta[20] ومؤشردي بيبيديا روابط إلى DBpedia. يستخدم بي بي سي دي بيبيديا للمساعدة في تنظيم محتواه. يستخدم Faviki دي بيبيديا للوسم الدلالي. كما يتضمن سامسونج دي بيبيديا في منصة مشاركة المعرفة.[21]
يعد مصدرًا غنيًا للمعرفة المهيكلة عبر مجالات متعددة، مما يجعله أرضًا خصبة لأنظمة الذكاء الاصطناعي. تم استخدام دي بيبيديا كأحد مصادر المعرفة في النظام الفائز في المحك (برنامج) الخاص بـ واتسون (حاسوب).[22][23]
تقدم أمازون مجموعة بيانات دي بيبيديا Public Data Set التي يمكن دمجها في تطبيقات خدمات أمازون ويب.[24]
يمكن استخدام البيانات حول المبدعين من دي بيبيديا في إثراء ملاحظات مبيعات الأعمال الفنية.[25]
قامت شركة Ushahidi البرمجية باستخدام دي بيبيديا في بناء نموذج أولي لبرمجياتها التي تستخدم التعليقات التوضيحية الدلالية على التقارير التي يولدها المواطنون. يدمج النموذج الأولي خدمة "YODIE" (نظام استخراج بيانات مفتوحة آخر)[26] التي طورتها جامعة شيفيلد، والتي تستخدم دي بيبيديا لإجراء التعليقات التوضيحية. كان الهدف من Ushahidi هو تحسين سرعة وسهولة التحقق من التقارير الواردة وإدارتها.[27]
يعد مؤشردي بيبيديا أداة لاستخراج التعليقات التوضيحية من النصوص للإشارة إلى الموارد الموجودة في DBpedia. تتيح هذه الأداة ربط مصادر المعلومات غير المهيكلة بسحابة البيانات المفتوحة المترابطة عبر دي بيبيديا. يقوم مؤشردي بيبيديا بتنفيذ استخراج الكيانات المسماة، بما في ذلك الكشف عن الكيانات وحل الأسماء (أي التمييز بين المعاني المختلفة). يمكن أيضًا استخدامه في مهام التعرف على الكيانات المسماة وغيرها من مهام استخراج المعلومات. يهدف مؤشردي بيبيديا ليكون قابلاً للتخصيص لعدة حالات استخدام. بدلاً من التركيز على عدد قليل من أنواع الكيانات، يسعى المشروع لدعم تعليق جميع الكيانات والمفاهيم البالغ عددها 3.5 مليون من أكثر من 320 فئة في دي بيبيديا. بدأ المشروع في يونيو 2010 في مجموعة الأنظمة المعتمدة على الويب في الجامعة الحرة في برلين.[28][29][30][31]
يتوفر مؤشردي بيبيديا كخدمة ويب للاختبار وواجهة برمجة التطبيقات جافا/سكالا مرخصة عبر ترخيص أباتشي. تشمل توزيع مؤشردي بيبيديا مكونًا إضافيًا jQuery يسمح للمطورين بتعليق صفحات الويب في أي مكان على الويب بإضافة سطر واحد فقط إلى الصفحة.[32] كما تتوفر عملاء في Java أو بي إتش بي.[33] تتعامل الأداة مع العديد من اللغات من خلال صفحة العرض التجريبي[34] وخدمات الويب. يتم دعم التدويل لأي لغة لها إصدار على ويكيبيديا.[35]
منذ عام 2020، يقدم مشروع دي بيبيديا قاعدة بيانات محدثة بانتظام تحتوي على الأونتولوجيات القابلة للوصول عبر الويب المكتوبة بلغة الأونتولوجيا OWL. كما يوفر أرشيفو أيضًا نظام تقييم من أربع نجوم للأونتولوجيات التي يقوم باستخراجها، بناءً على معايير الوصول والجودة والملاءمة للاستخدام المرتبط. على سبيل المثال، يتم تقييم التوافق مع SHACL للبيانات القائمة على الرسوم البيانية عند الاقتضاء. يجب أن تحتوي الأونتولوجيات أيضًا على بيانات وصفية حول خصائصها وتحديد رخصة عامة تصف شروط استخدامها. اعتبارًا من يونيو 2021، تحتوي قاعدة بيانات أرشيفو على 1368 إدخالًا.[36][37]
تم إطلاق دي بيبيديا في عام 2007 من قبل سورين أور، كريستيان بيزر، جورجي كوبيلاروف، ينس ليمان، ريتشارد سيغانيك وزكاري إيفس.[38]
Zemanta fully supports the Linking Open Data initiative. It is the first API that returns disambiguated entities linked to dbPedia, Freebase, MusicBrainz, and Semantic Crunchbase.
Dbpedia is a database version of Wikipedia. It is used in a lot of projects for a wide range of different reasons. At the BBC we are using it for tagging content.
Wikipedia has a Linked Data twin called DBpedia. DBpedia has the same structured information as Wikipedia – but translated into a machine-readable format.