تحوي هذه المقالة أو هذا القسم ترجمة آلية. |
تشير جودة البيانات[1] إلى حالة كمية المعلومات سواءً كانت نوعية أو كمية. هناك المزيد من تعريفات جودة البيانات، ولكن البيانات تعتبر بشكل عام ذات جودة عالية إذا كانت مناسبة للاستخدام المقصود في العمليات وصنع القرار والتخطيط .[2][3][4] علاوةً على ذلك، تعتبر البيانات ذات جودة عالية إذ إنها ستمثل بشكل صحيح تكوين العالم الحقيقي التي يشير إليها.
وبخلاف هذه التعريفات والزيادة في عدد مصادر البيانات، تعيش مجتمعات ما بعد الصناعة الأكثر تطوراً بالمعلومات وتكنولوجيا الاتصالات في عالم جودة البيانات وأصبح مصطلح جودة البيانات شائع جداً وكلما زادت جودة البيانات ازدهرت هذه المجتمعات أكثر،[5] تصبح مسألة اتساق البيانات الداخلية مهمة، بغض النظر عن مدى ملاءمتها لأي غرض خارجي معين. غالبًا ما يكون لدى الأشخاص أفكار مختلفة حول جودة البيانات، حتى عند مناقشة نفس مجموعة البيانات المستخدمة لنفس الغرض. في نفس السياق، يتم استخدام إدارة البيانات لتشكيل تعريفات ومعايير جودة البيانات المتفق عليها. في مثل هذه الحالات، قد يلزم تنقية البيانات، بما في ذلك التوحيد القياسي، لضمان جودة البيانات.[6]
يعد تحديد جودة البيانات أمراً صعباً نظراً للسياقات المتعددة التي يتم تستخدم فيها البيانات، ووجهات النظر المختلفة بين المستخدمين النهائيين والمنتجين وأمناء البيانات.[7]
من منظور المستهلك، جودة البيانات هي:[7]
من منظور الأعمال التجارية، فإن جودة البيانات هي:
من المنظور القائم على المعايير، فإن جودة البيانات هي:
يمكن القول، في جميع هذه الحالات، جودة البيانات هي مقارنة الحالة الفعلية لمجموعة معينة من البيانات بالحالة المرغوبة، والتي يشار إليها غالبًا باسم ملاءمة للاستخدام، للمواصفات، لتلبية توقعات المستهلك أو خالية من العيوب أو تفي بالمتطلبات. غالبًا ما تتم صياغة هذه التوقعات والقواعد والمتطلبات بواسطة فرد أو أكثر أو مجموعات أو منظمات معايير أو قوانين ولوائح أو سياسات التوظيف أو سياسات تطوير البرامج.[7]
عند التعمق أكثر، يتم تحديد تلك التوقعات والمواصفات والمتطلبات من حيث الخصائص أو أبعاد البيانات، أمثلة:[7][8][9][10][13]
تشير مراجعة تحديد النطاق المنهجية للأدبيات إلى أن أبعاد جودة البيانات والأساليب ذات البيانات الحقيقية لا تتسق في الأدبيات، ونتيجة لذلك فإن تقييمات الجودة تمثل تحديًا بسبب الطبيعة المعقدة وغير المتجانسة لهذه البيانات.[13]
قبل ظهور تخزين بيانات الكمبيوتر غير المكلف، تم استخدام أجهزة الكمبيوتر الضخمة الحاسوبية للحفاظ على بيانات الاسم والعناوين لخدمات التوصيل. كان هذا حتى يمكن توجيه البريد بشكل صحيح إلى وجهته. استخدمت الحواسيب المركزية قواعد العمل لتصحيح الأخطاء الإملائية الشائعة والأخطاء المطبعية في الإسم والعناوين، وكذلك تتبع العملاء الذين انتقلوا أو ماتوا أو ذهبوا إلى السجن أو المتزوجين أو المطلقين أو من عانى من أي أحداث أخرى غيرت حياتهم، الوكالات الحكومية بدأت في إتاحة البيانات البريدية لعدد قليل من الشركات الخاصة بخدمات الإحالة المرجعية لبيانات العملاء مع السجل الوطني لتغيير العنوان (NCOA) . وفرت هذه التكنولوجيا على الشركات الكبيرة ملايين من الدولارات مقارنةً بالتصحيح اليدوي لبيانات العميل، تم توفير الشركات الكبيرة على الطوابع البريدية، حيث وصلت الفواتير والمواد التسويقية المباشرة إلى العميل المقصود بشكل أكثر دقة، تم بيع جودة البيانات في البداية كخدمة، حيث تم نقل جودة البيانات داخل جدران الشركات، حيث أصبحت تقنية الخادم منخفضة التكلفة ومتاحة بشكل أقوى.
غالبا ما ركزت الشركات التي تركز على التسويق جهودها في مجال الجودة على معلومات الاسم والعنوان، ولكن يتم التعرف على جودة البيانات كخاصية مهمة لجميع أنواع البيانات. يمكن تطبيق مبادئ جودة البيانات على بيانات سلسلة التوريد وبيانات المعاملات وتقريبا كل فئة أخرى من البيانات الموجودة. على سبيل المثال، جعل بيانات سلسلة التوريد مطابقة لمعيار معين له قيمة بالنسبة للمؤسسة من خلال:
بالنسبة للشركات التي تبذل جهودًا بحثية كبيرة، يمكن أن تشمل جودة البيانات تطوير بروتوكولات لطرق البحث، وتقليل أخطاء القياس، وفحص حدود البيانات، وجدولة متقاطعة، والنمذجة، واكتشاف الحالات الخارجية، والتحقق من سلامة البيانات، وما إلى ذلك.
ضمان جودة البيانات هو عملية تنميط البيانات لاكتشاف التناقضات والشذوذ الأخرى في البيانات، بالإضافة إلى تنفيذ أنشطة تنقية البيانات [14][15] (مثل إزالة القيم المتطرفة، واستيفاء البيانات المفقودة ) لتحسين جودة البيانات.
يمكن تنفيذ هذه الأنشطة كجزء من تخزين البيانات أو كجزء من إدارة قاعدة البيانات لجزء موجود من برنامج التطبيق .[16]
مراقبة جودة البيانات هي عملية التحكم في استخدام البيانات لتطبيق أو عملية. يتم تنفيذ هذه العملية قبل وبعد عملية ضمان جودة البيانات (QA)، والتي تتكون من اكتشاف عدم تناسق البيانات وتصحيحها.
قبل:
يقيد المدخلات، بعد عملية ضمان الجودة، يتم جمع الإحصائيات التالية لتوجيه عملية مراقبة الجودة (QC):
تستخدم عملية مراقبة جودة البيانات المعلومات من عملية ضمان الجودة لتقرير استخدام البيانات للتحليل أو في تطبيق أو عملية تجارية. مثال عام: إذا وجدت عملية مراقبة جودة البيانات أن البيانات تحتوي على عدد كبير جدًا من الأخطاء أو التناقضات، فإنها تمنع استخدام هذه البيانات في العملية المقصودة مما قد يتسبب في حدوث اضطراب. مثال محدد: قد يؤدي توفير قياسات غير صالحة من عدة أجهزة استشعار إلى ميزة الطيار الآلي على متن طائرة إلى تعطلها. وبالتالي، فإن إنشاء عملية مراقبة الجودة يوفر حماية لاستخدام البيانات.
تعد جودة البيانات (DQ) مجالًا متخصصًا مطلوبًا لسلامة إدارة البيانات من خلال تغطية الفجوات في قضايا البيانات. هذه إحدى الوظائف الرئيسية التي تساعد في إدارة البيانات من خلال مراقبة البيانات للعثور على استثناءات لم تكتشفها عمليات إدارة البيانات الحالية. يمكن تحديد فحوصات جودة البيانات على مستوى السمة للتحكم الكامل في خطوات الإصلاح الخاصة بها.
قد تتداخل فحوصات جودة البيانات وقواعد العمل بسهولة إذا لم تكن المنظمة منتبهًا لنطاق جودة البيانات الخاص بها. يجب أن تفهم فرق العمل نطاق جودة البيانات تمامًا لتجنب التداخل. تكون فحوصات جودة البيانات زائدة عن الحاجة إذا كان منطق الأعمال يغطي نفس الوظيفة ويفي بنفس الغرض مثل جودة البيانات. يجب تحديد نطاق جودة البيانات للمنظمة في استراتيجية جودة البيانات وتنفيذها بشكل جيد. قد تتم ترجمة بعض فحوصات جودة البيانات إلى قواعد عمل بعد تكرار حالات الاستثناءات في الماضي.
فيما يلي بعض مجالات تدفق البيانات التي قد تحتاج إلى فحوصات جودة البيانات الدائمة:
يمكن إجراء فحوصات الدقة والاكتمال جودة البيانات على جميع البيانات عند نقطة الدخول لكل سمة إلزامية من كل نظام مصدر. يتم إنشاء قيم قليلة للسمات بعد الإنشاء الأولي للمعاملة ؛ في مثل هذه الحالات، تصبح إدارة هذه الفحوصات صعبة ويجب إجراؤها فورًا بعد الحدث المحدد لمصدر تلك السمة واستيفاء شروط السمة الأساسية الأخرى للمعاملة.
يمكن التحقق من صحة جميع البيانات التي تحتوي على سمات تشير إلى البيانات المرجعية في المؤسسة مقابل مجموعة القيم الصالحة المحددة جيدًا للبيانات المرجعية لاكتشاف قيم جديدة أو متناقضة من خلال التحقق من الصلاحية جودة البيانات. يمكن استخدام النتائج لتحديث البيانات المرجعية المُدارة بموجب إدارة البيانات الرئيسية (MDM) .
قد تخضع جميع البيانات التي يتم الحصول عليها من طرف ثالث إلى الفرق الداخلية للمؤسسة لفحص دقيق مقابل بيانات الطرف الثالث. تعتبر نتائج فحص جودة البيانات هذه ذات قيمة عند إدارتها على البيانات التي قامت بقفزات متعددة بعد نقطة إدخال تلك البيانات ولكن قبل أن يتم التصريح بهذه البيانات أو تخزينها لذكاء المؤسسة.
يمكن التحقق من صحة جميع أعمدة البيانات التي تشير إلى البيانات الرئيسية للتحقق من التناسق . يكتشف فحص جودة البيانات الذي يتم إدارته على البيانات عند نقطة الإدخال بيانات جديدة لعملية إدارة البيانات الرئيسية، لكن فحص جودة البيانات الذي يتم إدارته بعد نقطة الدخول يكتشف فشل (وليس استثناءات) في الاتساق.
مع تحول البيانات، يتم التقاط طوابع زمنية متعددة ومواقع تلك الطوابع الزمنية ويمكن مقارنتها مع بعضها البعض ومدى صلاحيتها للتحقق من قيمتها، وانحلالها، وأهميتها التشغيلية مقابل اتفاقية مستوى خدمة محددة (اتفاقية مستوى الخدمة). يمكن استخدام فحص التوقيت جودة البيانات هذا لتقليل معدل اضمحلال قيمة البيانات وتحسين سياسات الجدول الزمني لحركة البيانات.
عادة ما يتم فصل المنطق المعقد في المنظمة إلى منطق أبسط عبر عمليات متعددة. المعقولية يتحقق جودة البيانات من مثل هذا المنطق المعقد الذي يؤدي إلى نتيجة منطقية ضمن نطاق محدد من القيم أو العلاقات المتبادلة الثابتة (قواعد العمل المجمعة) يمكن التحقق من صحتها لاكتشاف العمليات التجارية المعقدة ولكن الحاسمة والقيم المتطرفة للبيانات، وانحرافها عن العمل كالمعتاد ) التوقعات، وقد توفر استثناءات محتملة تؤدي في النهاية إلى مشكلات في البيانات. قد يكون هذا الفحص عبارة عن قاعدة تجميع عامة بسيطة غارقة في جزء كبير من البيانات أو يمكن أن يكون منطقًا معقدًا على مجموعة من سمات المعاملة المتعلقة بالأعمال الأساسية للمؤسسة. يتطلب فحص جودة البيانات درجة عالية من المعرفة والفطنة في مجال الأعمال. قد يساعد اكتشاف مسائل المعقولية في إجراء تغييرات في السياسة والاستراتيجية من خلال إدارة الأعمال أو البيانات أو كليهما.
هناك العديد من الأماكن في حركة البيانات حيث قد لا تكون فحوصات جودة البيانات مطلوبة. على سبيل المثال، يعد التحقق من جودة البيانات للاكتمال والدقة في الأعمدة غير الفارغة مكررًا للبيانات التي تم الحصول عليها من قاعدة البيانات. وبالمثل، يجب التحقق من صحة البيانات للتأكد من دقتها فيما يتعلق بالوقت الذي يتم فيه تجميع البيانات عبر مصادر مختلفة. ومع ذلك، فهذه قاعدة عمل ولا ينبغي أن تكون في نطاق جودة البيانات.
للأسف، من منظور تطوير البرمجيات، غالبًا ما يُنظر إلى جودة البيانات على أنه شرط غير وظيفي. وعلى هذا النحو، لا يتم أخذ عمليات فحص / عمليات جودة البيانات الرئيسية في الاعتبار في حل البرنامج النهائي. في مجال الرعاية الصحية، تُنشئ التقنيات القابلة للارتداء أو شبكات منطقة الجسم كميات كبيرة من البيانات.[17] مستوى التفاصيل المطلوب لضمان جودة البيانات مرتفع للغاية وغالبًا ما يتم التقليل من شأنه. وينطبق هذا أيضًا على الغالبية العظمى من تطبيقات الصحة المحمولة والسجلات الصحية الإلكترونية وغيرها من الحلول البرمجية المتعلقة بالصحة. ومع ذلك، توجد بعض الأدوات مفتوحة المصدر التي تفحص جودة البيانات.[18] السبب الرئيسي لذلك، ينبع من التكلفة الإضافية المتضمنة إضافة درجة أعلى من الصرامة داخل بنية البرنامج.
يؤدي استخدام الأجهزة المحمولة في مجال الصحة، أو الصحة المتنقلة، إلى خلق تحديات جديدة لأمن البيانات الصحية وخصوصيتها، بطرق تؤثر بشكل مباشر على جودة البيانات.[3] تعد الصحة المحمولة استراتيجية متزايدة الأهمية لتقديم الخدمات الصحية في البلدان منخفضة ومتوسطة الدخل.[19] تُستخدم الهواتف المحمولة والأجهزة اللوحية لجمع البيانات وإعداد التقارير عنها وتحليلها في الوقت الفعلي تقريبًا. ومع ذلك، تُستخدم هذه الأجهزة المحمولة بشكل شائع في الأنشطة الشخصية أيضًا، مما يجعلها أكثر عرضة لمخاطر الأمان التي قد تؤدي إلى انتهاكات البيانات. دون ضمانات أمنية مناسبة، قد يؤدي هذا الاستخدام الشخصي إلى تعريض جودة البيانات الصحية وأمانها وسريتها للخطر.[20]
أصبحت جودة البيانات محورًا رئيسيًا لبرامج الصحة العامة في السنوات الأخيرة، خاصة مع زيادة الطلب على المساءلة.[21] يجب أن يستند العمل نحو أهداف طموحة تتعلق بمكافحة الأمراض مثل الإيدز والسل والملاريا إلى أنظمة مراقبة وتقييم قوية تنتج بيانات عالية الجودة تتعلق بتنفيذ البرنامج.[22] تسعى هذه البرامج ومدققو البرامج بشكل متزايد إلى أدوات لتوحيد وتبسيط عملية تحديد جودة البيانات، [23] والتحقق من جودة البيانات المبلغ عنها، وتقييم إدارة البيانات الأساسية وأنظمة إعداد التقارير الخاصة بالمؤشرات.[24] ومن الأمثلة على ذلك أداة مراجعة جودة البيانات الخاصة بمنظمة الصحة العالمية و MEASURE Evaluation [25] تعاونت منظمة الصحة العالمية والصندوق العالمي والتحالف العالمي للقاحات والتحصين وتقييم MEASURE لإنتاج نهج منسق لضمان جودة البيانات عبر مختلف الأمراض والبرامج.[26]
هناك عدد من الأعمال العلمية المكرسة لتحليل جودة البيانات في مصادر البيانات المفتوحة، مثل ويكيبيديا ويكي بيانات وDBpedia وغيرها. في حالة ويكيبيديا، قد يتعلق تحليل الجودة بالمقال بأكمله[27] تنفذ نمذجة الجودة هناك عن طريق طرق مختلفة. يستخدم بعضهم خوارزميات التعلم الآلي، بما في ذلك الغابة العشوائية،[28] شعاع الدعم الآلي،[29] وغيرها. تختلف طرق تقييم جودة البيانات في ويكيبيانات وDBpedia ومصادر البيانات المترابطة الأخرى.[30]
{{استشهاد بدورية محكمة}}
: الوسيط غير المعروف |PMCID=
تم تجاهله يقترح استخدام |pmc=
(مساعدة)
{{استشهاد بدورية محكمة}}
: الوسيط غير المعروف |PMCID=
تم تجاهله يقترح استخدام |pmc=
(help)صيانة الاستشهاد: دوي مجاني غير معلم (link)
{{استشهاد بدورية محكمة}}
: الاستشهاد بدورية محكمة يطلب |دورية محكمة=
(help) and الوسيط غير المعروف |trans_title=
تم تجاهله يقترح استخدام |عنوان مترجم=
(help)
Having a standardized data governance program in place means cleaning up corrupted or duplicated data and providing users with clean, accurate data as a basis for line-of-business software applications and for decision support analytics in business intelligence (BI) applications.
{{استشهاد بكتاب}}
: صيانة الاستشهاد: أسماء متعددة: قائمة المؤلفين (link)
{{استشهاد بكتاب}}
: صيانة الاستشهاد: أسماء متعددة: قائمة المؤلفين (link)
Validity refers to the usefulness, accuracy, and correctness of data for its application. Traditionally, this has been referred to as data quality.
{{استشهاد بدورية محكمة}}
: الوسيط غير المعروف |PMCID=
تم تجاهله يقترح استخدام |pmc=
(help)
{{استشهاد بدورية محكمة}}
: الوسيط غير المعروف |PMCID=
تم تجاهله يقترح استخدام |pmc=
(مساعدة)
{{استشهاد بكتاب}}
: |عمل=
تُجوهل (مساعدة)
دورة جودة البيانات من مركز التعلم الصحي العالمي