علم البيانات[3] (بالإنكليزية: Data science) علم يغلب عليه تداخل الاختصاصات والذي يقوم على استخدام الأساليب العلمية، والمعالجات والخوارزميات والنظم لاستخراج المعرفة والأفكار من البيانات بشكليها، سواء مُهيكلة، أو غير مهيكلة، بشكل مشابه للتنقيب في البيانات. كما يعتمد علم البيانات على تقنيات تعلم الآلة والذكاء الصناعي وبرامج معالجة البيانات الضخمة. يُسمى الخبير بها عالم بيانات[3] (بالإنكليزية: Data scientist).
ويُعرف علم البيانات بأنه «مفهوم قائم على توحيد الإحصاء، وتحليل البيانات وتعلم الآلة والوسائل المرتبطة بهم من أجل فهم وتحليل ظاهرة فعلية باستخدام البيانات».
وهو يقوم بتوظيف نظريات وأساليب مستمدة من حقول معرفية متعددة في سياق الرياضيات والإحصاء وعلم المعلومات وعلوم الحاسب.
يتصور جيم غراي الفائز بجائزة تورينج بأن علم البيانات «نموذج رابع» للعلوم (التجريبية والنظرية والحسابية والآن البيانات)، وأكد أن «كل شيء عن العلوم يتغير بسبب تأثير تكنولوجيا المعلومات» وطوفان البيانات.[4][5]
في عام 2012 حينما أطلقت مجلة بيزنس هارفارد ريفيو على علم البيانات "بأنها الوظيفة الأكثر إثارة في القرن الحادي والعشرين، أصبح علم البيانات عبارة شائعة. وتُستخدم الآن بصفة تبادلية مع المفاهيم السابقة مثل تحليل الأعمال، وذكاء الأعمال، والتحليل التنبؤي، والإحصاء. حتى أن هانز روزلينج أعاد صياغة عبارة علم البيانات المثير، في وثائقي هيئة الإذاعة البريطانية عام 2011 في تلك المقولة: "أصبح الإحصاء الآن أكثر الموضوعات المحيطة بنا إثارة". وأشار نيت سيلفر إلى أن علم البيانات قد جعل من الإحصاء أكثر إثارة. وفي حالات عديدة أعُيد تسمية العديد من المناهج والحلول السابقة بعلم البيانات لكي تصبح أكثر جاذبية. وفي حين تقدم بعض الجامعات حالياً شهادات في علم البيانات، غير أنه لا يوجد توافق في الآراء حول تعريف أو محتويات المناهج المناسبة.
مصطلح «علم البيانات» (الذي استخدم في الأصل بالتبادل مع "Datalogy") موجود لأكثر من ثلاثين عاما، وكان يستخدم في البداية كبديل عن علوم الكمبيوتر من قبل بيتر ناور في عام 1960. حيث في عام 1974، نشر بيتر ناور مسح موجز لأساليب الكمبيوتر، والذي استخدم مصطلح «علم البيانات» بحرية في دراسته لطرق معالجة البيانات المعاصرة التي تستخدم في مجموعة واسعة من التطبيقات.
على الرغم من أن كل من محللي وعلماء البيانات يتشاركون العديد من الأهداف والمهام إلا أنه هناك بعض الاختلافات.
هذه قائمة قصيرة بأهم المهام والأهداف التي يعمل عليها
1-التنبؤ بقيم معينة بناءً على بيانات قديمة.
• التنبؤ بإجمالي الربح الذي سوف تحصل عليه الشركة خلال الشهر القادم.
• التنبؤ بعدد المستخدمين الجدد للتطبيق في شهر معين.
2-عمليات التصنيف | Classification
• تصنيف البريد الإلكتروني بأنه غير هام أو هام.
3-بناء أنظمة التوصية | Recommendation Systems
• عندما تقوم بعملية شراء لمنتج ما، سوف تلاحظ وجود قائمة تخبرك بمنتجات شبيه بالمنتج الذي اخترته.
• أنظمة التوصية في مواقع مشاهدة الأفلام.
4- الكشف عن الأنماط | Pattern Detection
•اكتشاف العلاقات بين البيانات الموجودة التي لا يمكن الكشف عنها بالطرق التقليدية.
5-التحليل الاستكشافي للبيانات | Exploratory Data Analysis
•إجراء بعض العمليات على البيانات لفهم طبيعتها والحصول على فكرة أولية عما تحتويه من معلومات.
6-قياس جودة أداء الخوارزميات وتحسين نتائجها.
محلل البيانات
يهتم بشرح وفهم الماضي |
عالم البيانات
يركز على تحسين المستقبل |
---|---|
تقرير شهري بأكثر الأفلام والمسلسلات مشاهدة على الموقع. | التنبؤ بعدد مشاهدات فيلم معين قبل طرحه. |
جمع وتحليل البيانات الخاصة باستبيانات رضا المستخدمين. | بناء نظام توصية للأفلام. |
تحليل المناطق/البلاد التي يتواجد فيها عدد كبير من المستخدمين وإبلاغ قسم التسويق بنتائج التحليل. | اكتشاف أنماط وعلاقات بالبيانات الموجودة باستخدام خوارزميات تعلم الآلة واستخدام هذه الاكتشافات في تحسين خدمات الموقع. |
إعداد التقارير الخاصة بمؤشرات الأداء الرئيسية الخاصة بالشركة. (KPI)
(عدد المشتركين الجدد-إجمالي الربح الشهري-عدد الأشخاص الذين يخرجون من الفيلم قبل نهايته-...) |
تطبيق خوارزميات التصنيف (Classification) لتحليل الصور الموجودة في فيلم معين وتصنيفه في إحدى الفئات التالية:
-يحتوي مشاهد سيئة -لا يحتوي مشاهد سيئة وفي حال كان عمر المشاهد غير مناسب فسيتم تنبيهه تلقائياً. |
1-الحصول على البيانات المتعلقة بالموضوع الذي تريد أن تكتشفه أو المشكلة المراد حلها.
2-معالجة البيانات والتأكد من صحتها وخلوها من الأخطاء التي من الممكن أن تؤثر على النتائج.
3-القيام بالتحليل الاستكشافي للبيانات للحصول على نظرة شاملة عن البيانات المتعامل معها.
4-بناء، تطوير، وتطبيق الخوازميات والنماذج اللازمة لحل المشكلة والحصول على النتائج.
5-عرض النتائج النهائية على أصحاب القرار.
يهتم هذا القسم في اكتشاف المعرفة داخل البيانات. لتمكين أصحاب الأعمال من اتخاذ قرارات تحقق لهم فائدة أكبر.
حيث يعتمد بشكل كبير على علم الاحصاء (تحليل البيانات الكمي والنوعي).
على سبيل المثال تطبيق موبايل لبيع الملابس يعمل على أجهزة الأيفون والاندرويد.
البيانات (Data): أظهرت البيانات أنه خلال الشهر الماضي تم استخدام التطبيق من قبل 5000 مستخدم.
التحليلات (Analytics): يمكن استخدام التحليلات لإيجاد عدد المستخدمين الذين استعملوا التطبيق من خلال الايفون.
فهم التحليلات (Insights): من الممكن اكتشاف أن مستخدمي الايفون هم أقل احتمالاً للشراء عبر التطبيق بنسبة 40%.
الخطوة التالية تتمثل بمعرفة السبب وراء انخفاض نسبة التعاملات باستخدام اجهزة الايفون مقارنة بباقي الأجهزة.
هل يمكن أن يتعلق هذا الأمر بصعوبة وتعقيد واجهة استخدام التطبيق في الايفون؟
فإذا كان الأمر صحيحاً، فإن جعل واجهة الاستخدام بسيطة أكثر، سوف يرفع من احتمال عملية شراء المنتجات عبر المستخدمين الذين يملكون أيفون.
يستخدم هذا القسم البيانات الموجودة لدى الشركة، كمدخلات إلى الخوارزميات والنماذج التي يقوم ببنائها “عالم البيانات”. يعتمد هذا القسم بشكل كبير على معرفة الشخص بعلم الحاسوب وخوارزميات تعلم الآلة والذكاء الصناعي.
{{استشهاد بخبر}}
: صيانة الاستشهاد: لغة غير مدعومة (link)
{{استشهاد بدورية محكمة}}
: صيانة الاستشهاد: دوي مجاني غير معلم (link)
{{استشهاد بخبر}}
: صيانة الاستشهاد: لغة غير مدعومة (link)