هذه مقالة غير مراجعة.(أكتوبر 2021) |
قد يكون من الصعب تفسير البيانات متعددة الأبعاد، وهي البيانات التي تتطلب أكثر من بعدين أو ثلاثة أبعاد لتمثيلها. تتمثل إحدى طرق تمثيلها في افتراض أن البيانات ذات الأهمية تكمن في مساحة أقل بُعدًا. إذا كانت البيانات ذات الأهمية منخفضة بشكل كافٍ، فيمكن تصور البيانات في الفضاء ذي الأبعاد المنخفضة.
فيما يلي ملخص لبعض الطرق المعروفة لتقليل الأبعاد غير الخطية.[1] ترتبط العديد من طرق تقليل الأبعاد غير الخطية بالطرق الخطية التالية. حيث يمكن تصنيف الطرق غير الخطية على نطاق واسع إلى مجموعتين: تلك التي توفر تخطيطًا (إما من الفضاء عالي الأبعاد إلى التضمين منخفض الأبعاد أو العكس)، وتلك التي تعطي تصورًا فقط للأبعاد.[2]
ضع في اعتبارك مجموعة بيانات ممثلة كمصفوفة أو كجدول قاعدة بيانات، بحيث يمثل كل صف مجموعة من السمات المحددة أو الأبعاد التي تصف مثيلًا معينًا لشيء معين. إذا كان عدد السمات كبيرًا، فإن مساحة الصفوف كبيرة. وبالتالي، كلما زادت الأبعاد، زادت صعوبة أخذ عينات من الفضاء. هذا يسبب العديد من المشاكل. تميل الخوارزميات التي تعمل على بيانات عالية الأبعاد يسبب التعقيد ووقت كثير للغاية. العديد من خوارزميات التعلم الآلي، على سبيل المثال، تعارض مع البيانات عالية الأبعاد. غالبًا ما يؤدي تقليل البيانات إلى أبعاد أقل إلى جعل خوارزميات التحليل أكثر كفاءة، ويمكن أن يساعد خوارزميات التعلم الآلي في إجراء تنبؤات أكثر دقة.[3]
غالبًا ما يواجه البشر صعوبة في فهم البيانات ذات الأبعاد العالية. وبالتالي، فإن تقليل البيانات إلى عدد صغير من الأبعاد مفيد للفهم.
غالبًا ما يشار إلى تمثيلات البيانات ذات الأبعاد المختصرة باسم «المتغيرات الجوهرية». يشير هذا الوصف إلى أن هذه هي القيم التي تم إنتاج جميع البيانات منها. على سبيل المثال، ضع في اعتبارك مجموعة بيانات تحتوي على صور للحرف (A)، والذي تم تحجيمه وتدويره بمقادير متفاوتة. تحتوي كل صورة على 32 × 32 بكسل يمكن تمثيل كل صورة كمتجه من قيم 1024 بكسل. كل صف عبارة عن عينة على مشعب ثنائي الأبعاد في مساحة 1024 بُعدًا. الأبعاد الجوهرية هي اثنان، لأن المتغيرين هما (الدوران والمقياس) تم تنويعهما من أجل إنتاج هذه البيانات. المعلومات حول شكل أو مظهر الحرف (A) ليست جزءًا من المتغيرات الجوهرية لأنها هي نفسها في كل حالة. سيؤدي تقليل الأبعاد غير الخطية إلى تجاهل المعلومات المرتبطة بشكل الحرف (A) واسترداد المعلومات المتغيرة فقط (الدوران والمقياس). تُظهر الصورة الموجودة على اليمين صورًا نموذجية من مجموعة البيانات هذه لتوفير مساحة.
بالمقارنة، إذا تم استخدام تحليل المكون الرئيسي، وهو خوارزمية لتقليل الأبعاد الخطية، لتقليل مجموعة البيانات نفسها إلى بُعدين،[4]فإن القيم الناتجة ليست منظمة بشكل جيد كما في الطرق غير الخطية.