در حوزهٔ هوش مصنوعی، ماتریس در هم ریختگی (به انگلیسی: confusion matrix) به ماتریسی گفته میشود که در آن عملکرد الگوریتمهای مربوطه را نشان میدهند. معمولاً چنین نمایشی برای الگوریتمهای یادگیری با ناظر استفاده میشود، اگرچه در یادگیری بدون ناظر نیز کاربرد دارد. معمولاً به کاربرد این ماتریس در الگوریتمهای بدون ناظر ماتریس تطابق می گویند. هر ستون از ماتریس، نمونهای از مقدار پیشبینی شده را نشان میدهد. در صورتی که هر سطر نمونهای واقعی (درست) را در بر دارد. اسم این ماتریس نیز از آنجا بدست میآید که امکان این را آسانتر اشتباه و تداخل بین نتایج را مشاهده کرد. در خارج از هوش مصنوعی این ماتریس معمولاً ماتریس پیشایندی (contingency matrix) یا ماتریس خطا (error matrix) نامیده میشود.[۱]
در مباحث هوش مصنوعی از این جدول برای تعیین مقدار شاخصهای ارزیابی مانند دقت (Precision) و صحت (Recall) استفاده میشود. دقت عبارت است از اینکه "چه میزان از نمونههای انتخابی درست هستند" و صحت بر این مفهوم که "چه میزان از نمونههای صحیح موجود انتخاب شده اند" دلالت دارند. البته ممکن است در منابعی، Accuracy نیز دقت ترجمه شود که مفهومی کاملاً متفاوت داشته و بر میزان نمونههایی اشاره دارد که سیستم در تشخیص آنها موفق بودهاست. [۲]
فرض کنیم الگوریتمی برای کلاس بندی بین گربهها، سگها، خرگوشها طراحی کردهایم. فرض کنیم در این مثال ۸ گربه، ۶ سگ و ۱۳ خرگوش داریم. در سطر مربوط به گربهها، ۵ مورد به عنوان گربه و 3 مورد به عنوان سگ دسته بندی شدهاند. در صورتی که در سطر مربوط به خرگوشها، تنها چند مورد اشتباه وجود دارد. به سادگی مشاهده میشود که عملکرد الگوریتم در تمییز دستههای خرگوشها نسبت به گربهها بسیار بهتر است. مشخص است که اعداد روی قطر اصلی ماتریس نمایش تعداد کلاس بندیهای درست هستند. لذا در صورتی که تمام اعداد غیر روی قطر اصلی صفر باشند، الگوریتم دارای دقت حداکثر است.
برای بدست آوردن Performance یک دسته بندیکننده کافی است مجموع عناصر قطر اصلی را بر مجموع کل عناصر ماتریس تقسیم نمود.
کلاس پیشبینی شده | ||||
---|---|---|---|---|
گربه | سگ | خرگوش | ||
کلاس واقعی class |
گربه | ۵ | ۳ | ۰ |
سگ | ۲ | ۳ | ۱ | |
خرگوش | ۰ | ۲ | ۱۱ |
واقعیت | ||||||
جامعه آماری | در واقعیت مثبت | در واقعیت منفی | شیوع = Σ Condition positive/Σ Total population | صحت (ACC) = Σ True positive + Σ True negative/Σ Total population | ||
پیشبینی | پیشبینی مثبت |
مثبت صادق | مثبت کاذب خطای نوع اول |
Positive predictive value (PPV), دقت و بازیابی = Σ True positive/Σ Predicted condition positive | میزان کشف اشتباه (FDR) = Σ False positive/Σ Predicted condition positive | |
پیشبینی منفی |
منفی کاذب خطای نوع دوم |
منفی صادق | False omission rate (FOR) = Σ False negative/Σ Predicted condition negative | Negative predictive value (NPV) = Σ True negative/Σ Predicted condition negative | ||
حساسیت و ویژگی (TPR), دقت و بازیابی، حساسیت و ویژگی، probability of detection, توان آماری = Σ True positive/Σ Condition positive | False positive rate (FPR), بازیابی اطلاعات، probability of false alarm = Σ False positive/Σ Condition negative | Positive likelihood ratio (LR+) = TPR/FPR | Diagnostic odds ratio (DOR) = LR+/LR− | امتیاز اف ۱ = 2 · Precision · Recall/Precision + Recall | ||
False negative rate (FNR), Miss rate = Σ False negative/Σ Condition positive | حساسیت و ویژگی (SPC), Selectivity, حساسیت و ویژگی (TNR) = Σ True negative/Σ Condition negative | Negative likelihood ratio (LR−) = FNR/TNR |
واژگان و مشتقات
ماتریس درهمریختگی
منبع: Fawcett (2006),[۳] Powers (2011),[۴] Ting (2011),[۵] and CAWCR[۶]