Karışıklık Matrisi

Bir karışıklık matrisi, gerçek değerlerin bilinmekte olduğu bir dizi test verisi üzerinde, bir sınıflandırma modelinin performansını tanımlamak için sıklıkla kullanılan bir tablodur.  Örnek bir karışıklık matrisi aşağıda verilmiştir. Karışıklık matrisini anlamak kolaydır, ancak terminolojisi kafa karıştırıcı olabilir.

posneg

İkili sınıflandırıcı için örnek bir karışıklık matrisiyle başlayalım ancak birden fazla sınıfın olması durumunda tablo kolayca genişletilebilir:

İkili sınıflandırıcı için örnek karışıklık matrisi aşağıdaki gibi verilmiş olsun.

karisiklikmatrisi2

Bu Matristen Ne Öğrenebiliriz?

Gerçek Pozitifler (TP): Bunlar gerçek değeri 1 ve tahmin ettiğimiz değerin de 1 olduğu örneklerdir.

Gerçek Negatifler (TN): Bunlar gerçek değeri 0 ve tahmin ettiğimiz değerin de 0 olduğu örneklerdir.

Yanlış Pozitifler (FP): Bunlar gerçek değeri 0 ancak tahmin ettiğimiz değerin 1 olduğu örneklerdir.

Yanlış Negatifler (FN): Bunlar gerçek değeri 1 ancak tahmin ettiğimiz değerin 0 olduğu örneklerdir.

Karışıklık matrisinden hesaplanan bazı oranlar vardır. TP, TN, FP ve FN’nin birbirleriyle ilişkisini gösteren bu terminolojiler aşağıda verilmiştir.

TOPLAM = TP + TN + FP + FN

GERÇEK POZİTİFLER = TP + FN

GERÇEK NEGATİFLER = TN + FP

Doğruluk Oranı (Accuracy Rate): Genel olarak, sınıflayıcının ne sıklıkta doğru tahmin ettiğinin bir ölçüsüdür.

(TP + TN) / TOPLAM

Yanlış Sınıflandırma Oranı (Misclassification Rate): Genel olarak, sınıflayıcının ne sıklıkta yanlış tahmin ettiğinin bir ölçüsüdür. Hata Oranı olarak da bilinir (Error Rate).

(FP + FN) / TOPLAM

Gerçek Pozitif Değerlerin Oranı (True Positive Rate): Sınıflayıcının ne kadar gerçek pozitif değeri doğru tahmin ettiğinin bir ölçüsüdür. Hassasiyet, İsabet Oranı veya Hatırlama olarak da bilinir. (Sensitivity, Hit Rate or Recall)  Mümkün olduğu kadar yüksek olmalıdır.

TP / GERÇEK POZİTİFLER

Gerçek Negatif Değerlerin Oranı (True Negative Rate): Sınıflayıcının ne kadar gerçek negatif değeri doğru tahmin ettiğinin bir ölçüsüdür. Özgüllük veya Seçicilik olarak da bilinir. (Specificity or Selectivity)

TN / GERÇEK NEGATİFLER

Yanlış Pozitif Değerlerin Oranı (False Positive Rate): Gerçek değeri 0 olmasına karşın 1 olarak tahmin edilenlerin oranıdır. Yan Ürün olarak da bilinir. (Fall-out)

FP / GERÇEK NEGATİFLER

Yanlış Negatif Değerlerin Oranı (False Negative Rate): Gerçek değeri 1 olmasına karşın 0 olarak tahmin edilenlerin oranıdır. Kayıp oranı olarak da bilinir. (Miss Rate)

FN / GERÇEK POZİTİFLER

Hassasiyet (Precision): Tüm sınıflardan, doğru olarak ne kadar tahmin edildiğinin bir ölçüsüdür. Mümkün olduğu kadar yüksek olmalıdır. Pozitif Tahmin Edici Değer olarak da bilinir.  (Positive Predictive Value)

TP / TP + FP

Yaygınlık (Prevalence): Tahminleme sonunda ne sıklıkta 1 değerinin bulunduğunun ölçüsüdür.

GERÇEK POZİTİFLER / TOPLAM

Boş Hata Oranı (Null Error Rate): Çoğunluk sınıfına ait değer (1 veya 0) sürekli tahmin edilseydi ne oranda yanlış tahminleme yapıldığının bir ölçüsüdür. Bu, sınıflandırıcıların karşılaştırılması için yararlı bir temel metrik olabilir. Bazen en iyi sınıflandırmayı yapan modelin hata oranı, boş hata oranından daha yüksek olabilir; buna Doğruluk Paradoksu (Accuracy Paradox) denir.

Cohen’s Kappa: Sınıflandırıcının aslında ne kadar iyi performans gösterdiğinin bir ölçüsüdür. Diğer bir deyişle, doğruluk ve boş hata oranı arasında büyük bir fark varsa, bir modelin yüksek bir Kappa puanı olacaktır. Cohen’s Kappa sadece iki sınıflandırıcı arasında karşılaştırma yapmaya yarar, eğer ikiden fazla sınıflandırıcı varsa Fleiss’s Kappa kullanılır.

F Puanı (F Score): Bu, gerçek pozitif değerlerin oranının (recall) ve hassasiyetin (precision) harmonik ortalamasıdır. Sınıflandırıcının ne kadar iyi performans gösterdiğinin bir ölçüsüdür ve sınıflandırıcıları karşılaştırmakta sıklıkla kullanılır.

2 * Hassasiyet * Gerçek Pozitif Değerlerin Oranı

_________________________________________

Hassasiyet + Gerçek Pozitif Değerlerin Oranı

ROC Eğrisi (ROC Curve): Bu, sınıflandırıcının tüm olası değerler üzerinde performansını özetlemek için kullanılan bir grafiktir. Belirli bir sınıfa gözlem atanması eşiğini değiştirdiğinizde Gerçek Pozitif Değerlerin Oranına (Hassasiyet) (x ekseni) karşı Yanlış Pozitif Değerlerin Oranını (Özgüllük)  (y ekseni) çizerek oluşturulur. ROC Eğrisi, Hassasiyet / Özgüllük (Sensitivity / Specificity) raporu oluşturmaya yarar. ROC eğrisinin altındaki alan (Area Under Curve (AUC)), bir parametrenin iki sınıf arasında ne kadar iyi ayırt edilebileceğinin bir ölçüsüdür.

Logaritmik Kayıp (Logarithmic Loss): Logaritmik kayıp (log kaybı), çıktısı 0 ile 1 arasında bir olasılık değeri olan bir sınıflandırma modelinin, tahmin edilen değerin gerçek değerinden ne kadar değişiklik gösterdiğine bağlı olan belirsizliğini hesaba katarak  performansını ölçer.

Designed by Macrovector