Sınıflandırma Metrikleri


Karışıklık Matrisi Bir karışıklık matrisi, gerçek değerlerin bilinmekte olduğu bir dizi test verisi üzerinde, bir sınıflandırma modelinin performansını tanımlamak için sıklıkla kullanılan bir tablodur.  Örnek bir karışıklık matrisi aşağıda verilmiştir. Karışıklık matrisini anlamak kolaydır, ancak terminolojisi kafa karıştırıcı olabilir. İkili sınıflandırıcı için örnek bir karışıklık matrisiyle başlayalım ancak birden fazla sınıfın olması durumunda tablo kolayca genişletilebilir: İkili sınıflandırıcı için örnek karışıklık matrisi aşağıdaki gibi verilmiş … Okumaya devam et Sınıflandırma Metrikleri

Karar Ağaçları (Decision Trees)


Ağaç tabanlı öğrenme algoritmaları, en çok kullanılan ve denetimli öğrenme yöntemlerinden biri olarak düşünülmektedir. Ağaç tabanlı yöntemler, yüksek doğruluk, kararlılık ve yorumlanma kolaylığına sahiptir. Doğrusal modellerin aksine doğrusal olmayan ilişkileri de oldukça iyi eşleyebilirler. Sınıflandırma veya regresyon, elde edilen her türlü sorunun çözümünde uyarlanabilirler. Karar ağaçları, rastgele orman, gradyan güçlendirme gibi yöntemler, her türlü veri bilimi probleminde yaygın şekilde kullanılmaktadır Karar ağacı öğrenmesi, endüktif(inductive) çıkarım … Okumaya devam et Karar Ağaçları (Decision Trees)

K-En Yakın Komşu (K-Nearest Neighbors(KNN))


KNN, Denetimli Öğrenmede sınıflandırma ve regresyon için kullanılan algoritmalardan biridir. En basit makine öğrenmesi algoritması olarak kabul edilir. Diğer Denetimli Öğrenme algoritmalarının aksine, eğitim aşamasına sahip değildir. Eğitim ve test hemen hemen aynı şeydir. Tembel bir öğrenme türüdür. Bu nedenle, kNN, geniş veri setini işlemek için gereken algoritma olarak ideal bir aday değildir. KNN ile temelde yeni noktaya en yakın noktalar aranır. K, bilinmeyen noktanın … Okumaya devam et K-En Yakın Komşu (K-Nearest Neighbors(KNN))

Naive Bayes Sınıflandırıcısı (Naive Bayes Classifier)


Naïve Bayes Sınıflandırıcı adını İngiliz matematikçi Thomas Bayes’ten (yak. 1701 – 7 Nisan 1761) alır. Naïve Bayes Sınıflandırıcı Örüntü tanıma problemine ilk bakışta oldukça kısıtlayıcı görülen bir önerme ile kullanılabilen olasılıkcı bir yaklaşımdır. Bu önerme örüntü tanıma da kullanılacak her bir tanımlayıcı öznitelik ya da parametrenin istatistik açıdan bağımsız olması gerekliliğidir. Her ne kadar bu önerme Naive Bayes sınıflandırıcının kullanım alanını kısıtlasa da, genelde istatistik … Okumaya devam et Naive Bayes Sınıflandırıcısı (Naive Bayes Classifier)

Destek Vektör Makineleri (Support Vector Machine)


Makine öğrenmesinde , destek vektör makineleri (SVM’ler  vektörel ağları destekler), sınıflandırma ve regresyon analizi için kullanılan veriyi analiz eden ilişkili öğrenme algoritmalarıyla denetimli öğrenme modelleridir. Her biri, her iki kategoriden birine ya da diğerine ait olarak işaretlenmiş bir dizi eğitim örneği verildiğinde, bir SVM eğitim algoritması, bir olasılık dışı ikili doğrusal sınıflandırıcı haline getirerek bir kategoriye ya da diğerine yeni örnekler atayan bir model oluşturur … Okumaya devam et Destek Vektör Makineleri (Support Vector Machine)

Sorun Belirleme: Hangi Makine Öğrenmesi Algoritması Kullanılmalı


Makine öğrenmesi: Sorun Belirleme Genel olarak, bir öğrenme problemi n veri örneği setini inceler ve daha sonra bilinmeyen verilerin özelliklerini tahmin etmeye, öngörmeye çalışır. Eğitim Seti ve Test Seti Makine öğrenmesi, bir veri kümesinin bazı özelliklerini öğrenmek ve bunları yeni verilere uygulamakla ilgilidir. Bu yüzden bir algoritmayı değerlendirmek için makine öğrenmesindeki ortak uygulama, eldeki veriyi iki gruba ayırmaktır; Veri özelliklerini öğrendiğimiz eğitim setini ve bunları … Okumaya devam et Sorun Belirleme: Hangi Makine Öğrenmesi Algoritması Kullanılmalı

Scikit-Learn: Lojistik Regresyon ve Iris Veri Seti


İris – Süsen Çiçeği Örnek olarak kullanacagimiz veri seti yapay ögrenme alaninin en popüler veri setlerinden “Iris” veri seti. Iris veri seti 3 Iris bitki türüne (Iris setosa, Iris virginica and Iris versicolor) ait, her bir türden 50 örnek olmak üzere toplam 150 örnek sayisina sahip bir veri setidir. Her bir örnek için 4 özellik tanimlanmistir: taç yaprak uzunlugu, taç yaprak genisligi, çanak yaprak genisligi, çanak yaprak uzunluğu. … Okumaya devam et Scikit-Learn: Lojistik Regresyon ve Iris Veri Seti

ROC Eğrisi (ROC Curve)


ROC eğrisi ve eksiksiz bir hassasiyet / özgüllük raporu oluşturmayı sağlar. ROC eğrisinde, gerçek pozitif oran (Hassasiyet), bir parametrenin farklı kesme noktaları için yanlış pozitif oranı (100-Özgüllük) işlevinde çizilir. ROC eğrisindeki her nokta belirli bir karar eşiğine karşılık gelen bir duyarlılık / özgüllük çifti temsil eder. ROC eğrisi altındaki alan (AUC), bir parametrenin iki  grubun ne kadar iyi ayırt edilebildiğinin bir ölçüsüdür. Örneğin iki ayrı … Okumaya devam et ROC Eğrisi (ROC Curve)

Lojistik Regresyon (Logistic Regression)


Lojistik regresyon, bağımlı değişkenin kategorik bir değişken olduğu regresyon problemi gibidir. Doğrusal sınıflandırma problemlerinde yaygın bir biçimde kullanılır. Regresyon denilmesine rağmen burada bir sınıflandırma söz konusudur. Lojistik regresyon, bir sonucu belirleyen bir veya daha fazla bağımsız değişken bulunan bir veri kümesini analiz etmek için kullanılan istatistiksel bir yöntemdir. Sonuç, ikili bir değişkenle ölçülür (yalnızca iki olası sonuç vardır). Lojistik regresyonda, bağımlı değişken ikili veya ikili, … Okumaya devam et Lojistik Regresyon (Logistic Regression)

Sınıflandırma (Classification)


Sınıflandırmada, bir veri kümesi (data set) birbirinden farklı ve önceden belirlenmiş sınıflardan birine atanmasıdır. Sınıflandırma algoritmaları, verilen eğitim kümesinden hangi veriyi hangi sınıfa atayacağını öğrenir.  Daha sonra test verilerini doğru sınıflara atamaya çalışır. Verilerin sınıflarını belirten değerlere etiket (label) denir. Sınıflandırma aslında doğrusal bir fonksiyon değildir. Sınıflandırma problemine, y’nin kesikli olduğu gerçeğini göz ardı ederek yaklaşabiliriz ve x değerini tahmin etmeye çalışmak için doğrusal regresyon … Okumaya devam et Sınıflandırma (Classification)