Veri Madenciliği Nedir?


Basit bir tanım yapmak gerekirse veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır. Veri madenciliği deyimi yanlış kullanılan bir deyim olabileceğinden buna eş değer başka kullanımlar da literatüre geçmiştir. Veritabanlarında bilgi madenciliği, bilgi çıkarımı, veri ve örüntü analizi, veri arkeolojisi gibi. Bunların arasındaki en … Okumaya devam et Veri Madenciliği Nedir?

K-Ortalama (K-Means)


Basit bir örnekle başlayalım. İki boyutlu düzlemde aşağıdaki gibi verilerimiz olsun. Bu verileri iki ayrı kümeye ayırmaya çalışalım. Rastgele iki tane küme merkezi belirleyelim.   Her bir noktayı en yakın küme merkeze yeniden atayalım.  Doğru bir atama yapamadık gibi gözüküyor. Küme merkezlerini yeniden hesaplayalım.   Hiçbir iyileştirme yapılamayana kadar son iki adımı tekrarlamalıyız. İki ardışık yinelemede iki küme arasında daha fazla veri noktası değiştirilmediğinde, açıkça … Okumaya devam et K-Ortalama (K-Means)

Kümeleme (Clustering)


Küme analizi veya kümeleme, bir grup nesneyi aynı gruba diğer gruplardaki olanlardan daha birbirlerine benzer şekilde gruplandırmaktır. Basitçe, amaç benzer özelliklere sahip grupları ayırmak ve onları kümelere atamaktır. Örneğin, bir tekstil şirketinin başındasınız ve işinizi büyütmek için müşterilerinizin tercihlerini anlamak istiyorsunuz. Her müşterinin ayrıntılarına bakmanız ve her biri için benzersiz bir iş stratejisi geliştirmeniz gerekiyor, ancak bu neredeyse imkansız. Yapabileceğiniz, tüm müşterilerinizi satın alma alışkanlıklarına … Okumaya devam et Kümeleme (Clustering)

Softmax Regresyonu (Softmax Regression)


Softmax Regresyon lojistik regresyonun genelleştirilmiş halidir. Lojistik Regresyon Modeli sınıf etiketi y’nin olası iki değeri için çalışabilmektedir, Softmax Regresyon Modeli ise sınıf etiketlerinin daha fazla değer alabileceği sınıflandırma sorunlarıyla ilgilenmektedir. Bu model, MNIST rakam sınıflaması problemindeki 10 farklı sayıyı ayırt etmek gibi sorunlar için kullanılır. Softmax Regresyon denetimli bir öğrenme algoritmasıdır ancak derin öğrenme, denetimsiz özellik öğrenme yöntemleri ile birlikte de kullanılabilmektedir. Lojistik Regresyonda, m etiketli,  girdisi … Okumaya devam et Softmax Regresyonu (Softmax Regression)

Veri Araştırması (Data Exploration)


Makine Öğrenmesi, Veri Madenciliği, Veri Analizi, Veri Bilimi bu içiçe geçmiş tüm disiplinler veri ile çalışmaktadır. Veriyi anlamak, veri ile çalışan bütün disiplinler için en başta gelmektedir. Veri Araştırması, verilerin istatistiksel ve görselleştirme teknikleriyle tanımlanması ile ilgilidir. Veri araştırması için herhangi bir kısayol yoktur. Makine Öğrenmesi ile bir süre uğraştıktan sonra, modelin doğruluğunu geliştirme konusunda mücadele ettiğinizin farkına varacaksınız. Böyle bir durumda veri araştırması teknikleri aklınıza … Okumaya devam et Veri Araştırması (Data Exploration)

Naive Bayes Sınıflandırıcısı (Naive Bayes Classifier)


Naïve Bayes Sınıflandırıcı adını İngiliz matematikçi Thomas Bayes’ten (yak. 1701 – 7 Nisan 1761) alır. Naïve Bayes Sınıflandırıcı Örüntü tanıma problemine ilk bakışta oldukça kısıtlayıcı görülen bir önerme ile kullanılabilen olasılıkcı bir yaklaşımdır. Bu önerme örüntü tanıma da kullanılacak her bir tanımlayıcı öznitelik ya da parametrenin istatistik açıdan bağımsız olması gerekliliğidir. Her ne kadar bu önerme Naive Bayes sınıflandırıcının kullanım alanını kısıtlasa da, genelde istatistik … Okumaya devam et Naive Bayes Sınıflandırıcısı (Naive Bayes Classifier)

Destek Vektör Makineleri (Support Vector Machine)


Makine öğrenmesinde , destek vektör makineleri (SVM’ler  vektörel ağları destekler), sınıflandırma ve regresyon analizi için kullanılan veriyi analiz eden ilişkili öğrenme algoritmalarıyla denetimli öğrenme modelleridir. Her biri, her iki kategoriden birine ya da diğerine ait olarak işaretlenmiş bir dizi eğitim örneği verildiğinde, bir SVM eğitim algoritması, bir olasılık dışı ikili doğrusal sınıflandırıcı haline getirerek bir kategoriye ya da diğerine yeni örnekler atayan bir model oluşturur … Okumaya devam et Destek Vektör Makineleri (Support Vector Machine)

Lojistik Regresyon (Logistic Regression)


Lojistik regresyon, bağımlı değişkenin kategorik bir değişken olduğu regresyon problemi gibidir. Doğrusal sınıflandırma problemlerinde yaygın bir biçimde kullanılır. Regresyon denilmesine rağmen burada bir sınıflandırma söz konusudur. Lojistik regresyon, bir sonucu belirleyen bir veya daha fazla bağımsız değişken bulunan bir veri kümesini analiz etmek için kullanılan istatistiksel bir yöntemdir. Sonuç, ikili bir değişkenle ölçülür (yalnızca iki olası sonuç vardır). Lojistik regresyonda, bağımlı değişken ikili veya ikili, … Okumaya devam et Lojistik Regresyon (Logistic Regression)

Sınıflandırma (Classification)


Sınıflandırmada, bir veri kümesi (data set) birbirinden farklı ve önceden belirlenmiş sınıflardan birine atanmasıdır. Sınıflandırma algoritmaları, verilen eğitim kümesinden hangi veriyi hangi sınıfa atayacağını öğrenir.  Daha sonra test verilerini doğru sınıflara atamaya çalışır. Verilerin sınıflarını belirten değerlere etiket (label) denir. Sınıflandırma aslında doğrusal bir fonksiyon değildir. Sınıflandırma problemine, y’nin kesikli olduğu gerçeğini göz ardı ederek yaklaşabiliriz ve x değerini tahmin etmeye çalışmak için doğrusal regresyon … Okumaya devam et Sınıflandırma (Classification)

Polinomsal Regresyon (Polynomial Regression)


Özellikler ve Polinom Regresyonu (Features and Polynomial Regression) Hipotez fonksiyonumuzun özelliklerini ve biçimini birkaç farklı yoldan geliştirebiliriz. Birden çok özelliği birleştirebiliriz. Örneğin, x1 ve x2, x1⋅x2 alarak yeni bir özellik x3 eklenebilir. Polinomsal Regresyon Hipotez işlevi, verilere iyi uymuyorsa doğrusal (düz çizgi) olmasına gerek yoktur. Hipotez fonksiyonumuzun davranışını veya eğrisini, kuadratik, kübik veya karekök fonksiyon (veya başka herhangi bir form) yaparak değiştirebiliriz. Bazen, veriler arasında … Okumaya devam et Polinomsal Regresyon (Polynomial Regression)