Standartlaştıma — Normalizasyon Hakkında

Standardizasyonun (veya Z Puanı Normalizasyonunun) sonucu, özelliklerin standart bir normal dağılım özelliklerine sahip olacak şekilde yeniden ölçeklendirilmesidir.

formul_uo.png

Burada μ ortalama (ortalama) ve σ ortalamadan standart sapma; Örneklerin standart puanları (z puanları) şu şekilde hesaplanır:

formul_z.png

Özelliklerin standart sapması 1 ile 0 civarında ortalanacak şekilde standartlaştırılması, farklı birimleri olan ölçümleri karşılaştırdığımızda değil, aynı zamanda birçok makine öğrenme algoritması için genel bir gereklilik olarak da önemlidir. Dereceli azalmayı önemli bir örnek olarak düşünebiliriz (lojistik regresyonda, SVMlerde, sinir ağlarında vb. sıklıkla kullanılan bir optimizasyon algoritmasıdır); Özellikler farklı ölçeklerde olmakla birlikte, ağırlık değerleri güncelleme işleminde xj özellik değerleri geçerli olduğundan bazı ağırlıklar diğerlerinden daha hızlı güncellenebilir.

formul_wj.png

Böylece

formul_wj2.png

Özellik ölçeklemenin önemli olduğu bazı algoritma örnekleri:

  • Tüm özelliklerin eşit olarak katkıda bulunmasını isterseniz Öklit uzaklık ölçüsüne sahip k-en yakın komşuları
  • K-araçları (bkz. K-en yakın komşu)
  • Gradiyent iniş / yükselme tabanlı optimizasyon kullanıyorsanız, lojistik regresyon, SVM’ler, algılayıcılar, sinir ağları vb., Aksi takdirde bazı ağırlıkları diğerlerinden daha hızlı güncelleyecektir.
  • Varyansı en üst düzeye çıkarmanın yollarını bulmak istediğinizden bu yana (bu yönlerin / öz vektörlerin / ana bileşenlerin ortogonal olduğuna dair kısıtlamalar altında) temel bileşen analizi, çekirdek ana bileşen analizi; “Daha büyük ölçüm ölçekleri” üzerindeki değişkenleri vurguladığınızdan bu yana aynı ölçeğe sahip olmak istiyorsunuz. Burada listelenebileceğimden çok daha fazla vaka var … Her zaman algoritmayı ve bunun ne yaptığını düşünmenizi öneririm ve daha sonra özelliklerimi ölçeklemek isteyip istememenize gerek kalmaz.

Verilerimizin “standartlaştırılmasını” veya “normalleştirilmesini” isteyip istemediğimize (burada: [0, 1] aralığına ölçeklendirme) karar vermeliyiz.  Emin olmadığımızda, verileri standartlaştırırma işlemi uygulanmalıdır.

Min-Max Ölçekleme 

Z skoru normalizasyonuna (veya standardizasyona) alternatif bir yaklaşımdır. Bu yaklaşımda veriler sabit bir aralıkta (genellikle 0-1) ölçeklendirilir.
Sınırlandırılmış alana sahip olma maliyeti – standartlaştırmanın aksine – aykırı değerlerin etkisini bastırabilecek daha küçük standart sapmalarla sonuçlanır.

Min-Max Ölçekleme:

formul_maxmin.png

Özellik Ölçeklendirme

Giriş değerlerinin her birini kabaca aynı aralıkta tutarak eğim açılımı hızlandırabilir.

Bunu önlemenin yolu, giriş değişkenlerimizin aralıklarını değiştirmektir ve böylece bunların hepsi kabaca aynı olur. İdeal:

formul_aralik.png

 

Bunu sağlamak için iki yöntem vardır, özellik ölçekleme(feature scaling) ve ortalama normalleştirme(mean normalization). Özellik ölçeklendirme, giriş değerlerini giriş değişkeninin aralık (maksimum değer eksi en düşük değerinden) aralığına bölerek yeni bir bir aralığına neden olur. Ortalama normalleştirme, bir girdi değişkeni için ortalama değerin bu değerlerden çıkarılmasıdır.  Girdi değişkeni sıfırdan yeni bir ortalama değer ile sonuçlanan değişkendir. Bu yöntemlerin her ikisini de uygulamak için giriş değerlerini:formul_xi.pngBurada μi, özellik (i) için tüm değerlerin ortalamasıdır ve si, değer aralığıdır (maks – min) veya si standart sapmadır.