Temel bileşen analizi (PCA), yüz tanıma ve görüntü sıkıştırma gibi alanlarda uygulama alanı bulmuş, yüksek boyuttaki verilerde örüntü bulmak için  yaygın olarak kullanılan bir istatistiksel tekniktir. PCA’yi daha iyi anlayabilmek için önce bazı temel metematiksel konseptlere bakalım.

  • Standart Sapma
  • Varyans
  • Kovaryans
  • Özvektör
  • Özdeğer

İstatistik

Standart Sapma

Standart sapma bir veri seti içerisindeki değerlerin dağılımının nasıl olduğu ile ilgili bilgi verir. Bir diğer şekilde bunun, değerlerin birbirine olan uzaklıklarının uyumunun ölçülmesi olarak söyleyebiliriz. Standart sapma aşağıdaki formül ile hesaplanır.

std-dev-unclassified

Varyans

Veri setindeki dağılımı gösteren bir diğer ölçüt varyansdır. Varyansın kare kökü standart sapma olarak adlandırılır.

variance fformula for unclassified data

Temel bileşen analizi (PCA),  birbiriyle ilişkili değişkenlerin gözlem kümesini temel bileşenler olarak adlandırılan doğrusal olarak ilişkisiz değişkenlerin değerlerine dönüştürmek için ortogonal bir dönüşüm kullanan istatistiksel bir prosedürdür. Temel bileşen sayısı, orijinal değişkenlerin sayısından ya da gözlem sayısından küçük veya eşittir. Bu dönüşüm, ilk temel bileşenin olası en büyük varyansa sahip olması ve sonuçta ortaya çıkan bileşenlerin tümü, sınırlama altında mümkün olan en yüksek varyansa sahip olacak şekilde önceki bileşenlere dik tanımlanır. Ortaya çıkan vektörler, birbiriyle ilgisiz ortogonal temel bileşenler kümesidir. PCA orijinal değişkenlerin göreli ölçeklemesine duyarlıdır.

Analistler PCA’yı veri analizinde ve tahmini modeller oluşturmak için çoğunlukla bir araç olarak kullanır. Genellikle genetik mesafeyi ve popülasyonlar arasındaki ilişkiyi görselleştirmek için kullanılır. PCA, her öznitelik için veri matrisinin ortalama merkezlenmesinden sonra bir veri matrisinin, bir veri kovaryans matrisi veya tekil değer ayrışmasının özdeğer ayrışması ile yapılabilir. Bir PCA’nın sonuçları çoğunlukla faktör puanları  ve yüklenenler olarak adlandırılan bileşen puanları açısından tartışılır.

PCA, gerçek özvektör tabanlı çok değişkenli analizlerin en basitidir. Çoğu zaman, çalışması verilerin iç yapısını, verideki varyansı en iyi açıklayacak şekilde ortaya koyduğu düşünülür. Çok değişkenli bir veri kümesi, yüksek boyutlu bir veri alanındaki bir koordinat kümesi olarak görselleştirilirse, PCA, kullanıcıya en bilgilendirici bakış açısından bakıldığında, bu nesnenin bir alt boyutlu resmini, bir projeksiyonunu sunabilir. Bu yalnızca ilk birkaç temel bileşen kullanılarak yapılır böylece dönüştürülen verilerin boyutsallığı azaltılır.

Referans:

https://en.wikipedia.org/wiki/Principal_component_analysis

Designed by Freepik