İçerik

Tek Değişkenli Analiz

Tek değişkenli analiz, değişkenleri(nitelikleri) tek tek inceler. Değişkenler kategorik veya sayısal olabilir. Her değişken türü için farklı istatistiksel ve görselleştirme teknikleri vardır. Sayısal değişkenler, binning (binning) veya ayrıklaştırma (discretization) adı verilen bir süreçle kategorik eşdeğerlerine dönüştürülebilir. Kategorik bir değişkeni, kodlama(codding) adı verilen bir işlemle sayısal karşılığına dönüştürmek de mümkündür.

  • Kategorik Değişkenler
  • Sayısal Değişkenler

tekdegisken1.png

Tek Değişkenli Analiz – Kategorik Değişkenler

Kategorik veya ayrık bir değişken, iki veya daha fazla kategoriye sahip olan bir değişkendir. Kategorik değişkenler Nominal ve Ordinal olmak üzere iki çeşittir. Nominal bir değişkenin kendi kategorilerine göre bir sıralaması yoktur.  Ordinal(sıralı) bir değişkenin açık bir sıralaması vardır. Görselleştirmesi:

  • Bar Chart
  • Pie Chart

ile yapılabilir.

tekdegiskenli2.png

Tek Değişkenli Analiz – Sayısal Değişkenler

Sayısal veya sürekli değişken (öznitelik), sonlu veya sonsuz aralıktaki herhangi bir değeri alabilen bir sayıdır. Aralık ve oran olmak üzere iki tür sayısal değişken vardır. Bir aralık değişkeni, farkları yorumlanabilir olan ancak gerçekte sıfır değeri olmayan değerlere sahiptir. Aralık ölçeğindeki veriler birbirleriyle eklenebilir ve çıkarılabilir ancak anlamlı bir şekilde çarpılamaz veya bölünemez. Aksine, bir oran değişkeni, gerçekte sıfır olan değerleri içerir ve birbirleriyle eklenebilir, çıkarılabilir, çarpılır veya bölünebilir.

İki değişkenli Analiz

İki değişkenli analiz, iki değişkenin eşzamanlı analizi’dir. İki değişken arasındaki ilişki kavramını, bir ilişkinin varlığı ve bu ilişkinin gücü olup olmadığını ve iki değişken arasındaki farklılıklar olup olmadığını ve bu farklılıkların önemini araştırırır. İki değişkenli analizin üç türü vardır.

  • Sayısal ve Sayısal
  • Kategorik ve kategorik
  • Sayısal ve Kategorik

ikidegiskenli.png

İki değişkenli Analiz – Sayısal ve Sayısal

Dağılım grafiği

Bir dağılım çizimi, iki sayısal değişken(özellik) arasındaki ilişkinin güzel bir görsel sunumudur ve genellikle doğrusal bir korelasyon çalışmadan veya bir regresyon çizgisine uymadan önce çizilir. Ortaya çıkan desen, iki değişken arasındaki ilişkinin türünü(doğrusal veya doğrusal olmayan) ve kuvvetini belirtir. İki boyutlu bir dağılım çizelgesine daha fazla bilgi eklenebilir. Bir veri kümesindeki birçok değişkenle uğraşıyorsak, iki değişkenin tüm dağılım grafiğini bir defada sunmanın bir yolu dağılım çizimi(scatter) matrisinde bulunur.

scatter.png

Doğrusal Korelasyon

Doğrusal korelasyon, iki sayısal değişken arasındaki doğrusal ilişkinin kuvvetini nicelendirir. İki değişken arasında bir korelasyon olmadığında, bir miktarın değerleri ikinci miktarın değerleri ile artma veya azalma eğilimi göstermez.

formul_korelasyon.png

r yalnızca doğrusal bir ilişkinin kuvvetini ölçer ve her zaman -1 ve 1 arasındadır; burada -1 mükemmel negatif doğrusal korelasyon anlamına gelir ve +1 mükemmel pozitif doğrusal korelasyon anlamına gelir ve sıfır doğrusal bir korelasyon yoktur anlamına gelir.

İki Değişkenli Analiz – Kategorik ve Kategorik

Yığılmış Sütun Grafiği

Yığılmış Sütun grafiği, iki kategorik değişken arasındaki ilişkiyi görselleştirmek için kullanışlı bir grafiktir. Bir değişkenden her kategorinin ikinci değişkenin toplam kategorilerine katkıda bulunduğu yüzdesini karşılaştırır.

stack.png

Kombinasyon Tablosu

Birleşik grafik, grafikte farklı türde bilgi bulunduğunu vurgulamak için iki veya daha fazla grafik türü kullanır. Burada, bir kategorik değişkenin dağılımını gösteren çubuk grafik ve ikinci kategorik değişkenden seçilen kategorinin yüzdesini gösteren çizgi grafik kullanıyoruz. Birleşik grafik, bir öngörücünün (X ekseni) bir hedefe (Y ekseni) karşı öngörülebilirliğini göstermek için en iyi görselleştirme yöntemidir.
kombinasyon.png

İki Değişkenli Analiz – Sayısal ve Kategorik

Ki-Kare Testi

Kategorik değişkenler arasındaki ilişkiyi belirlemek için ki-karesi testi kullanılabilir. Frekans tablosundaki bir veya daha fazla kategorideki beklenen frekanslar (e) ile gözlemlenen frekanslar (n) arasındaki farka dayanır. Ki-kare dağılımı, hesaplanan Ki-Karesi ve serbestlik derecesi için bir olasılık döndürür. Sıfır olma olasılığı, iki kategorik değişken arasındaki tam bir bağımlılığı gösterir ve bir olasılık, iki kategorik değişkenin tamamen bağımsız olduğu anlamına gelir. Tchouproff Acil Durum Katsayısı iki kategorik değişken arasındaki bağımlılık miktarını ölçer.
formul_kikare.png
İki Değişkenli Analiz – Kategorik ve Sayısal

Hata Çubuklarıyla Çizgi Grafik

Hata çubuklu çizgi çizelgesi, bilgiyi düz çizgi parçalarına bağlı bir dizi veri noktası olarak görüntüler. Her bir veri noktası standart hatayı gösteren hata çubuğu ile kategorik değişkenin ilgili kategorisi için sayısal verilerin ortalamasıdır. Bu, bilgilerin nasıl birbiriyle ilişkili olduğunu ve birbirlerine bağlı olarak nasıl değiştiğini özetlemenin bir yoludur.

hatacubuklari

Kombinasyon Tablosu

Birleşik grafik, grafikte farklı türde bilgi bulunduğunu vurgulamak için iki veya daha fazla grafik türü kullanır. Burada, bir kategorik değişkenin dağılımını gösteren çubuk grafik ve ikinci kategorik değişkenden seçilen kategorinin yüzdesini gösteren çizgi grafik kullanıyoruz. Birleşik grafik, bir öngörücünün (X ekseni) bir hedefe (Y ekseni) karşı öngörülebilirliğini göstermek için en iyi görselleştirme yöntemidir.

kombinasyon
Z-testi ve t-testi

Z-testi ve t-testi temel olarak aynıdır. İki grubun ortalamalarının istatistiksel olarak birbirinden farklı olup olmadığını değerlendirirler. Bu analiz, kategorik bir değişkenin iki kategorisi için sayısal değişken ortalamalarını karşılaştırmak için uygundur.

test.png
Z olasılığı küçükse, iki ortalamanın arasındaki fark daha önemlidir.

t-testi

N1 veya n2 30’dan az olduğunda, Z-testi yerine t-testi kullanılır.

ttest2.png
Varyans Analizi (ANOVA)

ANOVA testi, ikiden fazla grubun ortalamalarının birbirinden istatistiksel olarak farklı olup olmadığını değerlendirir. Bu analiz, kategorik bir değişkenin ikiden fazla kategorisi için sayısal değişken ortalamalarını karşılaştırmak için uygundur.

 

Designed by Freepik