Lojistik regresyon, bağımlı değişkenin kategorik bir değişken olduğu regresyon problemi gibidir. Doğrusal sınıflandırma problemlerinde yaygın bir biçimde kullanılır. Regresyon denilmesine rağmen burada bir sınıflandırma söz konusudur.

Lojistik regresyon, bir sonucu belirleyen bir veya daha fazla bağımsız değişken bulunan bir veri kümesini analiz etmek için kullanılan istatistiksel bir yöntemdir. Sonuç, ikili bir değişkenle ölçülür (yalnızca iki olası sonuç vardır).
Lojistik regresyonda, bağımlı değişken ikili veya ikili, yani yalnızca 1 (DOĞRU, başarı, hamile vb.) Veya 0 (YANLıŞ, hata, gebe olmayan vb.) Olarak kodlanmış verileri içeriyor.
Lojistik regresyonun amacı,  iki yönlü karakteristiği (bağımlı değişken = yanıt veya sonuç değişkeni) ile ilgili bir dizi bağımsız (öngörücü veya açıklayıcı) değişken arasındaki ilişkiyi tanımlamak için en uygun (henüz biyolojik olarak makul) modeli bulmaktır. Lojistik regresyon, ilgi karakteristiklerinin varlığının olasılığını logit dönüşümünü tahmin etmek için bir formülün katsayılarını (ve standart hatalarını ve önem seviyelerini) üretir:

formul_logit.png

Burada p, karakteristik özelliğinin var olma olasılığıdır.

formul_logit2

ve

formul_logit3

Karekök hataların toplamını en aza indirgeyen parametreleri seçmek yerine (sıradan regresyon gibi), lojistik regresyonda tahmin, örnek değerlerin gözlem olasılığını en yükseğe çıkaran parametreleri seçer.

Lojistik Regresyon için Özet Noktalar

  • Olaylar bağımsızdı
  • Bağımlı değişken ile bağımsız değişkenler arasında doğrusal bir ilişki varsaymaz, ancak açıklayıcı değişkenlerin logitleri ile yanıt arasındaki doğrusal ilişkiyi varsayar
  • Bağımsız değişkenler, orijinal bağımsız değişkenlerin güç terimleri veya bazı diğer doğrusal olmayan dönüşümleri bile olabilir
  • Bağımlı değişken normal dağılım göstermek zorunda DEĞİLDİR, ancak tipik olarak üstel bir aileden gelen bir dağılımı varsayar (ör. Binom, Poisson, çoklu terim, normal, …); Ikili lojistik regresyon yanıtın binom dağılımını varsaymak
  • Varyans homojenliğinin tatmin olması gerekmez
  • Hataların bağımsız olması gerekir, ancak normal dağılmaz
  • Parametreleri tahmin etmek için sıradan en küçük kareler (OLS) yerine maksimum olasılık tahmini (MLE) kullanır ve bu nedenle büyük örneklem yaklaşımlarına dayanır
  • Uygunluk iyiliği ölçütleri, sezgisel kuralın hücre sayımlarının% 20’sinden azının 5’in altında olmadığı yeterince büyük örneklere dayanır
  • Sürekli belirteçler olduğunda, G2 ve X2, modelin genel uyumunu değerlendirmek için en iyi istatistikler değildir, genellikle bazı verilerin gruplandırılması gerekir

Lojistik regresyon, bağımlı değişken ikili (binary) olduğunda yürütülecek uygun regresyon analizidir. Tüm regresyon analizlerinde olduğu gibi, lojistik regresyon da bir tahmini analizdir. Logistik regresyon, veriyi tanımlamak ve bir bağımlı ikili değişken ile bir veya daha fazla nominal, sıra arası, aralık veya oran seviyesinde bağımsız değişkenler arasındaki ilişkiyi açıklamak için kullanılır.

Lojistik Regresyonun İnceleyebileceği Sorun Türü

  • Akciğer kanseri olma ihtimali (evet ya da hayır), kilo ve günde içilen her paket  sigara için nasıl değişir?
  • Vücut ağırlığı kalori alımı, yağ alımı ve katılımcı yaşı kalp krizi üzerine etkiye sahip mi (evet veya hayır)?

Lojistik Regresyonun Ana Varsayımları

Sonuç ayrı olmalı, aksi halde açıklandığı gibi, bağımlı değişken doğasında iki yönlü olmalıdır (örn.var veya yok);
Verilerde, kesintisiz öngörücüleri standart veya z puanlarına dönüştürerek değerlendirilebilecek ve -3.29’un altındaki veya 3.29’un üstündeki değerleri kaldırmak için değerlendirilebilecek herhangi bir aykırı veri bulunmamalıdır.
Değişkenler arasında yüksek karşılıklı etkileşim olmamalıdır (çoklu doğrusallık). Bu tahmin ediciler arasındaki korelasyon matrisi ile değerlendirilebilir. Tabachnick ve Fidell (2012), bağımsız değişkenler arasındaki korelasyon katsayılarının uzunluğu 0,90’ın altında olduğu varsayımına uyduğunu önermektedir.
Lojistik regresyon, bağımlı değişkenin stokastik bir olay olduğunu varsayar. Örneğin, böcek ilacı öldürme oranını analiz edersek, sonuç öldürür veya öldürmez olur. En dirençli hatalardan biri bile ancak bu iki durumdan biri olabilir; lojistik regresyon böceklerin öldürülme ihtimalini düşünür. Eğer böcek öldürme ihtimali> 0.5 ise ölü kabul edilir, eğer <0.5 ise canlı olarak kabul edilir.
Sonuç değişkeni – 0 ve 1 olarak kodlanmalıdır – tüm öngörüler Covariates kutusuna girilirken (Kategorik değişkenler uygun şekilde modeli kodlanmalıdır) Bağımlı etiketli ilk kutuya yerleştirilir. Bazen lojistik regresyon için logit modeli yerine bir probit modeli kullanılır. Aşağıdaki grafik, farklı değerler (-4,4) için bir logit ve probit modelinin farkını göstermektedir. Her iki model de lojistik regresyonda yaygın olarak kullanılmaktadır ve çoğu durumda bir model her iki fonksiyonla donatılmıştır ve daha iyi uyuma sahip fonksiyon seçilmiştir. Bununla birlikte, probit, günlük dağılımı varsayılarak logit olayının olasılığının normal dağılımını varsaymaktadır. Böylece logit ve probit arasındaki fark genellikle küçük örneklerde görülür.

formul_logit4.jpeg

Lojistik regresyon analizinin merkezinde, bir olayın log oranını tahmin eden görev bulunur. Matematiksel olarak, lojistik regresyon aşağıdaki gibi tanımlanmış çoklu doğrusal regresyon fonksiyonunu tahmin eder:

logit(p) formul_logit5.jpg

i = 1 … n için.

Aşırı Uyumlanma: Lojistik regresyon analizi için model seçerken, bir başka önemli husus model uygunluğudur. Bir lojistik regresyon modeline bağımsız değişkenler ekleme, her zaman istatistiksel geçerliliğini artırır, çünkü günlük oranlarının biraz daha fazla varyansını (genellikle R² olarak ifade edilecektir) açıklayacaktır. Bununla birlikte, modele daha fazla değişken eklenmesi bunu verimsiz yapar ve gereğinden fazla uyum meydana gelir.
R2Bununla birlikte, birçok kişi belirli bir modelin ne kadar iyi olduğunu açıklayan eşdeğer bir yol istemektedir ve birçok yalancı R2 değeri geliştirilmiştir. Bunlar, yapay olarak yüksek veya alçalan olmasına neden olan sayısal hesaplamalara sahip oldukları için çok dikkatle yorumlanmalıdır.

Logit ve Probit Modelleri Arasındaki Bağlantı

İkili yanıt değişkeninin açıklayıcı değişken grubuna nasıl bağlı oldukları her iki model de aynı bilgiye sahiptir:

  • Rassal bileşen: Y Binom
  • Sistematik bileşen: Açıklayıcı değişkenlerin doğrusal fonksiyon

Ancak bağlantı işlevinde farklılıklar vardır.

Lojistik regresyon modeli

formul_logitt

Lojistik kümülatif dağılım fonksiyonunu (cdf) kullanır.

Probit modeli

formul_probit

Normal cdf kullanır

Standart normal dağılımın tersi. Örneğin, probit (0.975) = 1.96, probit (0.950) = 1.64 ve probit (0.5) = 0.

Bu iki model arasında uygun değerler genellikle çok benzerdir. Seyrek verilerle daha fazla fark olmasına rağmen, bu modellerden bir tanesi diğerine göre daha iyi (veya daha kötü) nadiren uyar.formul_probit2.png

 

Daha Fazlası İçin