Basit Doğrusal Regresyon Nedir?

Basit doğrusal regresyon, iki sürekli (nicel) değişken arasındaki ilişkileri özetlememize ve incelememize izin veren istatistiksel bir yöntemdir:

X olarak adlandırılan bir değişken, öngörücü, açıklayıcı veya bağımsız değişken olarak kabul edilir.

Y olarak adlandırılan diğer değişken, yanıt, sonuç veya bağımlı değişken olarak kabul edilir.

Basit doğrusal regresyon, sıfatı “basit” olarak alır, çünkü yalnızca bir tahmini değişkenin çalışması ile ilgilidir.

İlişki Türleri

Başlamadan önce ne tür ilişkiler üzerinde çalışmamız gerektiğini açıklığa kavuşturmalıyız.  İlişki türlerini Deterministik (veya fonksiyonel) ve İstatiksel ilişki diye ikiye ayırabiliriz. Deterministik bir ilişki örneği

derece_plot.pngGözlemlenen (x, y) veri noktalarının doğrudan bir çizgiye düştüğünü unutmayın.

Hatırlayacağınız gibi, Fahrenheit  ile Celsius arasındaki ilişki :

fahren_celci.jpg

Yani, sıcaklığı Celsius cinsinden biliyorsanız, sıcaklığı Fahrenheit olarak belirlemek için bu denklemi kullanabilirsiniz.

Aşağıda, deterministik ilişkilere bazı örnekler verilmiştir:

Çevresi = π × çap
Hooke Yasası: Y = α + βX, burada Y = bir yaydaki gerilme miktarı ve X = uygulanan ağırlık.
Ohm Yasası: I = V / r, burada V = gerilim uygulanır, r = direnç ve I = akım.
Boyle Yasası: Sabit bir sıcaklık için P = α / V, burada P = basınç, α = her gaz için sabit, V = gaz hacmi.

Bu fonksiyonel ilişkilerin her biri için, denklem iki değişken arasındaki ilişkiyi tam olarak tanımlamaktadır.  Biz değişkenler arasındaki ilişkinin mükemmel olmadığı istatistiksel ilişkilerle ilgileneceğiz.

İstatistiksel bir ilişki örneği: Yanıt(sonuç) değişkeni y, cilt kanseri nedeniyle 10 milyon kişide kişi başına ölüm sayısıdır ve x tahmini değişkeni, ABD’deki 49 eyalette her birinin merkezinin enlem derecesidir. Veriler 1950’lerde derlenmiştir bu nedenle Alaska ve Hawaii henüz eyalet değil ve Washington, DC, teknik olarak bir eyalet olmasa da veri setine dahil edilmiştir.

cilt_kanseri_enlem.gif

Kuzey Amerika’nın en yüksek enlemlerinde yaşayanlar güneş ışığının zararlı ışınlarına daha az maruz kalır ve bu nedenle orada yaşayanların cilt kanseri nedeniyle ölüm riskinin az olduğunu tahmin edebilirsiniz . Yukarıda verilen scatter plot da böyle bir hipotezi desteklemektedir. Cilt kanseri nedeniyle enlem ve ölüm arasında negatif doğrusal bir ilişki var gibi görünüyor, ancak ilişki mükemmel değil. Gerçekten, plot “eğilim” sergiliyor ancak aynı zamanda  “dağılım” da sergiliyor. Bu nedenle, istatistiksel bir ilişkidir, fonksiyonel bir ilişki değildir.

İstatistiksel ilişkilere başka örnekler de verelim:

  1. Boy ve Ağırlık – boy arttıkça kilonun da artmasını bekleriz, ancak her zaman aralarında mükemmel bir ilişki yoktur.
  2. Alınan Alkol Miktarı ve Kandaki Alkolü Oranı – alkol tüketimi arttıkça, kandaki alkol içeriğinizin artmasını beklersiniz, ancak her zaman böyle olmaz.
  3. Hayati Akciğer Kapasitesi ve Sigara İçilen Yıllar – sigaranın miktarı arttıkça, akciğer fonksiyonu azalır, ancak kusursuz değildir.
  4. Sürüş Hızı ve Yakıt Oranı – sürüş hızı arttıkça, yakıt kilometre oranının düşmesi beklenir, ancak bu ilişki de mükemmel değildir.

Şİmdi de, bir yanıt değişkeni y ile bir öngördürücü değişken x arasındaki istatistiksel ilişkileri inceleyelim!

Eğri Uydurma — “En Uygun Doğru” Nedir?

İki niceliksel değişken arasındaki eğilimi anlamak istediğimizde, doğal olarak şu soru ortaya çıkıyor – “en uygun doğru nedir?”

Verilere en iyi uyan bir çizgi, gözlemlenen her bir veri noktası için gözlem hatasının en küçük olan doğrudur.  Bunun için, “kare tahmin hatalarının toplamını asgari düzeye indirgemek” için

gibi yöntemler kullanılabilir.

Bazı örnek uygulamalar: