Özellikler ve Polinom Regresyonu (Features and Polynomial Regression)

Hipotez fonksiyonumuzun özelliklerini ve biçimini birkaç farklı yoldan geliştirebiliriz.

Birden çok özelliği birleştirebiliriz. Örneğin, x1 ve x2, x1⋅x2 alarak yeni bir özellik x3 eklenebilir.

Polinomsal Regresyon

Hipotez işlevi, verilere iyi uymuyorsa doğrusal (düz çizgi) olmasına gerek yoktur.

Hipotez fonksiyonumuzun davranışını veya eğrisini, kuadratik, kübik veya karekök fonksiyon (veya başka herhangi bir form) yaparak değiştirebiliriz.

Bazen, veriler arasında doğrusal olmayan bir ilişki olabilir. Böyle bir ilişkiyi açıklamaya çalışmanın bir yolu, bir polinom regresyon modelidir. Tek bir tahmini X için böyle bir model:dd.png

Burada h polinom derecesi olarak adlandırılır. Daha düşük dereceler için, ilişki belirli bir ada sahiptir (yani, h = 2’ye kuadratik, h = 3’e kübik, h = 4’e kuartik denir vb.). Bu model, Y ve X arasındaki doğrusal olmayan bir ilişkiyi mümkün kılmasına rağmen, polinom regresyonu, regresyon katsayıları β1, β2, …, βh’de doğrusal olduğu için yine de doğrusal regresyon olarak kabul edilmektedir.

Yukarıdaki denklemi hesaplamak için, yalnızca yanıt değişkenine (Y) ve öngördürücü değişkenine (X) ihtiyacımız olacaktır. Bununla birlikte, polinom regresyon modelleri de etkileşim terimine yol açabilecek diğer tahmin değişkenlerine sahip olabilir. Gördüğünüz gibi, yukarıdaki bir polinom regresyon modeli için temel denklem nispeten basit bir modeldir ancak durumunuza bağlı olarak modelin nasıl büyüdüğünü hayal edebilirsiniz.

Çoğunlukla, çoklu doğrusal regresyonda yapılanla aynı analiz prosedürlerini uygularız. Bunun, çoklu doğrusal regresyon çerçevesine nasıl uyduğunu görmek için, simüle edilen, n = 50 boyutundaki çok basit bir veri kümesini ele alalım:

tablo_poli_reg.png

Veriler, kuadratik modelden üretildi:
d2.pngBurada εi ler, ortalama 0 ve varyans 2 ile normal olarak dağıtıldığı varsayılmaktadır. Verilerin dağılma çizgisi, donatılmış basit doğrusal regresyon hattı ile birlikte aşağıda verilmektedir. Gördüğünüz gibi doğrusal bir regresyon çizgisi, verilere makul bir uyum sağlamaz.

tablo_poli_reg2tablo_poli_reg3

 

(A) OLS satırı ile ikinci dereceden verilerin dağılımı. (B) OLS uyması için kalan plot.
(C) Kalıntıların histogramı. (D) Teorik kalıntılarının NPP’si.

Artık eğrilere karşı belirgin eğriliğin nasıl olduğu ve daha önce gördüğümüz gibi düzgün rassallığı göstermediğine dikkat edin. Histogram çok sol eğik duruyor ve normallik için ideal zil şeklini göstermiyor. Dahası, NPP düz bir çizgiden sapmış gibi görünüyor ve uç yüzdelik eğrileri aşağı eğiyor. Bu çizimler, yalnızca, kullanılan modelin yanlış olduğunu ve daha yüksek seviyeli bir modele ihtiyaç duyulabileceğini belirtmektedir.

İkinci derece polinom modelinin matrisleri şöyledir:d3.png

Burada Y ve X’deki girdiler ham verilerden oluşur. Gördüğünüz gibi, çoklu doğrusal regrasyonda kullanılan analiz tekniklerinin (ör. OLS) burada uygulanabilir.

Bir polinom regresyon modeli tahmininde akılda tutulması gereken bazı genel kurallar şunlardır:

  • Fit eden model, daha büyük bir numune boyutu üzerine kurulduğunda daha güvenilirdir.
  • Gözlemlenen değerlerinizin sınırlarının ötesinde, özellikle de polinom fonksiyonunda belirgin bir eğri olduğu zaman, bir ekstrapolasyonun modelin kapsamının ötesinde anlamsız sonuçlar ürettiği durumlarda ekstrapolasyon yapmayın.
  • Kullanılan istatistiksel yazılım için sayısal taşmalara neden olabileceğinden yüksek dereceli terimlerin eklenmesinde öngörücünün / ölçütlerin ne kadar büyük olacağını düşünün.
  • Daha yüksek dereceli bir terim eklemek için kesinlikle düşük p-değerleriyle gitmeyin, aksine yalnızca elde edilen kalıntı plotlar makul görünüyorsa modelinizi desteklemek için kullanın. Bu, “istatistiksel önem” karşısında “pratik önem” belirlemeniz gereken bir durumun bir örneğidir.
  • Genel olarak, regresyon modellemesi boyunca standart uygulamalar olduğu gibi, modelleriniz modelinizin Xh’yi içeriyorsa ve Xh’nin Y’nin istatistiksel olarak önemli bir öngörücüsü olduğu gösterilirse, modelinizin her bir Xj’yi de içermesi gerektiğini söyleyen hiyerarşi ilkesine uymanız gerekir. Tümü j <h, bu alt sınıra ait terimlerin katsayılarının önemli olup olmamasına bakılmaksızın.