Normal Denklemi en küçük kareler maliyet fonksiyonuyla doğrusal regresyon problemine analitik bir çözüm olarak sunulabilir. Bazı durumlarda (küçük özellik kümeleri için olduğu gibi) onu kullanırken gradyan inişi uygulamaktan daha etkilidir.

normal equation ile ilgili görsel sonucu

Lineer regresyon için Normal Denklem Türevi

Hipotez işlevi göz önüne alındığında:

\[h_{\theta}(x)=\theta_0x_0+\theta_1x_1+\cdots+\theta_nx_n\]
En küçük kareler maliyetini en aza indirmek istiyoruz:

\[J(\theta_{0...n})=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2\]
x^{(i)} ‘inci örnek (m örneklerinden) ve y^{(i)}  inci beklenen sonuçtur.

Aradığımız regresyon katsayıları \thetavektörel:\[\begin{pmatrix} \theta_0\\ \theta_1\\ ...\\ \theta_n \end{pmatrix}\in\mathbb{R}^{n+1}\]
M girdi örneklerinin her biri, benzer şekilde, n + 1 satırlı bir sütun vektörü olup, x_0, kolaylık sağlamak için 1’dir. Şimdi hipotez fonksiyonunu şöyle yazabiliriz:

\[h_{\theta}(x)=\theta^Tx\]
Bu, tüm örnekler üzerinde toplandığında, matris gösterimine bakabiliriz. “Tasarım matrisi” X’i (büyük harf X), her satırın i inci örneğinde (vektör x^{(i)}) olduğu m sıra matrisi olarak tanımlayacağız. Bununla, toplamı matris çarpımıyla değiştirerek asgari kareler maliyetini aşağıdaki gibi yeniden yazabiliriz:

\[J(\theta)=\frac{1}{2m}(X\theta-y)^T(X\theta-y)\]
Şimdi, bazı matris geçiş kimlikleri kullanarak, bunu biraz basitleştirebiliriz. Bir türevi yine de sıfır ile karşılaştıracağımız için \frac{1}{2m} parçasını atacağım:

\[J(\theta)=((X\theta)^T-y^T)(X\theta-y)\]

\[J(\theta)=(X\theta)^TX\theta-(X\theta)^Ty-y^T(X\theta)+y^Ty\]
X\theta ‘nın bir vektör olduğunu ve bu nedenle de y’dir. Dolayısıyla birbiriyle çarpıştığımızda, sıranın ne olduğu önemli değildir (boyutlar işlediği sürece). Böylece daha basitleştirebiliriz:

\[J(\theta)=\theta^TX^TX\theta-2(X\theta)^Ty+y^Ty\]
Unutmayın ki \theta bizim bilinmeyenimizdir. Yukarıdaki işlevin minimumu nerede bulursak, \theta  ile türetilir ve 0 ile karşılaştırırız. Bir vektörle türetmek rahatsız olabilir, ancak endişelenilecek bir şey yoktur. Hatırlayın ki, lineer formüllerin bir sistemini rahatça temsil etmek için yalnızca matris gösterimini kullanıyoruz. Böylece, vektörün her bir bileşeni tarafından türettikten sonra ortaya çıkan türevleri tekrar bir vektöre birleştiriyoruz. Sonuç:

\[\frac{\partial J}{\partial \theta}=2X^TX\theta-2X^{T}y=0\]
Veya:

\[X^TX\theta=X^{T}y\]

Şimdi, X^TX matrisinin tersine çevrilebilir olduğunu varsayarsak, her iki tarafı da (X^TX)^{-1} ile çarpabiliriz:

\[\theta=(X^TX)^{-1}X^Ty\]
İşte Normal Denklem.

Designed by Freepik