TheilSenRegressor tahmincisi medyanın birden çok boyutta genellemesinde kullanır. Bu nedenle, çok değişkenli aykırı değerler için sağlamdır. Bununla birlikte, kestiricinin sağlamlığı problemin boyutsallığı ile birlikte hızla azalır. Sağlamlık özelliklerini kaybeder ve yüksek boyutta olağan bir en küçük kareden daha iyi olmaz.
TheilSenRegressor asimtotik etkinlik açısından ve tarafsız bir tahmin edici olarak Sıradan En Küçük Karelerle (OLS) karşılaştırılabilir. Theil-Sen, OLS’nin aksine, verilerin altında yatan dağılımı hakkında bir varsayım yapılmadığı anlamına gelen parametrik olmayan bir yöntemdir. Theil-Sen medyan temelli bir tahmin edicidir, bozulmuş verilere karşı aşırı dayanıklıdır. Tek değişkenli ortamda Theil-Sen,% 29.3’lük keyfi bozulma verilerini tolere edebileceği anlamına gelen basit bir doğrusal regresyon durumunda yaklaşık% 29.3’lük bir kırılma noktasına sahiptir.

Theil (1950) tarafından tanımlandığı üzere, bir dizi iki boyutlu noktanın Theil-Sen tahmincisi( xi , yi ) , eğimlerinin yj – yi ) / ( xj – xi ), medyanı m’dir, tüm örnek noktaları çiftleri tarafından belirlenir. Sen (1968), bu tanımın, iki veri noktasının aynı x- koordinatına sahip olduğu durumu ele alması için genişletti. Sen’in tanımlamasında, biri yalnızca ayrı x- koordinatlarına sahip olan ikili çiftlerden tanımlanan eğimlerin ortancasını almaktır.

Eğim m belirlendiğinde, y- eğimini,yi – mxi  değerlerinin ortanca olacak şekilde ayarlayarak örnek noktalarından bir çizgi belirleyebilir. Sen’in gözlemlediği gibi, bu tahmin edici, Kendall tau rank korelasyon katsayısını (Kendall sırası korelasyon katsayısı) ,xi değerlerini, i inci gözlemin kalanı ile karşılaştıran yaklaşık sıfıra getiren değeri ifade eder.

Eğim tahmini için bir güven aralığı , çiftler noktaları tarafından belirlenen çizgilerin eğimlerinin %95’ini içeren aralık olarak belirlenebilir ve puan çiftlerini örnekleyerek örneklenmiş eğimler hızla tahmin edilebilir. Simülasyonlara göre, doğru bir güven aralığı belirlemek için yaklaşık 600 numune çifti yeterlidir.

Theil-Sen tahmincisinin Siegel’e (1982) bağlı bir değişimi, her örnek noktası için xi , yi )  eğimi ( yj – yi ) / ( xj – xi ) ve medyan mi‘sini belirler . Bu noktadan geçen çizgilerin toplamı ve daha sonra genel tahminciyi bu medyanların medyanı olarak belirler.

Farklı bir varyant, örnek noktalarını x koordinatlarının sırasıyla eşleştirir (en küçük koordinat olan nokta, medyan koordinatın üstündeki ilk nokta ile eşleştirilir vb.) Ve bu çiftler tarafından belirlenen çizgilerin eğimlerinin medyanını hesaplar.

Theil-Sen tahmincisinin, x koordinatları daha büyük farklılaşan çiftlerin doğru bir eğime sahip olma olasılığı daha yüksek olduğu ve bu nedenle daha yüksek bir ağırlık alacağı ilkesine dayanılarak, ağırlıklı medyan temelli varyasyonlar da incelenmiştir.

Mevsimlik veriler için, her ikisi de yılın aynı ayına ya da aynı mevsimine ait yalnızca örnek noktaları çiftini göz önüne alarak ve verilerin mevsimsel varyasyonlarını düzeltmek ve izleyen satırların eğiminin medyan değerini bulmak uygun olabilir bu daha kısıtlayıcı çiftler kümesidir.

Theil-Sen tahmini, basit doğrusal regresyonda gerçek eğimin yansız(unbiased) bir tahmincisidir. Sonuç hatasının birçok dağılımı için, bu tahmin edici, en küçük kareler tahminine göre yüksek asimptotik etkinliğe sahiptir. Düşük etkinlikli tahminciler, etkin olmayan yansız tahmin edicilerin aynı örnek varyansını elde etmek için daha bağımsız gözlemlere ihtiyaç duyar.

Theil-Sen tahmincisi en küçük kareler tahmincisinden daha dayanıklıdır , çünkü aykırı değerlere karşı daha az duyarlıdır.

Theil-Sen tahmincisi, yanıt değişkeninin her lineer dönüşümünde eşittir; yani, önce veriyi dönüştüren ve sonra bir çizgi uyduran ya da önce bir satıra uyan ve aynı şekilde dönüştüren, her ikisinin de aynı sonuca yol açtığı anlamına gelir. Bununla birlikte, hem öngörme hem de sonuç değişkenlerinin afin dönüşümü altında eşdeğer değildir.

Theil-Sen tahmini, sansür regresyon modellerini işleme kabiliyeti nedeniyle astronomiye uygulanmıştır.  Fernandes & Leblanc (2005) , biyofizikte “hesaplamada basitlik, güven aralıklarının analitik tahminleri, sapmalara karşı sağlamlık, test edilebilir varsayımlar” nedeniyle yaprak alanının tahmin edilmesi gibi yansıtma verilerinden uzaktan algılama uygulamaları için kullanılmasını önermektedir. Su kalitesi gibi mevsimsel çevresel verilerin ölçülmesi için, Theil-Sen tahmincisinin mevsimsel olarak ayarlanmış bir varyantı, çarpık verilerin bulunduğu yüksek hassasiyet nedeniyle en az kareler tahmini kadar tercih edilir olarak önerilmiştir.  Bilgisayar bilimlerinde Theil-Sen yöntemi, yazılım yaşlanmasının eğilimlerini tahmin etmek için kullanılmıştır. Theil-Sen testinin bir başka uygulaması da meteoroloji ve klimatolojidedir. Test rüzgar hızı ve oluşumunun uzun vadeli eğilimlerini tahmin etmek için kullanılır.

 

Referans:

https://en.wikipedia.org/wiki/Theil–Sen_estimator

http://scikit-learn.org/stable/modules/linear_model.html#theil-sen-estimator-generalized-median-based-estimator