İstatistiksel Çıkarım

İstatistiksel çıkarım, belirli veri örneklerine dayanarak tüm veri hakkında çıkarımlar yapmakla ilgilenir. Veri örnekleri ile verilen veriyi daha iyi anlayabilmek için farklı tahmin testleriyle birlikte hipotez testleri kullanılabilmektedir.

İstatistiksel Tahminleme

Bir tahmin edici, veri parametresini (örneğin veri kümesinin ortalaması, medyanı), veri örnekleri (örneklem) üzerinden elde edebilen bilgilere dayanan rastgele bir değişkendir ve tahmin edicinin aldığı değerler bilinmeyen veri parametresi hakkında yaklaşık bir değer sağlar. Tahmin, verilere uygun modele dayanarak veri parametresini öğrenme yollarını veya öğrenme sürecini temsil etmektedir. Yani tahmin edicinin aldığı rastgele değişkenin değerine tahmin denir. Nokta tahmini, aralık tahmini ve hipotez testleri, veri örneklerinin istatistikleri ile veri parametresi hakkında bilgi edinmenin üç ana yoludur.

Nokta Tahmini, Aralık Tahmini ve Güven Aralığı

Nokta tahmini, veri örnekleri üzerinden veri parametresini tahmin eden tek bir değerdir. Aralık tahmini ise veri örneklerini kullanarak veri parametresi için mümkün olan değerleri bir aralık içerisinde hesaplar. Bir nokta tahmini, veri kümesinin ortalaması, varyansı gibi değerlerini tahmin etmekte kullanılır. Tek bir nokta tahmini, hataya açıktır. Bu gibi nedenlerle güven aralığı sıkça kullanılır. Güven aralığı, bir güven düzeyi içerisinde, gerçek veri parametresini içeren bir nokta tahminine dayanan bir çeşit aralık tahminidir. Yani güven aralığı, bir veri parametresinin tek bir sayı ile tahminini gerçekleştirmek yerine, bu parametre değerini bir aralık içerisinde ve bir güven düzeyinde tahminlemeye dayanır.

İstatistiksel Karar Alma

İstatistiksel hipotez, veri parametresi hakkında ileri sürülen, doğruluğu, bu parametre değeri hakkında ve örneklem dağılımından bilgi sağlayan istatistiklerden yararlanılarak araştırılabilen önermelerdir. İstatistiksel hipotez, parametre değerleri hakkında önceden bilinen veya varsayımsal bir değer alabilir ve bir önerme olduğu için doğru veya yanlış olabilir. Hipotezin doğruluğundan emin olmak için tamsayım yapmak ve evren parametresini hesaplamak gerekir. Bu her zaman mümkün olmadığı için, örneklem istatistiklerinden yararlanan istatistiksel hipotez testleri, hipotezin doğruluğunu ortaya koyabilmek için sıklıkla kullanılır. Örneklemlerin istatistikleri farklılık gösterebildiği için istatistiksel hipotez testlerinin sonuçlarının ne derece güvenle kabul veya reddedileceğini belirlemek gerekir.

Hipotez Testi

Hipotez testleri, istatistikte en yaygın kullanılan testlerdendir ve pek çok farklı şekilde olsalar da hepsinde aynı temel amaç vardır. Bir hipotez testi, bir veri örneği verilen tüm veri kümesi için, belirli bir koşulun doğru olduğunu varsaymaya izin verilip verilmediğini tespit etmek için kullanılan istatistiksel bir testtir. Temel olarak, bir hipotez testi, tüm veri kümesi hakkında sahip olunan belirli bir hipotez hakkındaki bir testtir ve bu testin sonucu, o hipoteze inanılması mı veya reddedilmesi mi gerektiğini söyler.

Hipotez testi aslında bir şekilde karşılaştırma ve seçme işlemi gibi olduğu için birden fazla hipoteze ihtiyaç duyulur. Bir hipotez testi genellikle bir veri kümesi ile ilgili iki karşıt hipotezle ilgilidir ve bunlardan birine boş hipotez (sıfır hipotezi) diğerine de alternatif hipotez denir. Boş hipotez, test edilen ifadedir ve varsayılan ifade doğru cevaptır, yani olumlu bir yargıyı içerir. Alternatif hipotez ise boş hipotezin karşıtıdır. Hipotez testi de hangi hipoteze inanılacağını gösterir.

İstatistiksel anlamlılık ve p-değeri hipotez testleri için önemli bileşenlerdir. Hipotez testinde boş hipotez belirlendikten sonra bir örneklem kullanılarak bu hipotez test edilir. Hipotez, test edildikten sonra, bir sonuç elde edilir. Hipotez testinin sonucu göz önüne alındığında, boş hipotezin öne sürdüğü varsayımın gerçekleşme olasılığı eğer çok düşük ise boş hipotez reddedilir, gerçekleşme olasılığı çok yüksek ise de boş hipotez kabul edilir. İşte bu boş hipotezin gerçekleşme olasılığı, p-değeri olarak ifade edilir. p-değeri, istatistiksel test yapıldıktan sonra elde edilen bir sonuçtur.

Eğer p-değeri çok düşük ise, boş hipotezin öne sürdüğü varsayımın doğru olduğu kabul edilirse, hipotez testinin sonucunun gerçekleşme ihtimali çok düşük olacaktır ancak test sonucu yanlış olamaz. Yanlış olabilecek tek şey boş hipotezin öne sürdüğü varsayımdır. Hipotez testinin sonucunun yanlış olamayacağı için boş hipotez reddedilir. Bu durumda da, sonuçlarının anlamlı (önemli) olduğu söylenir. Yani, sonuçların istatistiksel olarak anlamlı olması, hipotez testinin sonucu ile boş hipotezin varsaydığı sonucun birbirinden önemli ölçüde farklı olduğu anlamına gelir.

Eğer p-değeri çok yüksek ise, boş hipotezin öne sürdüğü varsayımın doğru olduğu kabul edilirse, hipotez testinin sonucunun gerçekleşme ihtimali çok yüksek olacaktır. Yani, test sonucu doğrudur. Hipotez testinin sonucu doğru olduğuna göre de boş hipotez kabul edilir. Bu durumda, sonuçların anlamsız (önemsiz) olduğu söylenir çünkü hipotez testinin sonucu ile boş hipotezin varsaydığı sonucun birbirinden önemli ölçüde farklı olmadığı anlamına gelir.

İstatistiksel test sonrasında elde edilen p-değerinin, boş hipotezi kabul etmek veya reddetmek için çok yüksek mi veya çok düşük mü olduğunun belirlenmesi için bir standart kullanılır. Elde edilen p-değeri bu önceden belirlenen standarttan daha düşük ise, p-değerinin çok düşük olduğu veya test sonuçlarının istatistiksel olarak anlamlı olduğu sonucuna varılır ve boş hipotez reddedilir. Eğer, elde edilen p-değeri, önceden belirlenmiş standart değerden daha yüksek ise test sonuçları istatistiksel olarak anlamlı değildir ve boş hipotez kabul edilir. Bu önceden belirlenmiş p-değeri, anlamlılık seviyesi (önem seviyesi) olarak adlandırılır. Anlamlılık seviyesi genel de 5\% olarak seçilir ancak 1\% veya 10\% seçildiği durumlarda mevcuttur.

Hipotez testinin sonucunda iki tür hata ortaya çıkabilir. Eğer boş hipotez doğru ise ve reddedildiyse tip 1 hata ve eğer alternatif hipotez doğru ve reddediliyorsa tip 2 hata meydana gelir.

Birçok hipotez testi çeşidi vardır ve bunlar içerisinde onlarca farklı prosedür ve metrik bulunur. Hipotez testleri, doğru ölçüm yapabilmek için verinin öznitelik çeşidine göre (sürekli veri, ayrık veri gibi) seçilmelidir. Bununla birlikte, hipotez testlerinin çoğunda beş temel aşama bulunur.

  • Hipotezlerin belirlenmesi: Bu aşamada, boş hipotezin ve alternatif hipotezin nasıl ifade edileceğine, formüle edileceğine karar verilir. Boş hipotez genelde H_0 ile ve alternatif hipotez de H_A veya H_1 ile gösterilir.
  • Test örneği için örneklem büyüklüğünün belirlenmesi: Bu aşamada, belirlenen evrenden, hangi hacimde rastgele örneklemler seçileceğine karar verilir. Bu hesaplama, çoğu zaman seçilen teste bağlıdır. Genellikle, merkezi limit teoremi gibi teoremleri kullanabilmek için uygun bir örneklem büyüklüğü belirlemek ve verilerin normal dağılıma sahip olduğunu varsaymak gerekebilir.
  • Anlamlılık seviyesinin belirlenmesi (genelde alfa veya \boldsymbol{\alpha}): Her zaman, hatasız bir test yapılması mümkün olmadığı için her testte bir yanılma payı vardır. Anlamlılık seviyesinin belirlenmesi, doğru olan sıfır hipotezinin, reddedilme olasılığını belirleyen \alpha değerinin seçilmesi işlemidir. Bu aşamada anlamlılık seviyesi belirlenir. Anlamlılık seviyesi \alpha değeri olarak genelde 0.05 seçilir ve \alpha değeri, 0.01, 0.001, 0.0001 gibi küçüldükçe teste olan güven düzeyi artar.
  • Verinin hazırlanması: Bu aşamada, testin yapılabilmesi için, belirlenen hacimde veri örnekleri toplanır.
  • İstatistiksel kararın verilmesi: Boş hipotezin kabul edilip edilmeyeceğine, bu aşamada karar verilir. Bu kararın verilmesi, kullanılan testin çeşidine göre değişiklik gösterebilir ama sonuç olarak, ya boş hipotezi kabul etmekle ya da reddetmekle sonuçlanır.

Parametrik, parametrik olmayan, değişkenler arasında veya gruplar arasında olmak üzere birçok farklı istatistiksel test bulunur.

Business vector created by stories – www.freepik.com