İstatistik

İstatistik, belirli bir amaç için verilerin toplanması, sınıflandırılması, sunulması, çözümlenmesi ve sonuçların yorumlanması süreçlerini içeren bir yöntemler bilimidir. İstatistik, betimsel istatistik ve çıkarımsal istatistik olarak ikiye ayrılabilir. Betimsel istatistik bu toplanan verilerin derlenmesi, özetlenmesi ve analiz edilmesi ile ilgilenir. Çıkarımsal istatistik veya istatistiksel çıkarım ise verinin analiz edilmesi ile verinin ait olduğu dağılımın özelliklerini anlama ve ilgili çıkarımlarda bulunma süreçleri ile ilgilenir.

Makine öğrenmesi sisteminin başarılı bir şekilde çalışabilmesi için veri hakkında genel bir içgörüye sahip olmak önemlidir. Öznitelik mühendisliği süreçleri göz önüne alındığında verilerin özniteliklerini tanımlamak ve özellikle hangi değerlerin gürültü veya aykırı değer olarak değerlendirilmesi gerektiğini seçebilmek için temel istatistik kavramlarını kullanmak gerekir. Makine öğrenmesinde bir veri nesnesinin öznitelikleri veya başka bir deyişle özellikleri istatistikte değişken olarak adlandırılır. Kısaca bir değişken, gözlemden gözleme değişik değerler alabilen nesnelere, özelliklere ya da olaylara denir. Makine öğrenmesinde aynı özniteliklere sahip nesnelerin oluşturduğu kümeye veri seti denilirken istatistikte aynı özellikleri taşıyan birimlerin oluşturduğu topluluğa kitle (veya popülasyon, ana kütle) denir. Bir kitleden belirli yöntemler kullanılarak seçilen ve aynı özelliğe sahip birimlerin oluşturduğu daha küçük topluluklara ise örneklem denir. Örneklem, kitleyi nitelik ve nicelik olarak temsil eder. Kitlenin yani veri setinin özelliklerinin sayısal değerlerine parametre denir. Örneklem üzerinde çeşitli işlemler uygulanıp parametre değerleri tahmin edilmeye çalışılır ve tahmin sonucunda ortaya çıkan sayısal değerlere istatistik denir.

Business vector created by stories – www.freepik.com