Veri Dağılım Ölçüleri

Veri dağılım ölçüleri bir veri kümesinin nasıl yayıldığını açıklamanın bir yoludur. Veri dağılım ölçülerinin değerleri negatif olmayan gerçek sayılardır; tüm veriler aynı olduğunda veri dağılım ölçüsü sıfır ve veriler daha çeşitli hale geldikçe ölçünün değeri artmaktadır. Veri dağılım ölçüleri verinin ne kadar değişken olduğunu göstermeye yarar ve çeyrekler açıklığı, varyans ile standart sapma en sık kullanılan ölçülerdir.

Aralık, Çeyreklik ve Çeyrekler Açıklığı

Bir veri kümesinin aralığı en büyük ve en küçük değerleri arasındaki farktır. Çeyreklik (kartil veya dörttebirlik), veri dağılımının düzenli aralıklarla alınan ve onu eşit miktarda ardışık kümelere bölen noktalardır. 2-çeyreklik (2-kartil), medyan olarak adlandırılan ve en bilinen çeyrekliktir. Genelde, veri dağılımını dört eşit parçaya bölen üç veri noktasından oluşan 4-çeyreklik olarak adlandırılan verinin dörtte birini temsil eden bir çeyreklik vardır ve bu genellikle sadece çeyreklik olarak adlandırılır. 100-çeyreklik daha yaygın olarak yüzdelik olarak adlandırılır ve veri kümesini ardışık 100 eşit parçaya böler. Medyan, çeyreklik ve yüzdelik en yaygın kullanılan çeyreklik biçimleridir. Çeyreklikler bir veri dağılımının merkezi, yayılışı ve şeklinin bir göstergesidir. Birinci çeyreklik Q1 ile gösterilir ve verinin yüzde 25’lik bölümüdür. Yani verilerin ilk %25’lik kısmını keser. Üçüncü çeyreklik Q3 ile gösterilir ve verinin yüzde 75’lik bölümüdür ve ikinci çeyreklik yani medyan veri dağılımının tam ortasıdır

Birinci ve üçüncü çeyreklikler arasındaki uzaklık, verilerin ortada kalan bölümü tarafından kapsanan aralığı veren basit bir istatistiksel yayılma ölçüsüdür. Bu uzaklık çeyrekler açıklığı olarak adlandırılır. İngilizcesi IQR, Inter Quartile Range’dir. Çeyrekler açıklığı güçlü ve sağlam bir veri dağılım ölçüsüdür.

IQR = Q3 - Q1

Varyans ve Standart Sapma

Varyans ve standart sapma, veri dağılımının ne kadar yayıldığını göstermek için yaygın olarak kullanılan veri dağılım ölçüleridir. Düşük bir standart sapma, verilerin ortalama değere çok yakın olma eğiliminde olduğu anlamına gelirken yüksek bir standart sapma, verilerin geniş bir değer aralığına yayıldığını gösterir. Tüm veri nesneleri aynı ise standart sapma 0 olacaktır. N tane sayısal değer olmak üzere x_1,x_2,x_3,...,x_N veri nesnelerini içeren bir veri kümesinin ortalaması \bar{x} olmak üzere bu veri kümesi için varyans şu şekilde hesaplanır:

Standart sapma \sigma, varyans \sigma^2 değerinin kareköküne eşittir. Bir veri kümesinin değişkenliğini ifade etmenin yanı sıra, standart sapma, istatistiksel sonuçlara olan güveni ölçmek için yaygın olarak kullanılır.

Infographic vector created by katemangostar – www.freepik.com