Keşifsel Veri Analizi

Keşifsel veri analizi veya açıklayıcı veri analizi (exploratory data analysis (EDA)), verilerin derlenmesinden ve öznitelik mühendisliğinden sonra, herhangi bir makine öğrenmesi modellemesinin yapılmasından önce, gerçekleştirilmesi gereken çok önemli bir süreçtir. Keşifsel veri analizi, veri setine ilişkin içgörüyü oluşturabilmek ve geliştirebilmek, verinin altında yatan yapıyı veya örüntüyü ortaya çıkarabilmek, veriye ait önemli değişkenleri ve değişkenler arasındaki ilişkiyi açıklayabilmek, aykırı değerleri ve anomalileri tespit edebilmek, belirlenen varsayımları test edebilmek, ileriye yönelik doğru modeller geliştirebilmek ve hataları tespit edebilmek için yapılır.

Keşifsel veri analizi, yalnızca bir yaklaşımdır ve bir dizi teknik veya yöntem değildir; sadece bir veri analizinin nasıl yapılması gerektiğine ilişkin bir felsefedir. Keşifsel veri analizi süreci içerisinde, bir takım istatistiksel analizler ve grafiksel gösterimler ele alınabilir. Örneğin, betimsel istatistik sayesinde veri hakkında istatistiki özetler sunulabilir veya çıkarımsal istatistik ile olasılık sayesinde toplanan örnek verilere dayanarak tüm veri seti (popülasyon) hakkında çıkarımlar yapılabilir ve bazen bu varsayımlar çeşitli istatistiksel testler ile test edilebilir. Böylece, keşifsel veri analizi süreci sonrasında, veri hakkında bir içgörüye, ileriye yönelik varsayımlara veya test edilmiş varsayım sonuçlarına sahip olunabilir. Kısaca, keşifsel veri analizi, büyük resmi görmeye olanak sağlar.

Veri analizi süreçleri genelde, keşifsel veri analizi ile doğrulayıcı veri analizi (confirmatory data analysis) olarak ikiye ayrılabilir. Bu analizler genellikle peşpeşe gerçekleştirilmez. Daha iyi modellemeler yapılabilmesi için içiçe geçmiş analizlerdir. Keşifsel veri analizi, ham verilerin düzenlenmesinden, özetlenmesinden, verilerdeki önemli özelliklerin ve örüntülerin bulunmasından, bu örüntülerden sapmaların keşfedilmesinden ve sonuçların problem bağlamında yorumlanabilmesinden oluşur. Doğrulayıcı veri analizi, hipotez testleri, regresyon analizleri, varyans analizleri gibi, değişkenler arasındaki ilişkiyi tahmin etme, ileriye yönelik varsayımlarda bulunma ve varsayımları test etme süreçlerini içerir.

Veri bilimi projelerinde ve makine öğrenmesi çalışmalarında, keşifsel veri analizi, verinin nasıl anlamlandırılacağı üzerine bir yaklaşım olduğu için genelde çıkarımsal istatistik yöntemleri, hipotez testleri veya regresyon ile kümeleme analizleri ve boyut azaltma teknikleri keşifsel veri analizi süreci içerisinde değerlendirilebilinir. Daha karmaşık istatistiksel analizlere ilişkin varsayımların kontrol edilmesini sağlasa da, klasik tanımında, keşifsel veri analizi yöntemlerine, eldeki verilere dayanarak basitçe açıklamalar veya tahminler sunmaları nedeniyle, genellikle, betimsel istatistikler denir ve klasik veri analizinden bu noktada ayrılır. Keşifsel veri analizinde, klasik veri analizinde olduğu gibi herhangi bir varsayıma dayanma söz konusu değildir; sadece veriyi açıklamaya veya sunmaya yöneliktir. Sonuç olarak, keşifsel veri analizini gerçekleştirmenin tek bir doğru yolu yoktur. Makine öğrenmesi modelini geliştirmeden önce, veriden elde edilmek istenen bilgiler ve problem doğrultusunda, keşifsel veri analizinin kapsamı genişletilebilir. Bu bölümde, keşifsel veri analizi, sadece bir ön fikir yaratabilmek adına verilmiş olup, tek değişkenli analiz, iki değişkenli analiz ve çok değişkenli analiz olarak ele alınmıştır.

Snow vector created by pch.vector – www.freepik.com