Boyutsallığın Laneti

Gerçek dünyadaki verileri doğru bir şekilde temsil edebilmek için yalnızca 1 veya 2 boyuttan daha fazlasına ihtiyaç duyarız. İlk olarak, boyutsallığın veri setlerimiz üzerindeki etkisini inceleyelim. Sadece Ev 1’e ait öznitelikler aşağıdaki gibi.

Şimdi Ev 1’e ait olan öznitelikleri biraz zenginleştirelim.

Ev 1’e ait öznitelik vektörlerimizi bütün evler için genişlettiğimiz zaman artık 3 boyutlu bir veri setine sahip olacağız. Makine öğrenmesi modellerinin öğrenme işlemini daha iyi gerçekleştirebileceğini düşünerek veri setine daha çok özellik eklendiği sürece boyutlar artmaya devam edecektir. Daha fazla özelliğin eklenmesi günlük hayatın üç boyutlu fiziksel alanı gibi düşük boyutlu ortamlarda oluşmayan ancak yüksek boyutlu alanlarda genellikle yüzlerce veya binlerce boyutta verileri analiz ederken ve organize ederken özellikle makine öğrenmesi algortimalarının çalışması sırasında ortaya çeşitli sorunlar çıkarmaktadır.

Veri setinin yüzlerce boyutu aştığı durumlarda hesaplama gücü azalacak ve verilerin saklanması, işlenmesi için gereken hafıza alanları katlanarak artacaktır. Bu problemlerin yanında veri boyutunun bu derece artmasının makine öğrenmesi için ayrı bir önemi vardır. Boyutluluk arttıkça verilerin bulunduğu alanın hacmi de o kadar hızlı artacaktır ve bu sebeple yüksek boyuttaki bu uzayda veriler seyrekleşecektir. Bu verilerin seyrekliği istatistiksel önemi olan makine öğrenmesi algoritmaları için bir sorundur ve buna boyutsallığın laneti fenomeni denilmektedir. Yüksek boyutlu verilerde tüm olası kombinasyonlar kapsamlı bir şekilde örneklenemeyecektir bu nedenle özellik alanının geniş bölgeleri karanlıkta kalacak, işlenemeyecektir. Kısaca boyut büyüdükçe verilerin uzaydaki birbirlerine olan uzaklıkları gittikçe artacaktır ve makinelerin veriden öğrenmeye çalıştığı süreçler doğru örneklemeler yapılamayacağı için düzgün gerçekleşmeyecektir.

Boyutsallığın lanetinden kurtulmak için birçok yöntem bulunmaktadır; boyut azaltma teknikleri kullanılabilir, öznitelik mühendisliği sayesinde çeşitli öznitelik seçimleri yapılabilir. Özetle, boyutsallığın laneti makine öğrenmesi algoritmaları için büyük bir sorundur, çeşitli yöntemler ile verilerin boyutunun azaltılması sağlanabilir ve bu sayede veri seyrekliği azalacak, daha az hesaplama gücü gerekecek ve daha etkili uzaklık ölçümleri yapılabilecektir.

Technology vector created by vectorjuice – www.freepik.com