Makine Öğrenmesi, Veri Madenciliği, Veri Analizi, Veri Bilimi bu içiçe geçmiş tüm disiplinler veri ile çalışmaktadır. Veriyi anlamak, veri ile çalışan bütün disiplinler için en başta gelmektedir.

Veri Araştırması, verilerin istatistiksel ve görselleştirme teknikleriyle tanımlanması ile ilgilidir.

Veri araştırması için herhangi bir kısayol yoktur. Makine Öğrenmesi ile bir süre uğraştıktan sonra, modelin doğruluğunu geliştirme konusunda mücadele ettiğinizin farkına varacaksınız. Böyle bir durumda veri araştırması teknikleri aklınıza gelecektir.

İçerik

  1. Veri Araştırması ve Hazırlama Aşamaları√
    1. Değişken Tanımlama√
    2. Tek Değişkenli Analiz√
    3. İki Değişkenli Analiz√
    4. Eksik Değer Düzenleme√
    5. Aykırı Veri Düzenleme√
    6. Değişken Dönüşümü√
    7. Değişken Oluşturma√
  2. Eksik Değer Düzenleme (Tedavisi)√
    1. Neden Eksik Değer Tedavisi Gerekiyor?√
    2. Neden Verilerimde Eksik Değerler Var?√
    3. Kayıp Değerleri Tedavi Etmenin Yöntemleri Nelerdir?√
  3. Aykırı Veri Tespiti ve Düzenleme (Tedavisi)√
    1. Aykırı Nedir?√
    2. Aykırı Değerler Nedir?√
    3. Aykırı Duruma Neden Olan Şey Nedir?√
    4. Bir Veri Kümesi Üzerinde Aykırı Değerlerin Etkisi Nedir?√
    5. Aykırı Değerler Nasıl Fark Edilir?√
    6. Aykırı Veriler Nasıl Temizlenir?√
  4. Özellik Mühendisliği√
    1. Özellik Mühendisliği nedir?√
    2. Özellik Mühendisliği Süreci Nedir?√
    3. Değişken Dönüşümü Nedir?√
    4. Değişken Dönüşümünü Ne Zaman Kullanmalıyız?√
    5. Değişken Dönüşümde Yaygın Olarak Kullanılan Yöntemler Nelerdir?√
    6. Özellik / Değişken Yaratımı ve Avantajları Nedir?√

1. Veri Araştırması ve Hazırlama Aşamaları

Girdi verilerinizin kalitesinin çıktılarınızın kalitesine karar verdiğini unutmayın. Veri araştırması, temizleme ve hazırlama toplam proje süresinin %70’ine kadar çıkabilir.

Makine Öğrenmesi modelini oluşturmak için verilerinizi anlama, temizleme ve hazırlama adımları şunlardır:

  1. Değişken Tanımlama√
  2. Tek Değişkenli Analiz√
  3. İki Değişkenli Analiz√
  4. Eksik Değer Düzenleme√
  5. Aykırı Veri Düzenleme√
  6. Değişken Dönüşümü√
  7. Değişken Oluşturma√

Değişken Tanımlama

Önce Predictor(Input) ve Target(output) değişkenlerini belirleyin. Sonra, değişkenlerin veri türünü ve kategorisini belirleyin.

Örnek: – Öğrencilerin kriket oynayıp oynamayacaklarını tahmin etmeyi istiyoruz. Burada, öngörücü değişkenleri, hedef değişkeni, değişkenlerin veri türü ve değişken kategorisini tanımlamak gerekir.

veriarastirmasi1.png

Aşağıda değişkenler farklı kategorilerde tanımlanmıştır:

Business Analytics, Data Exploration

Tek Değişkenli Analiz

Detaylı Tek Değişkenli Analiz için Bakınız, Tek Değişkenli Analiz.

Bu aşamada, değişkenleri tek tek keşfediyoruz. Tek değişken analizi yapmak için yöntem, değişken türünün kategorik veya sürekli olup olmadığına bağlı olacaktır. Kategorik ve sürekli değişkenler için ayrı ayrı bu yöntemlere ve istatistiksel metriklere bakalım:

Sürekli Değişkenler: Sürekli değişkenler söz konusu olduğunda, değişkenin merkez eğilimi ve yayılımını anlamamız gerekir. Bunlar, aşağıda gösterildiği gibi çeşitli istatistiksel metrik görüntüleme yöntemleri kullanılarak ölçülür:

Data Exploration, Business Analytics

Not: Tek değişkenli analiz, eksik ve aykırı değerleri vurgulamak için de kullanılır.

Kategorik Değişkenler: Kategorik değişkenler için, her kategorinin dağılımını anlamak için frekans tablosunu kullanacağız. Her bir kategori altındaki değerlerin yüzdesi olarak da okunabilir. Her kategoriye karşı iki ölçüm, Count ve Count% kullanılarak ölçülebilir. Çubuk grafik görselleştirme olarak da kullanılabilir.

İki değişkenli Analiz

Detaylı İki Değişkenli Analiz için Bakınız, İki Değişkenli Analiz.

İki değişkenli Analiz, iki değişken arasındaki ilişkiyi bulur. Burada, önceden tanımlanmış bir önem düzeyinde değişkenler arasındaki ilişkilendirme ve ayrışmayı araştırırız. Kategorik ve sürekli değişkenlerin herhangi bir kombinasyonu için iki değişkenli analiz yapabiliriz. Kombinasyon şunlar olabilir: Kategorik ve Kategorik, Kategorik ve Sürekli ve Sürekli ve Sürekli. Analiz işlemi sırasında bu kombinasyonların üstesinden gelmek için farklı yöntemler kullanılır.

Sürekli ve Sürekli: İki sürekli değişken arasında iki değişkenli analiz yaparken dağılım grafiğine bakmalıyız. İki değişken arasındaki ilişkiyi bulmak şanslı bir yoldur. Saçılım tablosundaki desen değişkenler arasındaki ilişkiyi belirtir. İlişki doğrusal veya doğrusal olmayabilir.

Data Exploration, Business AnalyticsDağılım plot’ları iki değişken arasındaki ilişkiyi gösterir ancak aralarındaki ilişkinin gücünü göstermez. İlişki gücünü bulmak için Korelasyon kullanırız.

Korelasyon -1 ile +1 arasında değişir.

  • -1: mükemmel negatif doğrusal korelasyon
  • +1: mükemmel pozitif doğrusal korelasyon ve
  • 0: korelasyon yok

Korelasyon aşağıdaki formül kullanılarak türetilebilir:

Korelasyon = Kovaryans(X,Y) / SQRT( Var(X)* Var(Y))
Correlation, Co-variance, Variance, Data Exploration, Business Analytics

Yukarıdaki örnekte, iki değişken X ve Y arasında iyi bir pozitif ilişki (0.65) var.

Kategorik ve Kategorik: İki kategorik değişken arasındaki ilişkiyi bulmak için aşağıdaki yöntemleri kullanabilirsiniz:

  • İki Yönlü Tablo: İki yönlü bir sayım tablosu oluşturarak ilişkiyi analiz etmeye başlayabilir ve sayım yapabiliriz. Satırlar bir değişkenin kategorisini, sütunlar diğer değişkenin kategorilerini temsil eder. Satır ve sütun kategorilerinin her bir kombinasyonunda mevcut gözlemlerin sayısını veya sayımını gösteririz
  • Yığılmış Sütun Grafiği: Bu yöntem İki yönlü tablodan daha görsel bir biçimdedir

Data Exploration, Business Analytics, Stacked Column Chart, Two-Way Table

  • Ki-Kare Testi: Bu test, değişkenler arasındaki ilişkinin istatistiksel önemini göstermek için kullanılır. Ayrıca, örneklemdeki kanıtların, daha büyük bir nüfus için olan ilişkiyi de genelleştirecek kadar güçlü olup olmadığını test eder. Ki-kare, iki yönlü tabloda bir veya daha fazla kategoride beklenen ve gözlenen frekanslar arasındaki farka dayanır

Olasılık 0: Her iki kategorik değişkene bağımlı olduğunu gösterir

Olasılık 1: Her iki değişkenin bağımsız olduğunu gösterir

Olasılık 0.05’den küçük: Değişkenler arasındaki ilişkinin% 95 güvenilir olduğunu gösterir. İki kategorik değişkenin bağımsızlık testi için ki-kare test istatistiği şu şekilde bulunurData Exploration, Chi Square, Business Analytics

O, gözlemlenen frekansı temsil eder. E, boş hipotez altında beklenen frekanstır ve şu şekilde hesaplanmaktadır:

Data Exploration, Chi Square, Business Analytics
Kategorik ve Sürekli: Kategorik ve sürekli değişkenler arasındaki ilişkiyi araştırırken, kategorik değişkenlerin her bir seviyesi için  box plot’ları çizebiliriz. Seviyelerin sayısı azsa, istatistiksel önemi gösterilmez. İstatistiksel önemi incelemek için Z-testi, T-testi veya ANOVA uygulayabiliriz.

  • Z-Testi / T Testi: Her iki testte de, iki grubun ortalamasının istatistiksel olarak birbirinden farklı olup olmadığını değerlendirir
    ztestformula
    Z olasılığı küçükse, o zaman iki ortalamanın farkı daha önemlidir. T-testi Z-testine çok benzer, ancak her iki kategoride de gözlem sayısı 30’dan az olduğunda kullanılır.
    Data Exploration, Business Analytics
  • ANOVA: İki grubun ortalamasının istatistiksel olarak farklı olup olmadığını değerlendirir.

2. Eksik Değer Düzenleme (Tedavisi)

  1. Neden Eksik Değer Tedavisi Gerekiyor?√
  2. Neden Verilerimde Eksik Değerler Var?√
  3. Kayıp Değerleri Tedavi Etmenin Yöntemleri Nelerdir?√

Neden Eksik Değer Tedavisi Gerekiyor?

Eğitim veri setindeki eksik veriler, bir modelin güç/uyumunu(power/fit) azaltabilir veya davranışları ve diğer değişkenlerle olan ilişkiyi doğru bir şekilde analiz etmediğimizden önyargılı bir modele neden olabilir. Yanlış tahmin veya sınıflandırmaya yol açabilir.

Data Exploration, Missing Values

Yukarıda gösterilen resimdeki eksik değerlere bakalım: Sol tarafta, eksik değerleri tedavi etmedik (düzenlemedik). Bu veri setinden çıkarım, erkeklerin kriket oynama olasılıklarının kadınlardan daha yüksek olduğudur. Öte yandan, kayıp değerlerin (cinsiyete dayalı olarak) tedaviden sonra(eksik veri düzenlenmesinden sonra) verileri gösteren ikinci tabloya bakarsanız, kadınların erkeklere kıyasla kriket oynama olasılığının yüksek olduğunu görebiliriz.

Neden Verilerimde Eksik Değerler Var?

Bir veri kümesindeki eksik değerlerin tedavisinin önemine baktık. Şimdi, bu eksik değerlerin oluşmasının nedenlerini tanımlayalım. Bunlar iki aşamada meydana gelebilir:

  • Veri Çıkarma: Çıkarma işleminde sorunlar olması mümkündür. Bu gibi durumlarda, veri bekçileri(data guardians) ile doğru bilgiyi tekrar kontrol etmeliyiz. Bazı hashing prosedürler, veri çıkarılmasının doğru olduğundan emin olmak için kullanılabilir. Veri çıkarma aşamasındaki hataları genellikle bulmak kolaydır ve kolayca da düzeltilebilir.
  • Veri Toplama: Bu hatalar, veri toplama sırasında oluşur ve düzeltilmesi zordur. Dört çeşit kategorize edilebilirler:
    • Tamamen Rasgele Eksik: Bu, eksik değişken olasılığı tüm gözlemler için aynı olduğunda bir durumdur. Burada her gözlem eşit değere sahip değildir.
    • Rasgele Eksik: Değişken rastgele eksik olduğunda ve eksik olan oran diğer giriş değişkenlerinin farklı değerleri / seviyeleri için değişir. Örneğin: Yaş ve bayan için veri topluyoruz, erkekle kıyaslandığında daha fazla kayıp değeri var.
    • Eksik Olanlar Gözlemlenmeyen Öngörücülere Bağlıdır: Bu, eksik değerlerin rasgele olmadığı ve gözlemlenmeyen girdi değişkeniyle ilişkili olduğu durumdur
    • Eksiklik, Eksik Değerin Kendisine Bağlıdır: Eksik değer olasılığı doğrudan eksik değer ile ilişkilendirildiğinde bu durum söz konusudur.

Kayıp Değerleri Tedavi Etmenin Yöntemleri Nelerdir?

  • Silme: İki tiptir: Listedeki Bilgiyi Silme ve Çift Eşleşeni Silme.
    • Liste bilgisinden silme işleminde, değişkenlerin herhangi birinin eksik olduğu gözlemleri silmekteyiz. Sadelik  bu yöntemin en büyük avantajlarından biridir, ancak bu yöntem örneklemi azalttığı için modelin gücünü düşürür.
    • Çift olanı silme işleminde, ilgili değişkenlerinin bulunduğu tüm durumlarla analiz yaparız. Bu yöntemin avantajı birçok veri analiz için kullanılabilirdir. Bu yöntemin dezavantajlarından biri, farklı değişkenler için farklı örnek büyüklüğü kullanmasıdır.

Data Exploration, Missing Values, Deletion Methods     Eksikliğin doğası “Tamamen rastgele eksik” iken silme yöntemleri kullanılır, aksi takdirde rasgele olmayan eksik değerler model çıktısını önyargılı yapabilir.

  • Ortalama / Mod / Medyan İşlemesi: İşaretleme, eksik değerleri tahmin edilenlerle doldurmak için kullanılan bir yöntemdir. Amaç, eksik değerlerin tahmin edilmesine yardımcı olmak için veri kümesinin geçerli değerlerinde tanımlanabilecek bilinen ilişkileri kullanmaktır. Ortalama / Mod / Medyan, en sık kullanılan yöntemlerden biridir. Belli bir özellik için eksik olan verilerin, o değişkenin tüm bilinen değerlerinin ortalaması veya medyanı(niceliksel nitelik) veya modu(nitel öznitelik) ile değiştirilmesinden oluşur. İki çeşit olabilir: –
    • Genelleştirilmiş İşaretleme: Bu durumda, o değişkenin eksik olmayan tüm değerlerinin ortalamasını veya ortanca değerini hesaplarız, ardından eksik değerin ortalama veya ortanca ile değiştirilir. Yukarıdaki tabloda olduğu gibi değişken “İşgücü” eksik olduğundan, eksik olan tüm “İşgücü” değerlerinin ortalamasını alıp (28.33) eksik değeri onunla değiştirelim.
    • Benzer Verinin Değerlendirilmesi: Bu durumda cinsiyet için “Erkek” (29.75) ve “Dişi” (25) tek tek eksik olmayan değerlerin ortalamasını hesaplarız ve daha sonra eksik değeri, cinsiyete dayalı olarak değiştiririz. “Erkek” için, eksik insan gücü değerlerini 29.75 ve “Kadın” için ise 25 olacak.
  • Tahmin Modeli: Tahmin modeli, eksik verileri işlemek için gelişmiş yöntemlerden biridir. Burada eksik verilerin yerini alacak değerleri tahmin etmek için tahmini bir model oluştururuz. Bu durumda, veri setimizi iki gruba böleriz: Değişken için eksik değer bulunmayan bir set ve eksik değerler içeren bir set. İlk veri seti modelin eğitim verileri seti haline gelirken, eksik veriler içeren ikinci veri seti test veri setidir ve eksik değerlerdeki değişkenler hedef değişken olarak ele alınır. Daha sonra, eğitim verilerinin diğer özniteliklerine dayanarak hedef değişkenini tahmin etmek ve test veri setinin eksik değerlerini oluşturmak için bir model oluşturduk. Bunu yapmak için regresyon, ANOVA, Lojistik regresyon ve çeşitli modelleme tekniğini kullanabiliriz. Bu yaklaşım için 2 dezavantaj vardır:
    • Model, tahmini değerler genellikle doğru değerlerden daha iyi davranabilirler
    • Veri kümesindeki özniteliklerin ve eksik değerlere sahip özniteliklerle hiçbir ilişki yoksa, model kayıp değerleri tahmin etmek için kesin olmayan değerler öngörebilir.
  • KNN Değiştirme: Bu metotlama yönteminde, bir özniteliğin eksik değerleri, değerleri eksik özniteliğe en çok benzeyen belirli sayıda öznitelik kullanılarak atanır. İki öznitelik arasındaki benzerlik, bir mesafe fonksiyonu kullanılarak belirlenir. Aynı zamanda belirli avantaj ve dezavantajlara sahip olduğu bilinmektedir.
    • Avantajları:
      • K-en yakın komşu hem niteliksel hem de sayısal nitelikleri tahmin edebilir
      • Eksik olan her öznitelik için tahmin modeli oluşturulması gerekli değildir
      • Birden çok kayıp değeri olan özellikler kolayca tedavi edilebilir
      • Verilerin korelasyon yapısı dikkate alınır
    • Dezavantajı:
      • KNN algoritması, büyük veritabanının analiz edilmesinde çok zaman alıcıdır. En benzer örnekleri arayan tüm veri kümesini arar.
      • K-değerinin seçimi çok kritiktir. K’nin daha yüksek değeri, ihtiyacımız olanlardan önemli derecede farklı özellikler içerirken, k’nin daha düşük değeri, önemli niteliklerden kaçınılması anlamına gelir.

Kayıp değerler ile uğraştıktan sonra, sıradaki görevler aykırı değerlerle uğraşmaktır. Çoğu zaman, modeller inşa ederken aykırı verileri(aşırılıkları) ihmal etme eğilimindeyizdir. Bu cesur bir yaklaşımdır. Aykırı değerler verilerinizi çarpık hale getirme eğilimindedir ve doğruluğu azaltır. Alışılmadık veriler(Aykırı Veriler) hakkında daha fazla bilgi edelim.

3. Aykırı Veri Tespiti ve Düzenleme (Tedavisi)

  1. Aykırı Nedir?√
  2. Aykırı Değerler Nedir?√
  3. Aykırı Duruma Neden Olan Şey Nedir?√
  4. Bir Veri Kümesi Üzerinde Aykırı Değerlerin Etkisi Nedir?√
  5. Aykırı Değerler Nasıl Fark Edilir?√
  6. Aykırı Veriler Nasıl Temizlenir?√

Aykırı Nedir?

Aykırı değerler, veri bilimcileri ve analistleri tarafından sıkça kullanılan bir terminolojidir, çünkü yanlış tahminlere neden olabileceği için dikkat gerektirir. Basitçe söylemek gerekirse, Aykırı, uzakta görünen ve örneklemdeki genel bir örüntü ile çakışan bir gözlemdir.

Bir örnek verelim, müşteri profillemesini yapalım ve müşterilerin yıllık yıllık gelirinin 0,8 milyon dolar olduğunu göreceğiz. Ancak, yıllık geliri $4 ve $4.2 milyon olan iki müşteri var. Bu iki müşterinin yıllık geliri, nüfusun geri kalanından çok daha yüksektir. Bu iki gözlem, Aykırı Değerler olarak görülür.

Outlier

Aykırı Değerler Nedir?

Aykırı değer iki tür olabilir: Tek Değişkenli(Univariate) ve Çok Değişkenli(Multivariate.). Yukarıda, tek değişkenli aykırı örneğine baktık. Bu aykırı değerler, tek bir değişkenin dağılımına baktığımızda bulunabilir. Çok değişkenli aykırı değerler, n boyutlu bir uzayda aykırı değerlerdir. Onları bulmak için, çok boyutlu dağılımlara bakmanız gerekir.

Bunu bir örnekle anlayalım. Diyelim ki boy ile kilo arasındaki ilişkiyi anlıyoruz. Aşağıda, Boy, Ağırlık için tek değişkenli ve iki değişkenli dağılımımız bulunmaktadır. Box plot’lara bir göz atın. Herhangi bir aykırılığımız yok (yukarıdaki 1.5*IQR’nin en yaygın metodu). Şimdi dağılım alanına bakın. Burada, belirli bir ağırlık ve yükseklik segmentinde aşağıda iki değer ve ortalamanın üstünde bir tane değer var.

Outlier, Multivariate Outlier

Aykırı Duruma Neden Olan Şey Nedir?

Aykırılıklarla karşılaştığımızda onlarla baş etmek için en ideal yol, bu aykırılıkların ortaya çıkmasının nedenini bulmaktır. Onlarla başa çıkmak için kullanılan yöntem daha sonra bunların oluşma nedenlerine bağlı olacaktır. Aykırılığın nedenlerini iki geniş kategoride sınıflandırılabiliriz:

  • Suni (Hata) / Doğal olmayan
  • Doğal

Çeşitli sapma şekillerini daha ayrıntılı olarak kavrayalım:

  • Veri Girişi Hataları: Veri toplama, kayıt veya veri girme sırasında oluşan hatalar gibi insan hataları, verilerde belirsizlik yaratabilir. Örneğin: Bir müşterinin yıllık geliri 100.000 $ ‘dır. Kazara, veri girişi operatörü rakamda bir sıfır ekler. Şimdi gelir 10 kat daha yüksek olan 1,000,000 dolar olur. Kuşkusuz, bu nüfusun geri kalanına kıyasla aykırı bir değer olacaktır.
  • Ölçüm Hatası: Aykırılığın en yaygın kaynağıdır. Bunun sebebi, kullanılan ölçüm aleti arızalı olduğu zaman ortaya çıkar. Örneğin: 10 tartı makinesi var. Bunlardan 9’u doğru, 1’i arızalı. Arızalı makine üzerinde insanlar tarafından ölçülen ağırlık, gruptaki diğer kişilere göre daha yüksek / düşük olacaktır. Hatalı makine üzerinde ölçülen ağırlıklar, aykırılıklara neden olabilir.
  • Deneysel Hata: Aykırı değerlerin bir diğer nedeni deney hatasıdır. Örneğin: 7 koşucunun 100 metrelik bir sprintinde bir koşucu, geç başlamasına neden olan ‘Go’ çağrısına konsantre olmayı atlar. Bu nedenle, bu koşucunun çalışma süresinin diğer koşucularından daha fazla olmasına neden olur. Onun toplam koşma süresi bir aykırılık olabilir.
  • Kasıtlı Aykırı: Bu, hassas verileri içeren kendinden bildirilen ölçümlerde yaygın olarak bulunur. Örneğin: Gençler genellikle tükettikleri alkol miktarını bildir. Gerçek değerlerini yalnızca bir kısmı rapor eder.
  • Veri İşleme Hatası: Ne zaman veri madenciliği gerçekleştirirsek, birden fazla kaynaktan veri çıkarıyoruz. Bazı manipülasyon veya çıkarma hataları, veri setinde aykırı verilere neden olabilir.
  • Örnekleme hatası: Örneğin, sporcuların yüksekliğini ölçmek zorundayız. Hatalı olarak, numuneye birkaç basketbolcu ekledik. Bu dahil etme, muhtemelen veri setinde aşırı değerli maddelere neden olabilir.
  • Doğal Aykırı: Bir aykırı değer yapay değilse(hatadan dolayı), doğal bir aykırılıktır. Örneğin: Ünlü sigorta şirketlerinden biriyle yaptığım son görevimde, en iyi 50 finansal danışmanın performansının nüfusun geri kalanından çok daha yüksek olduğunu fark ettim. Şaşırtıcı bir şekilde, herhangi bir hata yüzünden değildi. Dolayısıyla, danışmanlarla herhangi bir veri madenciliği faaliyeti gerçekleştirdiğimizde, bu bölümü ayrı ayrı ele alıyorduk.

Bir Veri Kümesi Üzerinde Aykırı Değerlerin Etkisi Nedir?

Aykırı değerler, veri analizinin sonuçlarını ve istatistiksel modellemeyi büyük ölçüde değiştirebilir. Veri setinde aykırı değerlerin olumsuz etkileri çok sayıdadır:

  • Hata varyansını arttırır ve istatistiksel testlerin gücünü azaltır
  • Aykırı değerler rasgele dağıtılırsa normalliği düşürebilirler
  • Önemli ilgi çekici olabilecek tahminleri önyargılı yapabilir veya etkileyebilirler
  • Ayrıca, Regresyon, ANOVA ve diğer istatistiksel model varsayımlarının temel varsayımını etkileyebilirler.

Etkiyi derin bir şekilde anlamak için, veri kümesinde aykırı veriler bulunan ve içermeyen bir veri kümesine ne olduğunu kontrol etmek için bir örnek verelim.

Örnek:

Outlier, Mean, Median, Mode

Gördüğünüz gibi, aykırı değerlerle ayarlanmış veriler, ortalama ve standart sapma bakımından önemli ölçüde farklılık göstermektedir. İlk senaryoda ortalama 5.45 olduğunu söyleyeceğiz. Fakat aykırı veriler yüzünden, ortalama 30’a kadar yükselir. Bu, tahmini tamamen değiştirecektir.

Aykırı Değerler Nasıl Fark Edilir?

Aykırı değerleri saptamak için en yaygın kullanılan yöntem görselleştirme yöntemidir. Box-plot, Histogram, Scatter Plot gibi çeşitli görselleştirme yöntemlerini kullanıyoruz. Bazı analistler, aykırı değerleri saptamak için çeşitli başparmak(thumb) kurallarını da belirtir. Onlardan bazıları:

  • -1.5 x IQR ila 1.5 x IQR aralığının ötesinde herhangi bir değer
  • Capping  yöntemlerini kullanın. 5. ve 95. yüzdelik aralıkların dışındaki herhangi bir değer, aykırı olarak düşünülür
  • Ortalama noktadan uzakta üç veya daha fazla standart sapma veri noktaları aykırı olarak değerlendirilir
  • Aykırı veriyi algılama, verilerin etkili veri noktaları için incelenmesinin özel bir örneğidir ve aynı zamanda iş anlayışına da bağlıdır
  • İki değişkenli ve çok değişkenli aykırı değerler, genellikle bir etki indeksi veya kaldıraç veya mesafe kullanılarak ölçülür. Mahalanobis mesafesi ve Cook’s D gibi popüler endeksler, aykırı değerleri saptamak için sıklıkla kullanılır.
  • SAS’ta, PROC Tek Değişkenli PROC SGPLOT’u kullanabilirsiniz. Aykırı ve etkili gözlemi tanımlamak için ,STUDENT, COOKD, RSTUDENT diğerleri gibi istatistiksel ölçüye de bakarız.

Aykırı Veriler Nasıl Temizlenir?

Aykırı Verilerin üstesinden gelmenin yollarının çoğu, gözlemleri silmek, onları dönüştürmek, onları bin’leştirmek, onları ayrı bir grup olarak ele almak, değerleri ve diğer istatistiksel yöntemleri atamak gibi eksik değerlerin yöntemlerine benzer. Burada, aykırı değerlerle uğraşmak için kullanılan yaygın teknikleri tartışacağız:

Gözlemleri Silme: Veri girişi hatasından, veri işleme hatasından veya aykırı veriler çok sayıdaysa aykırı değerleri siliyoruz. Aykırı değerleri kaldırmak için her iki uçta da kırpma işlemi de uygulayabiliriz.

Dönüştürme ve Binning Değerleri: Değişkenler dönüştürülerek aykırı değerler de ortadan kaldırılabilir. Doğal log değeri, aşırı değerlerin neden olduğu değişimi azaltır. Binning de değişken dönüşümün bir şeklidir. Karar Ağacı algoritması, değişkenin Binning edilmesinden ötürü aykırı değerlerle uğraşmayı sağlar. Ağırlıkları farklı gözlemlere atama sürecini de kullanabiliriz.

Variable Transformation, LOG

İşaretleme: Kayıp değerlerin yerine getirilmesi gibi, aykırı değerleri de kabul edebiliriz. Ortalama, medyan, mod imputasyon yöntemlerini kullanabiliriz. Değerleri atamadan önce, olağandışı veya yapay olup olmadığını analiz etmeliyiz. Aykırı gözlem değerlerini tahmin etmek için istatistiksel modeli kullanabiliriz ve bundan sonra tahmin edilen değerlerle değiştirebiliriz.

Ayrı Olarak Muamele Etmek: Aykırı veriler sayıca önemli sayıda varsa, bunlara istatistiksel modelde ayrı ayrı davranmalıyız. Bu yaklaşımlardan birisi, her iki grubun da iki farklı grup olarak ele alınması ve her iki grup için bireysel modeli oluşturup çıktıyı birleştirmektir.

4. Özellik Mühendisliği

  1. Özellik Mühendisliği nedir?√
  2. Özellik Mühendisliği Süreci Nedir?√
  3. Değişken Dönüşümü Nedir?√
  4. Değişken Dönüşümünü Ne Zaman Kullanmalıyız?√
  5. Değişken Dönüşümde Yaygın Olarak Kullanılan Yöntemler Nelerdir?√
  6. Özellik / Değişken Yaratımı ve Avantajları Nedir?√

Özellik Mühendisliği nedir?

Özellik mühendisliği, mevcut veriden daha fazla bilgi çıkarma bilimidir (ve sanattır). Buraya yeni veri eklemiyorsunuz, ancak aslında daha önce sahip olduğunuz verileri daha kullanışlı hale getiriyorsunuz.

Örneğin, tarihleri ​​temel alan bir alışveriş merkezindeki yaya trafiğini önceden tahmin etmeye çalıştığınızı varsayalım. Tarihleri ​​doğrudan denerseniz ve kullanırsanız, veriden anlamlı bilgiler bulamazsınız. Bunun nedeni, yaya trafiğinin ayın gününden haftanın gününe göre daha az etkilendiğidir. Artık haftanın günü hakkındaki bu bilgiler verilerinizde örtüşüyor. Modelinizi daha iyi hale getirmek için onu ortaya çıkarmalısınız.

Özellik mühendisliği, verilerden bilgilerden çıkarılmasının egzersizidir.

Özellik Mühendisliği Süreci Nedir?

Veri araştırmasında ilk beş aşamayı tamamladıktan sonra özellik mühendisliği gerçekleştirirsiniz – Değişken Tanımlama, Tek Değişkenli, İki Değişkenli Analiz, Eksik Değerleri Tedavi ve Aykırı Veri Tedavisi. Özellik mühendisliğinin kendisi 2 adıma bölünebilir:

  • Değişken dönüşüm.
  • Değişken / Özellik yaratma

Bu iki teknik veri araştırmasında hayati önem taşır ve tahmin gücü üzerinde belirgin bir etkiye sahiptir.

Değişken Dönüşümü Nedir?

Veri modellemesinde, dönüşüm, bir değişkenin bir işlevle değiştirilmesini ifade eder. Örneğin, bir değişkeni x kare/küp kökü veya logaritma x ile değiştirmek bir dönüşümdür. Başka bir deyişle, dönüşüm, bir değişkenin diğerleriyle olan dağılımını veya ilişkisini değiştiren bir süreçtir.

Değişken dönüşüm yararlı olduğu durumlara bakalım.

Değişken Dönüşümünü Ne Zaman Kullanmalıyız?

Değişken dönüşümün şart olduğu durumlar aşağıda belirtilmiştir:

  • Bir değişkenin ölçeğini değiştirmek veya daha iyi anlaşılması için bir değişkenin değerlerini standartlaştırmak istediğimizde. Farklı ölçeklerde verileriniz varsa bu dönüşüm şarttır, bu dönüşüm değişken dağılımın şeklini değiştirmez
  • Karmaşık doğrusal olmayan ilişkileri doğrusal ilişkilere dönüştürebiliriz. Değişkenler arasındaki doğrusal bir ilişkinin varlığı doğrusal olmayan veya kavisli bir ilişkiye kıyasla daha kolay anlaşılır. Dönüşüm, doğrusal olmayan bir ilişkiyi doğrusal ilişkiye dönüştürmemize yardımcı olur. İki sürekli değişken arasındaki ilişkiyi bulmak için dağılım çizimi kullanılabilir. Bu dönüşümler de tahmini iyileştirir. Log dönüşümleri, bu durumlarda kullanılan yaygın kullanılan dönüşüm yöntemlerinden biridir.

Correlation, Analytics, Transformation

  • Simetrik dağılım, yorumlamaları daha kolay ve çıkarımlar ürettiği için eğrisel dağılımın üzerinde tercih edilir. Bazı modelleme teknikleri değişkenlerin normal dağılımını gerektirir. Dolayısıyla, çarpık bir dağıtımımız olduğunda, çarpıklığı azaltan dönüşümleri kullanabiliriz. Doğru çarpık dağılım için, kare/küp kökünü veya değişken logaritmayı ve sol eğri için, değişkenlerin/küp veya üstellerini alırız.

Log Transformation, Analytics, Transformation

  • Değişken Dönüşüm, bir uygulama bakış açısıyla da yapılır (İnsan katılımı). Bunu daha net anlayalım. Çalışan performansı konusundaki projemden birinde, yaşın çalışanın performansıyla doğrudan bağlantılı olduğunu, yani yaşın daha yüksek olduğunu, performansın daha iyi olduğunu keşfettim. Bir uygulama bakış açısından, yaşa dayalı programı başlatmak uygulama zorluğunu ortaya koyabilir. Bununla birlikte, satış acentelerini 30 yaş altı, 30-45 yaş ve> 45 yaş grubundaki üç yaş grup kovasında sınıflandırıp her bir grup için üç farklı strateji hazırlamak akıllıca bir yaklaşımdır. Bu kategorizasyon tekniği Değişkenlerin Binning’i (Bölümlendirilmesi) olarak bilinir.

Değişken Dönüşümde Yaygın Olarak Kullanılan Yöntemler Nelerdir?

Değişkenleri dönüştürmek için kullanılan çeşitli yöntemler vardır. Tartışıldığı gibi, bazıları karekök, küp kökü, logaritmik, binning,  ve diğerlerini içerir. Bu dönüşüm yöntemlerinin avantaj ve dezavantajlarını vurgulayarak bu yöntemlere ayrıntılı bir şekilde bakalım.

  • Logaritma: Bir değişkenin logu, bir dağılım plot’u üzerinde değişken dağılım şeklini değiştirmek için kullanılan yaygın bir dönüştürme yöntemidir. Genellikle değişkenlerin doğru çarpıklığını azaltmak için kullanılır. Ancak, sıfır veya negatif değerlere de uygulanamaz.
  • Kare / Küp kökü: Bir değişkenin kare ve küp kökünün değişken dağılımı üzerinde ses etkisi vardır. Bununla birlikte, logaritmik dönüşüm kadar önemli değildir. Küp kökü kendi avantajına sahiptir. Sıfır dahil negatif değerlere uygulanabilir. Karekök, sıfır dahil olumlu değerlere uygulanabilir.
  • Binning: Değişkenleri kategorize etmek için kullanılır. Orjinal değerler, yüzde veya frekans üzerinde gerçekleştirilir. Kategorizasyon tekniğinin kararı, iş anlayışına dayanır. Örneğin, geliri üç kategoride sınıflandırabiliriz: Yüksek, Ortalama ve Düşük. Aynı anda birden fazla değişkenin değerine bağlı olarak eş-değişkenli binning işlemi gerçekleştirebiliriz.

Özellik / Değişken Yaratımı ve Avantajları Nedir?

Özellik / Değişken yaratma, varolan değişken (ler) e dayalı yeni bir değişken / özellik oluşturmak için kullanılan bir işlemdir. Örneğin, bir veri kümesinde bir girdi değişkeni olarak tarihimiz (dd-aa-yy) var demek. Gün, ay, yıl, hafta, hafta içi gibi hedef değişkenle daha iyi ilişkide olabilecek yeni değişkenler üretebiliriz. Bu adım, bir değişkende gizli ilişkiyi vurgulamak için kullanılır:Derived Variables, New Variables

Yeni özellikler yaratmak için çeşitli teknikler vardır. Şimdi yaygın olarak kullanılan yöntemlerden bazılarına göz atalım:

  • Türetilmiş Değişkenlerin Oluşturulması: Bu, mevcut değişken(ler) den bir dizi fonksiyon veya farklı yöntemler kullanarak yeni değişkenler oluşturma anlamına gelir. “Titanic – Kaggle yarışması” na bakalım. Bu veri kümesinde değişken yaşın eksik değerleri var. Kayıp değerleri öngörmek için adın selamı (Master, Mr, Miss, Mrs) yeni bir değişken olarak kullanılmıştır. Oluşturacağımız değişkene nasıl karar verirsiniz? Dürüst olmak gerekirse, bu, analistin iş anlayışına, onun merakına ve sorunu hakkında alabileceği hipotezin setine bağlıdır. Değişkenlerin günlüğünün alınması, binning değişkenleri ve diğer değişken dönüştürme yöntemleri gibi yöntemler de yeni değişkenler oluşturmak için kullanılabilir.
  • Kukla Değişkenlerin Oluşturulması: Kukla değişkenin en yaygın uygulamalardan biri kategorik değişkeni sayısal değişkenlere dönüştürmektir. Kukla değişkenlere Gösterge Değişkenleri denir. İstatistiksel modellerde kategorik değişkeni bir öngördürücü olarak almak yararlıdır. Kategorik değişken 0 ve 1 değerleri alabilir. Değişken bir ‘cinsiyet’ kabul edelim. 1 (Erkek) ve 0 (Erkek olmayan) değerli “Var_Male” ve 1 (Kadın) ve 0 (Kadın Olmayan) değerli “Var_Female” olmak üzere iki değişken üretebiliriz. Ayrıca n veya n-1 kukla değişkenli kategorik değişkenlerin ikiden fazla sınıfı için kukla değişkenler oluşturabiliriz.Dummy Variable, Data Exploration

 

Referans:

https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/

Çeviridir, eksik ve hatalı kısımlar olabilir.

 

Designed by Freepik