Çapraz Doğrulama, bir makine öğrenmesi modelinde yapılan testin hatasını daha iyi tahmin edebilmek için model seçiminde kullanılan bir tekniktir. Çapraz doğrulamanın arkasındaki fikir, eğitim verileri setinden doğrulama kümeleri olarak bilinen örnek gözlem bölümlerini oluşturmaktır. Bir modeli eğitim verilerine yerleştirdikten sonra, performansı, her yeni doğrulama kümesine karşı ölçülür ve daha sonra, yeni gözlemleri öngörmek istenildiğinde modelin nasıl performans göstereceğine ilişkin daha iyi bir değerlendirme elde edilir. Yapılacak bölüm sayısı, örnek veri kümesindeki gözlem sayısına ve önyargı varyansı dengelemesine ilişkin kararın, daha fazla bölünmenin daha küçük bir yanlılığa yol açmasına ve daha fazla varyansa bağlı olarak değişmesine bağlıdır.

Holdout yöntemi çapraz doğrulamanın en basit çeşididir. Veri seti, eğitim seti ve test seti olarak adlandırılan iki gruba ayrılmıştır. İşlev yaklaşımcısı, yalnızca eğitim setini kullanarak bir işleve uyar. Sonra, fonksiyon yaklaşımından test setindeki verilerin çıkış değerlerini tahmin etmesi istenir (daha önce bu çıkış değerlerini hiç görmemiş). Yaptığı hatalar, modeli değerlendirmek için kullanılan ortalama mutlak test kümesi hatasını vermek için daha önce olduğu gibi biriktirilir. Bu yöntemin avantajı artık yöntemin tercih edilmesi ve hesaplamanın artık gerekmemesidir. Bununla birlikte, değerlendirmesi çok değişken olabilir. Değerlendirme, hangi veri noktalarının eğitim setine girdiğine ve hangi test grubuna dönüştüğüne bağlı olabilir ve bu nedenle değerlendirme, bölümün nasıl yapıldığına bağlı olarak önemli ölçüde farklılık gösterebilir.

K katlamalı çapraz doğrulama, holdout yöntemini geliştirmenin bir yoludur. Veri kümesi k alt küme altına bölünmüştür ve bekletme yöntemi k kez tekrarlanmaktadır. Her defasında, k alt kümelerinden biri test kümesi olarak kullanılırken diğer k-1 alt kümeleri bir eğitim kümesi oluşturmak üzere bir araya getirilir. Ardından, tüm k denemelerindeki ortalama hatası hesaplanır. Bu yöntemin avantajı, verilerin nasıl bölündüğünü daha az önemsemektir. Her veri noktası tam olarak bir kez test kümesine girer ve k-1 kez bir eğitim setine girer. Sonuç tahmini varyansı, k arttıkça azaltılır. Bu yöntemin dezavantajı, eğitim algoritmasının sıfırdan k kere tekrarlanması gerektiğidir, yani değerlendirme yapmak için k kere kadar hesaplama gerektirir. Bu yöntemin bir varyantı, verileri rastgele bir test ve eğitim setine k farklı zamanlara bölmektir. Bunu yapmanın avantajı, her bir test kümesinin ne kadar büyük olduğunu ve kaç denemenizin bağımsız olduğunu seçebilmenizdir.

Tek-çıkışlı çapraz doğrulama, K katlı çapraz doğrulamasının mantıksal uç noktasına getirilmesidir; K, setteki veri noktalarının sayısı N’ye eşittir. Bunun anlamı N’nin ayrı zamanlarda, fonksiyon yaklaşımcısının bir nokta dışındaki tüm veriler üzerinde eğitilmesi ve bu nokta için bir tahmin yapılmasıdır. Daha önce olduğu gibi ortalama hata hesaplandır ve modeli değerlendirmek için kullanılır. Tek-çıkışlı çapraz doğrulama hatası (leave-one-out cross validation error )(LOO-XVE) ile verilen değerlendirme iyidir, ancak ilk geçişte hesaplanması çok pahalı görünmektedir. Neyse ki, yerel olarak ağırlıklandırılmış öğreniciler, LOO tahminlerini normal tahminler yaparken olduğu kadar kolay yapabilir. Bu, LOO-XVE’nin hesaplanması artık hatanın hesaplanmasından daha fazla zaman alması anlamına gelmez ve modelleri değerlendirmek için çok daha iyi bir yoldur.