Şu ana kadar makine öğrenmesinde hep denetimli ve denetimsiz öğrenme yöntemleri ile ilgili paylaşımlarda bulunmuştuk. Artık Takviyeli Öğrenmeyi öğrenmenin vakti geldi! Takviyeli öğrenmeyi, denetimli ve denetimsiz öğrenme yolları hakkında bilgi sahibi olduktan sonra ve insan beynini taklit eden yapay sinir ağlarının yapısını bildikten sonra öğrenilmesi, Takviyeli Öğrenmenin amacına daha uygun olacaktır.

Neden daha uygun olacağını şöyle açıklayabiliriz: Denetimli öğrenme ve denetimsiz öğrenme yöntemlerinden tamamen farklı olmamasına rağmen Takviyeli Öğrenme – Pekiştirmeli Öğrenme, insanların öğrenme şeklini taklit etmektedir.

Bu her zaman bir regresyon problemi gibi, hep yüksek not aldım bundan sonra da yüksek not alırım veya bir kümeleme problemi gibi elmaların içerisinde duran rengi farklılaşmaya başlamış bir elmanın, diğerlerinden farklı olması dolayısıyla muhtemelen bu bozuluyordur dememizden biraz daha farklıdır. Takviyeli Öğrenme, klasik yöntemlerden farklı olarak herhangi bir ön bilgiye ihtiyaç duymadan, yani bir eğitim verisi olmadan ve kesin yöntemlerin işe yaramadığı süreçlerde kullanılır.

İnsanlar, daha önce edindikleri bilgilerden faydalanarak veya olağan süreci karşılaştırmalar yaparak öğrenebildikleri gibi gerçek hayatta doğduğumuz andan itibaren, hem kendi hem de etrafımızdakilerin, çevre ile etkileşime girmesi ve bu etkileşimlerin sonuçlarının gözlemlenmesi ile öğreniriz. Makine öğrenmesine geri dönecek olursak, Makine Öğrenmesinin amacı genellikle öğrenme aracı olarak adlandırılan ve öğrenme ve değişim süreciyle akıllı programlar üretebilmektir. Takviyeli Öğrenme veya diğer adı ile Pekiştirmeli Öğrenme (RL), bu öğrenme süreci için ele alınabilecek bir yaklaşımdır.

Bir Takviyeli Öğrenme Ajanı, çevresi ile etkileşime girerek ve bu etkileşimlerin sonuçlarını gözlemleyerek öğrenir. Yani bu, insanların, canlıların öğrenmelerinin temel yolunu taklit eder. İnsan olarak, çevremize doğrudan bir duyusal-motor bağlantısına sahibiz, yani bu eylemlerin sonuçlarını gerçekleştirebiliriz ve bu eylemlerin sonuçlarına tanık oluruz. Bu fikir yaygın olarak “neden ve sonuç” olarak bilinir ve hayatımız boyunca çevremizin bilgisini oluşturmanın anahtarı bu neden-sonuç ilişkileridir.

Öğrenmesi neden-sonuç ilişkisine dayanan bir Takviyeli Öğrenme Ajanı için aşağıdaki aşamalardan oluşmaktadır:

  • Ajan, bir başlangıç (giriş) durumunu gözlemler.
  • Gerçekleştirilecek eylem, bir karar verme işleviyle belirlenir. Buna politika denir.
  • Eylem gerçekleştirilir.
  • Ajan, ortamdan bir skaler ödül veya takviye alır.
  • Bu durum ve eylem çifti için verilen ödül hakkındaki bilgi kaydedilir.

Eylemleri gerçekleştirerek ve ortaya çıkan ödülü yerine getirerek, bir durum için en iyi eylemi belirlemek için kullanılan politikaya ince ayarlamalar yapılabilir.

Sonuç olarak, yeterli sayıda durum gözlemlenirse, optimal bir karar politikası oluşturulacak ve söz konusu ortamda mükemmel performans gösteren bir ajana sahip olabiliriz.

Tabiki Takviyeli Öğrenme, ajanların ortamdaki en yüksek ödül miktarına ulaşabilmesi için hangi eylemleri yapmasına karar vermesi ile ilgilenir.

Şimdi karşımıza şöyle bir çelişki çıkar: Takviyeli Öğrenmede, bir ajan geçmişte belirli bir eylemi denediyse ve iyi bir ödül almış ise bu eylemi tekrarlayarak o ödüle sahip mi olacak veya diğer olasılıkları denemek daha iyi bir ödül verebilir mi? Daha iyi bir ödül var olabilir diye araştırmak kesinlikle iyi bir taktik olacaktır. Hem keşif hem de daha önceden deneyimlediği sonucu ödül olan eylemi tekrarlaması (kullanması) arasındaki denge olmadan Takviyeli Öğrenme ajanı başarılı bir şekilde öğrenemeyecektir. 

Güzel bir denge elde etmenin en yaygın yolu, en fazla ödülü üretirken öne çıkan eylemleri kademeli olarak destekleyen çeşitli eylemleri denemektir.

Takviyeli Öğrenmenin Kullanıldığı Alanları

Takviyeli Öğrenme kullanılarak farklı problemler çözülebilir. Takviyeli Öğrenme ajanları uzman gözetimi olmadan öğrenebildikleri için, Takviyeli Öğrenmeye en uygun problemlerin türü, açık ve kolay programlanabilir bir çözüm olmadığı anlaşılan karmaşık problemlerdir.

  • Oyun Oynama: Bir oyunda en iyi hamleyi belirleme genellikle bir takım farklı faktörlere bağlıdır, dolayısıyla belirli bir oyunda bulunabilecek olası durumların sayısı genellikle çok büyüktür. Standart bir kurala dayalı bir yaklaşım kullanarak bu birçok durumu kapsamak, aynı zamanda çok sayıda kodlanmış kuralların belirtilmesi anlamına gelecektir. Takviyeli Öğrenme kuralları manuel olarak belirleme ihtiyacını ortadan kaldırır, ajanlar sadece oyunu oynayarak öğrenirler. Tavla gibi iki oyunculu oyunlar için, diğer insan oyunculara ve hatta diğer Takviyeli Öğrenme ajanlarına karşı oynayarak ajanlar eğitilebilir.
  • Kontrol Sorunları: Asansör zamanlaması gibi. Yine, hangi stratejilerin en iyi, en zamanında asansör hizmeti sağlayacağı açık değildir. Bunun gibi kontrol problemleri için, Takviyeli Öğrenme ajanları simüle edilmiş bir ortamda öğrenmeye bırakılabilir ve sonunda iyi kontrol politikaları üretebilirler. Kontrol problemleri için Takviyeli Öğrenme kullanmanın bazı avantajları, bir ajanın çevreyle ilgili değişikliklere uyum sağlamak için kolayca yeniden eğitilebilmesi ve sürekli olarak sistem çevrimiçi iken eğitilmesi, performansın sürekli iyileştirilmesidir. Robotik kontrol sistemleri, Takviyeli Öğrenme kullanarak, örneğin nesneleri toplamak için robot kolunun nasıl hareket ettirileceğini öğrenebilir. Takviyeli Öğrenme kullanılarak nesne kaçınma hakkında daha önce de belirtildiği gibi çevreyi hareket ettirmeyi öğrenebilirler, bu şekilde dengeleme gibi çok sayıda denetim görevini öğrenebilirler.

 

Designed by Freepik