Türkçe’de “Takviyeli Öğrenme” ya da “Pekiştirmeli Öğrenme” adıyla anılan, Makine Öğrenmesi yöntemlerinin alt başlıklarından biridir.
Bulunduğu ortamda en iyi sonuçlara ulaşabilmesi için ne yapması gerektiğine karar veren bir yöntemdir. Yani ortamı algılayabilen ve karar alabilen koşulların olduğu sistem içerisinde hedefe ulaşabilmek için en doğru kararı almayı nasıl öğreneceğini gösterir.
Reinforcement Learning’te kullanılan bazı başlıkları inceleyeceğiz. Başlıkları incelerken labirentin çıkış kapısını bulmaya çalışan bir hamster üzerinde çalıştığımızı düşünelim.
Modelin içinde bulunduğu koşulların bütünüdür. Labirentteki hamster örneğimiz için labirent çevreyi temsil eder.
Ödüllendirilmek için aksiyonlarda bulunan varlıktır. Hamster bizim örneğimizde ajana karşılık gelmektedir.
Ajanın verdiği tepkidir. Hamster’ın sağdaki yoldan ilerlemesi buna örnek olarak verilebilir.
Ajanın çevre içerisinde bulunduğu noktadır. Kendi örneğimiz için labirenti matrislerle ifade edersek hamsterın anlık bulunduğu konuma karşılık gelen matristir.
Ajanın bulunduğu durum ve bu duruma bağlı olarak bundan sonraki durumlardan gelebilecek olan ödül sayısıdır. Yani örnekleyecek olursak; hamster şu ana kadar 3 fıstık yedi eğer sağdan ilerlerse toplam 5 fıstık yiyecek ve çıkış kapısına ulaşacak fakat soldan ilerlerse toplam 4 fıstık yiyecek ve çıkış kapısına ulaşacak. Bu örnekte verdiğim toplam fıstık sayısı ihtimalleri öngörerek hesaplanmıştır. Buna durum değeri denir.
Ajanın yaptığı hareketlerin doğruluğuna uygun olarak ajan, çevre tarafından ödüllendirilir. State Value’nun aksine anlıktır. Mesela labirentin içinde doğru yolu bulmaya çalışan hamsterın, ilerlediği yolda her doğru tercih yaptığında bir fıstıkla ödüllendirilmesidir.
Ajanın durumunu hareketlerle eşleştirme yöntemidir. Yani bir önce kararıyla fıstık kazanmış bir hamsterın bir sonraki hareketini bu durumu değerlendirerek belirlemesidir.
Bahsettiğimiz kavramların hepsi biribiriyle bağlantılı şekilde öğrenme yöntemimizi meydana getirir. Aşağıdaki şema bağlantılarını göstermektedir.
En başta ajan çevre hakkında bilgi sahibi olmadığı için bulunduğu duruma uygun bir harekette bulunur. Bu hareket çevre tarafından değerlendirilir ve ajan bu değerlendirme sonucu yeni bir duruma geçer. Eğer yaptığı hareket çevre tarafından ödüllendirilirse, ajan bundan sonraki hareketlerini bu aldığı ödül çerçevesinde değerlendirir ve değerlendirmesine göre tekrar harekette bulunur. Ajandan ya da çevreden gelen her tepkide durum değişir. Ajan öğrenme sürecini tamamlayana kadar bu döngü devam etmektedir.
Aslında Reinforcement Learning bize pek yabancı değildir. Biz canlılar da hayata uyum sağlarken bu şekilde öğreniriz. Seçimlerimiz bazen ödüllendirilir bazen cezalandırılır. Sonuca en iyi şekilde ulaşana dek döngü devam eder.
Okuduğunuz için teşekkür ederim.
Yararlandığım kaynaklar: