هنگامی که ما در حال یادگیری رانندگی یا در حال انجام مکالمه هستیم، از نحوه بازخورد محیط نسبت به رفتار خود کاملا آگاهیم و میخواهیم آنچه از طریق رفتار ما رخ میدهد را در کنترل داشته باشیم. یادگیری از طریق تعامل یک ایده پایهای است که تقریبا در زیرساخت تمام تئوریهای یادگیری و هوشمندی قرار دارد.
کتاب «یادگیری تقویتی» نوشته ریچارد ساتن و اندرو بارتو به ترجمه سجاد کردانی مقدم در هشت فصل با موضوعاتی همچون «ردیابیهای شایستگی»، «یادگیری تقویتی عمیق» و «روشهای مونته کارلو» بهتازگی از سوی انتشارات گسترش علوم پایه راهی بازار نشر شده است.
یادگیری تقویتی چیست؟
«به یادگیری نحوه نگاشت یک وضعیت به یک اقدام بهطوریکه یک سیگنال پاداش عددی را حداکثر نماید، یادگیری تقویتی میگویند. در این دیدگاه برخلاف بسیاری از روشهای یادگیری ماشین، به یادگیرنده گفته نمیشود که چه اقدامی را انجام دهد و جای آن یادگیرنده باید با آزمایش آن اقدام و دریافت بازخورد از سیگنال پاداش زنجیره اقداماتی که به حداکثر کردن پاداش منتهی میشوند را بهدست آورد.
در بسیاری از مسائل نتیجه انجام یک اقدام فراتر از وضعیت مسأله در گام بعدی است و بر روی تمام زنجیره گامهای پس از آن تأثیر میگذارد. بهعنوان مثال بازی شطرنج را در نظر بگیرید، در این بازی انجام هر حرکت (اقدام) یک امتیاز آنی به همراه دارد (مثلا زدن یک مهره حریف) ولی علاوه بر آن بازی را وارد یک وضعیت جدید میکند که بر روی زنجیره اقدامات قابل انجام پس از آن و در نتیجه پاداشهای آن و پاداش نهایی تأثیرگذار است. دو مشخصه جستجو با آزمون و خطا و پاداشهای تاخیردار دو ویژگی بسیار مهم در یادگیری تقویتی هستند.
یادگیری تقویتی نه با مشخصههای روش یادگیری بلکه با مشخصههای مسئله یادگیری تعریف میشود. هر روشی که مناسب حل یک مسئله باشد میتواند بهعنوان یک روش یادگیری تقویتی مورد استفاده قرار گیرد.»
تفاوتهای یادگیری تقویتی و یادگیری با نظارت
«یادگیری تقویتی با یادگیری با نظارت که امروزه بیشترین استفاده در تحقیقات از آن میشود ،تفاوت دارد. در یادگیری با نظارت بر اساس دادههای لیبلدار که توسط یک ناظر خارجی متخصص قبلا آماده شده است، یادگیری صورت میگیرد. یادگیری با نظارت یک روش مهم در یادگیری است اما برای یادگیری از تعاملات کافی نیست.
در مسائل تعاملی بدست آوردن نمونههایی از رفتار مورد انتظار بهطوریکه این نمونهها ما را به هدف برسانند و تمام فضای مسئله که عامل میتواند در آن قرار گیرد را پوشش دهند، تقریبا غیرعملی است. همچنین در یک فضای مسئله ناشناخته عامل باید بتواند از تجربههای گذشته خود یاد بگیرد. یکی از مهمترین چالشها که فقط در یادگیری تقویتی وجود دارد و سایر روشهای یادگیری با آن روبرو نیستند، نیاز به ایجاد یک تعادل بین اکتشاف و بهربرداری از تجربه قبلی است.
عامل در هر گام باید انتخاب کند که برای تصمیمگیری اقدامی که میخواهد انجام دهد از تجربه قبلی خود استفاده کند و یا اینکه یک راه جدید انتخاب کند و به جستجو بپردازد. برای بدست آوردن بیشترین پاداش یک عامل یادگیری تقویتی باید اقدامی را انتخاب کند که بیشترین پاداش را برای آن پیشبینی میکند، اما برای پیدا کردن اقداماتی که باعث پاداش بیشتری میشوند، عامل باید مسیرهای جدید را جستجو کند و این یک دوراهی برای انتخاب اقدام است که عامل آن با همواره روبرو خواهد بود.»
نخستین چاپ کتاب «یادگیری تقویتی» در 264 صفحه مصور با شمارگان یکهزار نسخه به بهای 40 هزار تومان از سوی انتشارات گسترش علوم پایه راهی بازار نشر شده است.
نظر شما