یکشنبه ۲۰ مهر ۱۳۹۹ - ۰۹:۲۰
یادگیری در تعامل با محیط

یادگیری از طریق تعامل یک ایده پایه‌ای است که تقریبا در زیرساخت تمام تئوری‌های یادگیری و هوشمندی قرار دارد.

به گزارش خبرگزاری کتاب ایران(ایبنا)، هنگامی که به نحوه یادگیری فکر می‌کنیم، ایده یادگیری به وسیله تعامل با محیط احتمالا اولین چیزی است که به ذهن خطور می‌کند. هنگامی که یک نوزاد بازی می‌کند، دستان خود را تکان می‌دهد یا به اطراف نگاه می‌کند، هیچ معلمی به او نحوه انجام این کارها را آموزش نداده است، اما ارتباط مستقیم با محیط خود دارد. با تمرین و تکرار، این ارتباط باعث تولید اطلاعات باارزشی از علت و معلول زنجیره رخداد‌ها می‌شوند و اینکه در نقطه فعلی از زنجیره چه کاری باید انجام داد تا به هدف رسید، بی‌شک در طول زندگی، چنین تعاملاتی یکی از منابع اصلی کسب دانش برای هر فردی است.

هنگامی که ما در حال یادگیری رانندگی یا در حال انجام مکالمه هستیم، از نحوه بازخورد محیط نسبت به رفتار خود کاملا آگاهیم و می‌خواهیم آنچه از طریق رفتار ما رخ می‌دهد را در کنترل داشته باشیم. یادگیری از طریق تعامل یک ایده پایه‌ای است که تقریبا در زیرساخت تمام تئوری‌های یادگیری و هوشمندی قرار دارد.

کتاب «یادگیری تقویتی» نوشته ریچارد ساتن و اندرو بارتو به ترجمه سجاد کردانی مقدم در هشت فصل با موضوعاتی همچون «ردیابی‌های شایستگی»، «یادگیری تقویتی عمیق» و «روش‌های مونته کارلو» به‌تازگی از سوی انتشارات گسترش علوم پایه راهی بازار نشر شده است.


یادگیری تقویتی چیست؟
«به یادگیری نحوه نگاشت یک وضعیت به یک اقدام به‌طوری‌که یک سیگنال پاداش عددی را حداکثر نماید، یادگیری تقویتی می‌گویند. در این دیدگاه برخلاف بسیاری از روش‌های یادگیری ماشین، به یادگیرنده گفته نمی‌شود که چه اقدامی را انجام دهد و جای آن یادگیرنده باید با آزمایش آن اقدام و دریافت بازخورد از سیگنال پاداش زنجیره اقداماتی که به حداکثر کردن پاداش منتهی می‌شوند را به‌دست آورد.

در بسیاری از مسائل نتیجه انجام یک اقدام فراتر از وضعیت مسأله در گام بعدی است و  بر روی تمام زنجیره‌ گام‌های پس از آن تأثیر می‌گذارد. به‌عنوان مثال بازی شطرنج را در نظر بگیرید، در این بازی انجام هر حرکت (اقدام) یک امتیاز آنی به همراه دارد (مثلا زدن یک مهره حریف) ولی علاوه بر آن بازی را وارد یک وضعیت جدید می‌کند که بر روی زنجیره اقدامات قابل انجام پس از آن و در نتیجه پاداش‌های آن و پاداش نهایی تأثیرگذار است. دو مشخصه جستجو با آزمون و خطا و پاداش‌های تاخیردار دو ویژگی بسیار مهم در یادگیری  تقویتی هستند.


یادگیری تقویتی نه با مشخصه‌های روش یادگیری بلکه با مشخصه‌های مسئله یادگیری تعریف می‌شود. هر روشی که مناسب حل یک مسئله باشد می‌تواند به‌عنوان یک روش یادگیری تقویتی مورد استفاده قرار گیرد.» 

تفاوت‌های یادگیری تقویتی و یادگیری با نظارت
«یادگیری تقویتی با یادگیری با نظارت که امروزه بیشترین استفاده در تحقیقات از آن می‌شود ،تفاوت دارد. در یادگیری با نظارت بر اساس داده‌های لیبل‌‌دار که توسط یک ناظر خارجی متخصص قبلا آماده شده‌ است، یادگیری صورت می‌گیرد. یادگیری با نظارت یک روش مهم در یادگیری است اما برای یادگیری از تعاملات کافی نیست.

در مسائل تعاملی بدست آوردن نمونه‌هایی از رفتار مورد انتظار به‌طوری‌که این نمونه‌ها ما را به هدف برسانند و تمام فضای مسئله‌ که عامل می‌تواند در آن قرار گیرد را پوشش دهند، تقریبا غیرعملی است. همچنین در یک فضای مسئله ناشناخته عامل باید بتواند از تجربه‌های گذشته خود یاد بگیرد. یکی از مهم‌ترین چالش‌ها که فقط در یادگیری تقویتی وجود دارد و سایر روش‌های یادگیری با آن روبرو نیستند، نیاز به ایجاد یک تعادل بین اکتشاف و بهر‌برداری از تجربه قبلی است.


عامل در هر گام باید انتخاب کند که برای تصمیم‌گیری اقدامی که می‌خواهد انجام دهد از تجربه قبلی خود استفاده کند و یا اینکه یک راه جدید انتخاب کند و به جستجو بپردازد. برای بدست آوردن بیشترین پاداش یک عامل یادگیری تقویتی باید اقدامی را انتخاب کند که بیشترین پاداش را برای آن پیش‌بینی می‌کند، اما برای پیدا کردن اقداماتی که باعث پاداش بیشتری می‌شوند، عامل باید مسیرهای جدید را جستجو کند و این یک دوراهی برای انتخاب اقدام است که عامل آن با همواره روبرو خواهد بود.»
                     
نخستین چاپ کتاب «یادگیری تقویتی» در 264 صفحه مصور با شمارگان یک‌هزار نسخه به بهای 40 هزار تومان از سوی انتشارات گسترش علوم پایه راهی بازار نشر شده است. 

نظر شما

شما در حال پاسخ به نظر «» هستید.

برگزیده

پربازدیدترین

تازه‌ها