فێربوونی بەھێزکردنەوە
فێربوونی بەھێزکردنەوە | |
---|---|
لقی | فێربوونی مەکینە |
بەشێکە لە | فێربوونی مەکینە |
کۆد (٢٠١٢) | 10010261 |
تاگی "ستەک ئێکسچەینج" | https://stackoverflow.com/tags/reinforcement-learning، https://ai.stackexchange.com/tags/reinforcement-learning |
بەرامبەر | inverse reinforcement learning |
فێربوونی بەهێزکردنەوە (بە ئینگلیزی: Reinforcement learning RL) بوارێکە لە فێربوونی ئامێر کە پەیوەستە بە چۆنیەتی کارمەندانی زیرەک کە دەبێت لە ژینگەیەکدا کردار بکەن بۆ ئەوەی چەمکی کۆی پاداشتێک زیاد بکەن. فێربوونی بەهێزکردن یەکێکە لە سێ شێوازی فێربوونی بنەڕەتیی ئامێر، لەگەڵ فێربوونی چاودێریکراو و فێربوونی چاودێرینەکراو.
فێربوونی بەهێزکردنەوە جیاوازە لە فێربوونی چاودێریکراو لە نەبوونی پێویستی بە جووتەکانی تێخراو/دەرهاویشتە کە پێشکەشکراون، و نەبوونی پێویستی بۆ کرداری نزم بۆ ڕاستکردنەوەی ئاشکرا (واتە وردکردنەوەی ئەوەی کە چی پێویستە ڕاست بکرێتەوە لە کاتی هەڵەکردندا). لەجیاتی ئەوە جەخت لەسەر دۆزینەوەی هاوسەنگی دەکات لەنێوان گەڕان (ناوچە نەناسراوەکان) و ئیستیغلالکردن (ی زانینی ئێستا).[١]
ژینگە بە شێوەیەکی نموونەیی لە شێوەی پرۆسەی بڕیاردانی مارکۆڤ (MDP) دا دەنووسرێت، چونکە زۆرێک لە ئەلگۆریتمەکانی فێربوونی بەهێزکردنەوە بۆ ئەم چوارچێوەیە تەکنیکی پرۆگرامکردنی داینامیکی بەکاردەهێنن.[٢] جیاوازی سەرەکی لەنێوان شێوازەکانی پرۆگرامکردنی داینامیکی کلاسیکی و ئەلگۆریتمەکانی فێربوونی بەهێزکردنەوە ئەوەیە کە ئەم دواینانە زانیاری لەسەر مۆدێلی بیرکاریی ورد لە MDP هەڵناگرن و ئامانجیان MDP گەورەیە کە تێیدا بەکارهێنانی شێوازە کتومتەکان ئەستەمە.
پێناسە
[دەستکاری]بەھۆی گشتی بوونیەوە، فێربوونی بەهێزکردنەوە لە زۆر بواری زانستی لێکۆڵینەوەی لەسەر دەکرێت، وەک تیۆری یاری، تیۆری کۆنترۆڵ، توێژینەوەی ئۆپەراسیۆنەکان، تیۆری زانیاری، گەشەپێدانی بنچینەی لاساییکردنەوە، سیستەمی فرە بریکار، زیرەکیی سوارم، و هەروەها ئامار. لە توێژینەوە و نووسراوەکانی کۆنترۆڵکردنی ئۆپەراسیۆنەکاندا، فێربوونی بەهێزکردن پێی دەوترێت بەرنامەدانانی داینامیکی نزیکەیی، یان بەرنامەدانانەکانی دەماری. کێشەکانی بەرژەوەندی لە فێربوونی بەهێزکردن هەروەها لە تیۆری کۆنترۆڵکردنی 'گونجاو' لێکۆڵینەوەی لەسەر کراوە، کە بەزۆری پەیوەستە بە بوون و دیاریکردنی چارەسەرە گونجاوەکان، و ئەلگۆریتمەکان بۆ کۆمپیوتەراندنی وردیان، و کەمتر لەگەڵ فێربوون یان نزیکبوونەوە، بەتایبەتی لە نەبوونی مۆدێلێکیی بیرکاریی ژینگەکەدا. لە ئابووری و تیۆری یاری، فێربوونی بەهێزکردنەوە دەتوانرێت بەکاربهێنرێت بۆ ڕوونکردنەوەی ئەوەی چۆن هاوسەنگی لەوانەیە لەژێر 'ڕەفتاری چوارچێوەدار'دا سەرهەڵبدات.
فێربوونی بەهێزکردنی بنەڕەتی وەک پرۆسەی بڕیاردانی مارکۆڤ (MDP) مۆدێل دەکرێت:
- کۆمەڵێک دۆخی ژینگە و بریکار، S؛
- کۆمەڵێک کردار، A، لەلایەن بریکار؛
- ئەگەری گواستنەوە (لە کاتی ) لە دۆخێکەوە بۆ دۆخێکی تر لەژێر کرداردا.
- دەکاتە خەڵاتێکی ڕاستەوخۆی دوای گواستنەوە لە ەوە بۆ بە کرداری .
پێڕست
[دەستکاری]سەرچاوەکان
[دەستکاری]- ^ Kaelbling، Leslie P. (1996). «Reinforcement Learning: A Survey». Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. لە ڕەسەنەکە لە ٢٠ی تشرینی دووەمی ٢٠٠١ ئەرشیڤ کراوە. لە ١٣ی کانوونی یەکەمی ٢٠٢٢ ھێنراوە.
{{cite journal}}
: زیاتر لە یەک دانە لە|ناونیشانی ئەرشیڤ=
و|archive-url=
دیاری کراوە (یارمەتی) - ^ van Otterlo, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. Vol. 12. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
{{cite book}}
:|work=
چاوپۆشیی لێ کرا (یارمەتی)
کۆمنزی ویکیمیدیا، میدیای پەیوەندیدار بە فێربوونی بەھێزکردنەوە تێدایە. |