فێربوونی بەھێزکردنەوە

فێربوونی بەھێزکردنەوە
فێربوونی بەھێزکردنەوە
لقی	فێربوونی مەکینە
بەشێکە لە	فێربوونی مەکینە
کۆد (٢٠١٢)	10010261
تاگی "ستەک ئێکسچەینج"	https://stackoverflow.com/tags/reinforcement-learning، https://ai.stackexchange.com/tags/reinforcement-learning
بەرامبەر	inverse reinforcement learning
	لە ویکیدراوە دەستکاریی زانیارییەکان بکە

فێربوونی بەهێزکردنەوە (بە ئینگلیزی: Reinforcement learning RL) بوارێکە لە فێربوونی ئامێر کە پەیوەستە بە چۆنیەتی کارمەندانی زیرەک کە دەبێت لە ژینگەیەکدا کردار بکەن بۆ ئەوەی چەمکی کۆی پاداشتێک زیاد بکەن. فێربوونی بەهێزکردن یەکێکە لە سێ شێوازی فێربوونی بنەڕەتیی ئامێر، لەگەڵ فێربوونی چاودێریکراو و فێربوونی چاودێرینەکراو.

فێربوونی بەهێزکردنەوە جیاوازە لە فێربوونی چاودێریکراو لە نەبوونی پێویستی بە جووتەکانی تێخراو/دەرهاویشتە کە پێشکەشکراون، و نەبوونی پێویستی بۆ کرداری نزم بۆ ڕاستکردنەوەی ئاشکرا (واتە وردکردنەوەی ئەوەی کە چی پێویستە ڕاست بکرێتەوە لە کاتی هەڵەکردندا). لەجیاتی ئەوە جەخت لەسەر دۆزینەوەی هاوسەنگی دەکات لەنێوان گەڕان (ناوچە نەناسراوەکان) و ئیستیغلالکردن (ی زانینی ئێستا).^[١]

ژینگە بە شێوەیەکی نموونەیی لە شێوەی پرۆسەی بڕیاردانی مارکۆڤ (MDP) دا دەنووسرێت، چونکە زۆرێک لە ئەلگۆریتمەکانی فێربوونی بەهێزکردنەوە بۆ ئەم چوارچێوەیە تەکنیکی پرۆگرامکردنی داینامیکی بەکاردەهێنن.^[٢] جیاوازی سەرەکی لەنێوان شێوازەکانی پرۆگرامکردنی داینامیکی کلاسیکی و ئەلگۆریتمەکانی فێربوونی بەهێزکردنەوە ئەوەیە کە ئەم دواینانە زانیاری لەسەر مۆدێلی بیرکاریی ورد لە MDP هەڵناگرن و ئامانجیان MDP گەورەیە کە تێیدا بەکارهێنانی شێوازە کتومتەکان ئەستەمە.

پێناسە

بەھۆی گشتی بوونیەوە، فێربوونی بەهێزکردنەوە لە زۆر بواری زانستی لێکۆڵینەوەی لەسەر دەکرێت، وەک تیۆری یاری، تیۆری کۆنترۆڵ، توێژینەوەی ئۆپەراسیۆنەکان، تیۆری زانیاری، گەشەپێدانی بنچینەی لاساییکردنەوە، سیستەمی فرە بریکار، زیرەکیی سوارم، و هەروەها ئامار. لە توێژینەوە و نووسراوەکانی کۆنترۆڵکردنی ئۆپەراسیۆنەکاندا، فێربوونی بەهێزکردن پێی دەوترێت بەرنامەدانانی داینامیکی نزیکەیی، یان بەرنامەدانانەکانی دەماری. کێشەکانی بەرژەوەندی لە فێربوونی بەهێزکردن هەروەها لە تیۆری کۆنترۆڵکردنی 'گونجاو' لێکۆڵینەوەی لەسەر کراوە، کە بەزۆری پەیوەستە بە بوون و دیاریکردنی چارەسەرە گونجاوەکان، و ئەلگۆریتمەکان بۆ کۆمپیوتەراندنی وردیان، و کەمتر لەگەڵ فێربوون یان نزیکبوونەوە، بەتایبەتی لە نەبوونی مۆدێلێکیی بیرکاریی ژینگەکەدا. لە ئابووری و تیۆری یاری، فێربوونی بەهێزکردنەوە دەتوانرێت بەکاربهێنرێت بۆ ڕوونکردنەوەی ئەوەی چۆن هاوسەنگی لەوانەیە لەژێر 'ڕەفتاری چوارچێوەدار'دا سەرهەڵبدات.

فێربوونی بەهێزکردنی بنەڕەتی وەک پرۆسەی بڕیاردانی مارکۆڤ (MDP) مۆدێل دەکرێت:

کۆمەڵێک دۆخی ژینگە و بریکار، S؛
کۆمەڵێک کردار، A، لەلایەن بریکار؛
ئەگەری گواستنەوە (لە کاتی $t$ ) لە دۆخێکەوە بۆ دۆخێکی تر لەژێر کرداردا. $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ $t$ $s$ $s'$ $a$
$R_{a}(s,s')$ دەکاتە خەڵاتێکی ڕاستەوخۆی دوای گواستنەوە لە $s$ ەوە بۆ $s'$ بە کرداری $a$ .

پێڕست

سەرچاوەکان

^ Kaelbling، Leslie P. (1996). «Reinforcement Learning: A Survey». Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. لە ڕەسەنەکە لە ٢٠ی تشرینی دووەمی ٢٠٠١ ئەرشیڤ کراوە. لە ١٣ی کانوونی یەکەمی ٢٠٢٢ ھێنراوە. {{cite journal}}: زیاتر لە یەک دانە لە |ناونیشانی ئەرشیڤ= و |archive-url= دیاری کراوە (یارمەتی)
^ van Otterlo, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. Vol. 12. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6. {{cite book}}: |work= چاوپۆشیی لێ کرا (یارمەتی)

دەروازەی زانستی کۆمپیوتەر

[kaelbling-1] Kaelbling، Leslie P. (1996). «Reinforcement Learning: A Survey». Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. لە ڕەسەنەکە لە ٢٠ی تشرینی دووەمی ٢٠٠١ ئەرشیڤ کراوە. لە ١٣ی کانوونی یەکەمی ٢٠٢٢ ھێنراوە. {{cite journal}}: زیاتر لە یەک دانە لە |ناونیشانی ئەرشیڤ= و |archive-url= دیاری کراوە (یارمەتی)

[2] van Otterlo, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. Vol. 12. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6. {{cite book}}: |work= چاوپۆشیی لێ کرا (یارمەتی)

[١]

[٢]