کاربرد الگوریتم Proximal Policy Optimization برای آموزش مدل های زبانی بزرگ

تعداد بازدید : 25 | تاریخ انتشار : 06 اردیبهشت 1403 23:13 | مدت زمان : 00:11:53 | دسته بندی : فناوری و رایانه

در این ویدئو با زبانی ساده الگوریتم PPO و کاربرد آن در آموزش مدل های زبانی بزرگ توضیح داده شده است.