Andrej Karpathy 最近两个帖子挺有趣,我把它们整理在一起,并做了些补充。
目前,扩展强化学习(RL)规模成为研究热点。从当前趋势来看,RL 很可能会继续带来一系列中间层级的性能突破;但我们也有理由相信,它并不是通向通用智能的终极解法。
从原理上看,RL 的核心机制其实相当朴素:某个策略恰好带来了好的(或坏的)结果,那就略微提升(或削弱)该策略中各个动作未来被采样的概率。这种“事后加权”的方式虽然在形式上接近生物启发,但信息利用效率极低:一段长达数分钟甚至数小时的交互过程,最后仅产生一个标量奖励值,然后我们就基于这个值来微调整个策略梯度。这样的方式,随着任务时长与复杂度的上升,显得愈发不对称与低效。
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。
0 条相关评论