推广 热搜: 企业    行业  page  可以  选择  搜索引擎  百度  怎么  服务 

RL 局限与反思 & 细菌编程

   日期:2025-07-25     移动:http://mob.kub2b.com/quote/369.html

Andrej Karpathy 最近两个帖子挺有趣,我把它们整理在一起,并做了些补充。

图片

目前,扩展强化学习(RL)规模成为研究热点。从当前趋势来看,RL 很可能会继续带来一系列中间层级的性能突破;但我们也有理由相信,它并不是通向通用智能的终极解法。

从原理上看,RL 的核心机制其实相当朴素:某个策略恰好带来了好的(或坏的)结果,那就略微提升(或削弱)该策略中各个动作未来被采样的概率。这种“事后加权”的方式虽然在形式上接近生物启发,但信息利用效率极低:一段长达数分钟甚至数小时的交互过程,最后仅产生一个标量奖励值,然后我们就基于这个值来微调整个策略梯度。这样的方式,随着任务时长与复杂度的上升,显得愈发不对称与低效。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行