2025-07-15 11:36:00
强化学习,或许并不能通往AGI终点。Karpathy最新发文提出另一种Scaling范式,像人类一样反思回顾,通过复盘学习取得突破,更多的S形进步曲线等待发现。Grok 4能站在大模型之巅,全是Scaling强化学习立了大功。如今,AI大神Karpathy站出来急泼一盆冷水:RL只是把最终成败的单