Seekiy

AI最新资讯

威斯康星大学麦迪逊分校突破AI能力天花板:重新定义大模型训练的记忆系统

在人工智能的演进历程中,强化学习(Reinforcement Learning, RL)已成为大型语言模型(LLM)后训练与对齐的标准范式。/arxiv.org/pdf/2603.19987)。然而,一个令人困惑的现象正逐渐显现:尽管RL在复杂推理、数学问题求解和智能体行为方面取得了突破性进展,但它似乎陷入了一个令人沮丧的“能力天花板”——模型的表现更像是对预训练阶段已存在模式的精炼,而非真正拓展其能力边界。

来源:https://www.techwalker.com/2026/0324/3182086.shtml