Seekiy

AI最新资讯

阿里千问推出DeepPlanning基准测试,顶尖AI模型仍有短板

阿里千问于2026年1月30日发布新一代Agent基准测试——DeepPlanning,旨在评估AI在复杂现实世界中的规划能力。与传统推理任务不同,DeepPlanning要求AI进行全局考虑,精准到分钟级排期,在时间和预算限制下完成任务。测试涵盖多日旅行规划和复杂购物场景等现实应用。

实测显示,即便是GPT-5.2、Claude4.5、Gemini及Qwen3等顶尖AI模型,在全局优化和长周期一致性上仍存在明显短板,距离真正实现自主决策能力的”行动派”AI尚有差距。阿里千问已在HuggingFace和ModelScope平台开源该基准测试,促进AI研究合作与技术迭代。