AI最新资讯

阿里千问推出DeepPlanning基准测试，顶尖AI模型仍有短板

2026年2月10日

阿里千问于2026年1月30日发布新一代Agent基准测试——DeepPlanning，旨在评估AI在复杂现实世界中的规划能力。与传统推理任务不同，DeepPlanning要求AI进行全局考虑，精准到分钟级排期，在时间和预算限制下完成任务。测试涵盖多日旅行规划和复杂购物场景等现实应用。

实测显示，即便是GPT-5.2、Claude4.5、Gemini及Qwen3等顶尖AI模型，在全局优化和长周期一致性上仍存在明显短板，距离真正实现自主决策能力的”行动派”AI尚有差距。阿里千问已在HuggingFace和ModelScope平台开源该基准测试，促进AI研究合作与技术迭代。

更多文章