通用智能体“试金石”测评，联想拿了全球第一

你觉得AI能帮你分析附近加油站的油价变化吗？

对人类来说，这不过是看路、拍照、记数字的常规动作；但对绝大多数AI而言，却并不简单，它们不仅要理解目标、规划路线、在实景地图中“睁眼”看路牌。

这种“人类简单、AI困难”的问题，正是当前业内公认的通用AI智能体“试金石”——GAIA评测的核心。

GAIA（General AI Assistants）由Meta AI（FAIR）、Hugging Face和AutoGPT社区联合提出，是目前最具权威性、也最贴近真实任务场景的智能体评测之一。

2月6日，在这项评测中，联想研究院凭借自主研发的新一代智能体技术（Lemon），以综合最高分91.36登顶全球榜单第一，在 Level 1至 Level 3的全难度阶梯任务中分别取得96.77、89.31、87.76的领先成绩。

同台竞技的团队包括英伟达（NVIDIA）、微软（Microsoft）、中国移动、中兴等。

与传统大模型评测不同，GAIA并不关注AI掌握多少知识点，也不以单轮问答的准确率为核心指标。它评估的是AI能不能像真正的助手一样，完成真实世界里的任务。研究数据显示，人类在GAIA测试中的平均成功率超过90%，而即便是配备插件的GPT-4，成功率也仅约15%。

具体来看，GAIA中的任务通常涉及网页搜索与浏览、图像与视频理解、文档解析（Word / Excel / PDF）、编程、数学推理等多种能力组合，对智能体的多模态感知、长链条推理与执行协同提出了极高要求。

图1：Lemon 的整体算法流程图

而联想Lemon新一代智能体技术之所以能够稳定应对各种场景，关键在于以下三项核心技术优势：

深度多模态感知

真正“看懂”现实世界

模拟场景：“查查我家附近加油站的油价，并与历史油价进行对比分析。”

对智能体而言，这类任务的难点在于：不仅要“看懂文字”，还要理解街景方向、空间关系和局部细节等视觉信息，并在全景环境中准确定位路牌等目标对象。

不少Agent要么缺乏浏览器能力，直接无法执行；要么只能使用浏览器逐角度截图、逐张解析的方式处理，不仅效率低、上下文压力大，识别精确度也不稳定。

Lemon采用的则是更接近人类的感知方式：

图2：从实景地图定位到精准提取油价信息的完整视觉处理链路

这种“规划—看见—理解—分析”的完整闭环能力，使其能够稳定应对真实世界中对视觉理解要求极高的任务。

深度多模态长链条多步推理

执行流程再多也不跑偏感知

模拟场景：“结合我文件夹下的所有资料，补充公开信息，给我一份2026年PC市场的分析报告。”

如果说多模态感知是智能体的“眼睛”，那么长链条推理与上下文管理就是它的“大脑”。

在复杂的资料分析场景中，通常涉及长文档解析、网络多轮检索、筛选可信来源、交叉验证与综合写作等数十个执行步骤。对智能体最大的挑战就在于如何在长流程中保持主线不偏移，并且避免上下文污染导致推理能力衰减。

大多Agent在面对这类任务时，容易陷入无效搜索或长文本处理中，随着上下文不断膨胀，推理质量和效率同步下降，越来越跑偏。

联想Lemon采用Orchestrator–Workers架构，由Orchestrator进行全局规划，将任务动态拆解并分发给不同Worker并行执行，并在结果层进行汇总与校验。同时，通过分级、渐进式的上下文压缩机制，动态控制上下文长度，确保关键信息始终处于推理核心。

Lemon能够先规划、再并行、后校验地完成整件事：

图3：Lemon通过并行搜索与深度网页抓取，结合本地私有数据生成专业报告

自进化记忆

不让重复任务从0开始

模拟场景：“视频12分钟左右开始的那段旋律是什么音乐？”

对人来说，这类问题往往依赖经验：知道该先截音频、再找旋律特征、最后识别歌曲。但对很多Agent 而言，每一次任务都是“第一次”，必须从头推理，之前的探索几乎无法复用。

Lemon引入的自进化记忆机制使它可以从历史任务的完整执行链中，自动沉淀可复用的关键信息——包括用过哪些工具、哪些步骤有效、哪些路径行不通。无论任务最终成功还是失败，都会被保留下来，成为下一次的经验。

在这个场景中，Lemon并不需要重新试错，而是可以直接从历史记忆中学习行动路径：

图4：Lemon通过分析音频转换点并自动截取片段，实现了高精度的多模态任务执行

这种“经验迁移”能力，使智能体在记忆方面可以持续自进化。

具有行业意义的是，Lemon采用了联想自主研发的 AgentCortex 框架，其核心能力被拆分为意图理解、任务分解与规划、工具执行、知识检索、记忆读写与任务总结等模块，并通过统一接口协同运行。

这意味着，Lemon在测试中被验证过的能力能够快速稳定地迁移到真实产品中。

目前，联想已经推出三大超级智能体，包括面向个人用户的天禧 AI、联想Qira，以及正用于自身实践的业内首个企业超级智能体——联想乐享。联想研究院这些在GAIA等高难度环境中反复验证的新一代智能体技术，未来将应用于这些超级智能体中，使其AI能力更加强大。

面向未来，联想研究院也正在积极布局真实世界中的智能任务自动化、跨系统协同调度与多模态文档理解等关键技术，推动智能体具备更加广泛的自主进化能力，让“能办事的智能体”成为日常工作与生活中的默契队友。

以上展示的所有应用场景及执行细节，均可以通过即将完整开源的代码来实现，欲了解更多技术细节，可点击“阅读原文”，访问我们的Github仓库。

免费教学更多>>