你觉得AI能帮你分析附近加油站的油价变化吗?
对人类来说,这不过是看路、拍照、记数字的常规动作;但对绝大多数AI而言,却并不简单,它们不仅要理解目标、规划路线、在实景地图中“睁眼”看路牌。
这种“人类简单、AI困难”的问题,正是当前业内公认的通用AI智能体“试金石”——GAIA评测的核心。
GAIA(General AI Assistants)由Meta AI(FAIR)、Hugging Face和AutoGPT社区联合提出,是目前最具权威性、也最贴近真实任务场景的智能体评测之一。
2月6日,在这项评测中,联想研究院凭借自主研发的新一代智能体技术(Lemon),以综合最高分91.36登顶全球榜单第一,在 Level 1至 Level 3的全难度阶梯任务中分别取得96.77、89.31、87.76的领先成绩。
同台竞技的团队包括英伟达(NVIDIA)、微软 (Microsoft)、中国移动、中兴等。
与传统大模型评测不同,GAIA并不关注AI掌握多少知识点,也不以单轮问答的准确率为核心指标。它评估的是AI能不能像真正的助手一样,完成真实世界里的任务。研究数据显示,人类在GAIA测试中的平均成功率超过90%,而即便是配备插件的GPT-4,成功率也仅约15%。
具体来看,GAIA中的任务通常涉及网页搜索与浏览、图像与视频理解、文档解析(Word / Excel / PDF)、编程、数学推理等多种能力组合,对智能体的多模态感知、长链条推理与执行协同提出了极高要求。
图1:Lemon 的整体算法流程图
而联想Lemon新一代智能体技术之所以能够稳定应对各种场景,关键在于以下三项核心技术优势:
深度多模态感知
真正“看懂”现实世界
模拟场景:“查查我家附近加油站的油价,并与历史油价进行对比分析。”
对智能体而言,这类任务的难点在于:不仅要“看懂文字”,还要理解街景方向、空间关系和局部细节等视觉信息,并在全景环境中准确定位路牌等目标对象。
不少Agent要么缺乏浏览器能力,直接无法执行;要么只能使用浏览器逐角度截图、逐张解析的方式处理,不仅效率低、上下文压力大,识别精确度也不稳定。
Lemon采用的则是更接近人类的感知方式:
- 在街景地图中精准定位目标加油站,并主动“移动”视角,在全景图中寻找可能出现油价信息的区域;
- 通过高精度多模态感知工具,对油价公告牌进行自动识别与区域裁切;
- 并行调取历史油价数据,并完成统计与趋势分析,最终生成分析报告。
图2:从实景地图定位到精准提取油价信息的完整视觉处理链路
这种“规划—看见—理解—分析”的完整闭环能力,使其能够稳定应对真实世界中对视觉理解要求极高的任务。
深度多模态长链条多步推理
执行流程再多也不跑偏感知
模拟场景:“结合我文件夹下的所有资料,补充公开信息,给我一份2026年PC市场的分析报告。”
如果说多模态感知是智能体的“眼睛”,那么长链条推理与上下文管理就是它的“大脑”。
在复杂的资料分析场景中,通常涉及长文档解析、网络多轮检索、筛选可信来源、交叉验证与综合写作等数十个执行步骤。对智能体最大的挑战就在于如何在长流程中保持主线不偏移,并且避免上下文污染导致推理能力衰减。
大多Agent在面对这类任务时,容易陷入无效搜索或长文本处理中,随着上下文不断膨胀,推理质量和效率同步下降,越来越跑偏。
联想Lemon采用Orchestrator–Workers架构,由Orchestrator进行全局规划,将任务动态拆解并分发给不同Worker并行执行,并在结果层进行汇总与校验。同时,通过分级、渐进式的上下文压缩机制,动态控制上下文长度,确保关键信息始终处于推理核心。
Lemon能够先规划、再并行、后校验地完成整件事:
- 并行执行本地资料分析与在线信息检索;
- 动态过滤冗余信息,避免上下文干扰;
- 对来自不同来源的信息进行交叉验证,最终生成稳定可靠的分析结论。
图3:Lemon通过并行搜索与深度网页抓取,结合本地私有数据生成专业报告
自进化记忆
不让重复任务从0开始
模拟场景:“视频12分钟左右开始的那段旋律是什么音乐?”
对人来说,这类问题往往依赖经验:知道该先截音频、再找旋律特征、最后识别歌曲。但对很多Agent 而言,每一次任务都是“第一次”,必须从头推理,之前的探索几乎无法复用。
Lemon引入的自进化记忆机制使它可以从历史任务的完整执行链中,自动沉淀可复用的关键信息——包括用过哪些工具、哪些步骤有效、哪些路径行不通。无论任务最终成功还是失败,都会被保留下来,成为下一次的经验。
在这个场景中,Lemon并不需要重新试错,而是可以直接从历史记忆中学习行动路径:
- 使用FFmpeg抽取视频中的音频片段;
- 通过频谱分析(Spectral Flux)快速定位旋律出现的时间区间;
- 再调用音乐指纹识别工具完成曲目匹配。
图4:Lemon通过分析音频转换点并自动截取片段,实现了高精度的多模态任务执行
这种“经验迁移”能力,使智能体在记忆方面可以持续自进化。
具有行业意义的是,Lemon采用了联想自主研发的 AgentCortex 框架,其核心能力被拆分为意图理解、任务分解与规划、工具执行、知识检索、记忆读写与任务总结等模块,并通过统一接口协同运行。
这意味着,Lemon在测试中被验证过的能力能够快速稳定地迁移到真实产品中。
目前,联想已经推出三大超级智能体,包括面向个人用户的天禧 AI、联想Qira,以及正用于自身实践的业内首个企业超级智能体——联想乐享。联想研究院这些在GAIA等高难度环境中反复验证的新一代智能体技术,未来将应用于这些超级智能体中,使其AI能力更加强大。
面向未来,联想研究院也正在积极布局真实世界中的智能任务自动化、跨系统协同调度与多模态文档理解等关键技术,推动智能体具备更加广泛的自主进化能力,让“能办事的智能体”成为日常工作与生活中的默契队友。
以上展示的所有应用场景及执行细节,均可以通过即将完整开源的代码来实现,欲了解更多技术细节,可点击“阅读原文”,访问我们的Github仓库。