首页 > 科技生活 > 免费教学 > 通用智能体“试金石”测评,联想拿了全球第一

通用智能体“试金石”测评,联想拿了全球第一

发布时间:2026-02-06 17:46:27来源: 18736031234

你觉得AI能帮你分析附近加油站的油价变化吗?

 

对人类来说,这不过是看路、拍照、记数字的常规动作;但对绝大多数AI而言,却并不简单,它们不仅要理解目标、规划路线、在实景地图中“睁眼”看路牌。

这种“人类简单、AI困难”的问题,正是当前业内公认的通用AI智能体“试金石”——GAIA评测的核心。

GAIA(General AI Assistants)由Meta AI(FAIR)、Hugging Face和AutoGPT社区联合提出,是目前最具权威性、也最贴近真实任务场景的智能体评测之一。

 

2月6日,在这项评测中,联想研究院凭借自主研发的新一代智能体技术(Lemon),以综合最高分91.36登顶全球榜单第一,在 Level 1至 Level 3的全难度阶梯任务中分别取得96.77、89.31、87.76的领先成绩。

同台竞技的团队包括英伟达(NVIDIA)、微软 (Microsoft)、中国移动、中兴等。

与传统大模型评测不同,GAIA并不关注AI掌握多少知识点,也不以单轮问答的准确率为核心指标。它评估的是AI能不能像真正的助手一样,完成真实世界里的任务。研究数据显示,人类在GAIA测试中的平均成功率超过90%,而即便是配备插件的GPT-4,成功率也仅约15%。

具体来看,GAIA中的任务通常涉及网页搜索与浏览、图像与视频理解、文档解析(Word / Excel / PDF)、编程、数学推理等多种能力组合,对智能体的多模态感知、长链条推理与执行协同提出了极高要求。

图1:Lemon 的整体算法流程图

而联想Lemon新一代智能体技术之所以能够稳定应对各种场景,关键在于以下三项核心技术优势:

深度多模态感知

真正“看懂”现实世界

模拟场景:“查查我家附近加油站的油价,并与历史油价进行对比分析。”

对智能体而言,这类任务的难点在于:不仅要“看懂文字”,还要理解街景方向、空间关系和局部细节等视觉信息,并在全景环境中准确定位路牌等目标对象。

不少Agent要么缺乏浏览器能力,直接无法执行;要么只能使用浏览器逐角度截图、逐张解析的方式处理,不仅效率低、上下文压力大,识别精确度也不稳定。

Lemon采用的则是更接近人类的感知方式:

  • 在街景地图中精准定位目标加油站,并主动“移动”视角,在全景图中寻找可能出现油价信息的区域;
  • 通过高精度多模态感知工具,对油价公告牌进行自动识别与区域裁切;
  • 并行调取历史油价数据,并完成统计与趋势分析,最终生成分析报告。

图2:从实景地图定位到精准提取油价信息的完整视觉处理链路

这种“规划—看见—理解—分析”的完整闭环能力,使其能够稳定应对真实世界中对视觉理解要求极高的任务。

深度多模态长链条多步推理

执行流程再多也不跑偏感知

模拟场景:“结合我文件夹下的所有资料,补充公开信息,给我一份2026年PC市场的分析报告。”

如果说多模态感知是智能体的“眼睛”,那么长链条推理与上下文管理就是它的“大脑”。

在复杂的资料分析场景中,通常涉及长文档解析、网络多轮检索、筛选可信来源、交叉验证与综合写作等数十个执行步骤。对智能体最大的挑战就在于如何在长流程中保持主线不偏移,并且避免上下文污染导致推理能力衰减。

大多Agent在面对这类任务时,容易陷入无效搜索或长文本处理中,随着上下文不断膨胀,推理质量和效率同步下降,越来越跑偏。

联想Lemon采用Orchestrator–Workers架构,由Orchestrator进行全局规划,将任务动态拆解并分发给不同Worker并行执行,并在结果层进行汇总与校验。同时,通过分级、渐进式的上下文压缩机制,动态控制上下文长度,确保关键信息始终处于推理核心。

Lemon能够先规划、再并行、后校验地完成整件事:

  • 并行执行本地资料分析与在线信息检索;
  • 动态过滤冗余信息,避免上下文干扰;
  • 对来自不同来源的信息进行交叉验证,最终生成稳定可靠的分析结论。

图3:Lemon通过并行搜索与深度网页抓取,结合本地私有数据生成专业报告

自进化记忆

不让重复任务从0开始

模拟场景:“视频12分钟左右开始的那段旋律是什么音乐?”

对人来说,这类问题往往依赖经验:知道该先截音频、再找旋律特征、最后识别歌曲。但对很多Agent 而言,每一次任务都是“第一次”,必须从头推理,之前的探索几乎无法复用。

Lemon引入的自进化记忆机制使它可以从历史任务的完整执行链中,自动沉淀可复用的关键信息——包括用过哪些工具、哪些步骤有效、哪些路径行不通。无论任务最终成功还是失败,都会被保留下来,成为下一次的经验。

在这个场景中,Lemon并不需要重新试错,而是可以直接从历史记忆中学习行动路径:

  • 使用FFmpeg抽取视频中的音频片段;
  • 通过频谱分析(Spectral Flux)快速定位旋律出现的时间区间;
  • 再调用音乐指纹识别工具完成曲目匹配。

图4:Lemon通过分析音频转换点并自动截取片段,实现了高精度的多模态任务执行

这种“经验迁移”能力,使智能体在记忆方面可以持续自进化。

具有行业意义的是,Lemon采用了联想自主研发的 AgentCortex 框架,其核心能力被拆分为意图理解、任务分解与规划、工具执行、知识检索、记忆读写与任务总结等模块,并通过统一接口协同运行。

这意味着,Lemon在测试中被验证过的能力能够快速稳定地迁移到真实产品中。

目前,联想已经推出三大超级智能体,包括面向个人用户的天禧 AI、联想Qira,以及正用于自身实践的业内首个企业超级智能体——联想乐享。联想研究院这些在GAIA等高难度环境中反复验证的新一代智能体技术,未来将应用于这些超级智能体中,使其AI能力更加强大。

面向未来,联想研究院也正在积极布局真实世界中的智能任务自动化、跨系统协同调度与多模态文档理解等关键技术,推动智能体具备更加广泛的自主进化能力,让“能办事的智能体”成为日常工作与生活中的默契队友。

以上展示的所有应用场景及执行细节,均可以通过即将完整开源的代码来实现,欲了解更多技术细节,可点击“阅读原文”,访问我们的Github仓库。

免费教学更多>>

原来有人兜底的感觉真好,以后用天神之眼在城区也能放心 蔚来5月交付37,705台,同比增长62.3% 情侣买车预算卡死8到9万,要省心好开还要够智能,建议看看这几款 领克10系列如何让“快”不再是电车的唯一谈资? 深港澳大湾区车展“不弯”,合资车企的\"诺曼底时刻” 广汽智造×华为乾崑联合 启境首款SUV定名GX7 奥迪E7X上市:26.98万起重塑豪华纯电新体验 不止于快!领克10&10+登场,重构中大型纯电驾控新标准 北汽极狐X卓驭丨极狐问道V9上市,卓驭首款MPV正式登场 东风奕派M8亮相大湾区车展:满配华为六件套,家庭出行黄金标准 真七座+强智能+低油耗,2026款传祺M6 MAX 把家用 MPV 卷到新高度 沃尔沃EX90与ES90上市,纯电旗舰的“安全”底色与驾控诚意 12.99万起,还有智驾兜底,这是2026年最值得购买的B级插混SUV? 周末高速巡航,911和GranTurismo的3.9秒加速,差别在哪? 直降1.8万!吉利新车上市,标配AT胎+L2智驾,仅7.59万起能掀桌? 从外观、影像到交互:nova 16如何打动年轻人? 全新奥迪E7X上市,26.98万起,中大型纯电SUV,续航超751km Luce究竟是苹果的,还是法拉利的? 宋Ultra EV爆款之后,宋Ultra DM-i又要大红大紫的五大王炸 昨晚比亚迪开了发布会,有人都打瞌睡了,但友商连PPT都没法改了 既没有Pro也没有Promini,但vivoS60也搞元气版,价格2899起! 试驾2026款海狮05 DM-i,全能家用SUV的新标杆! Oura Ring 5智能戒指发布:机身更纤薄,新增血压追踪! 定了!创想三维明日上市,12周年新品齐发 南北大众罕见同台互赠T恤,不是作秀,是给混动用户一颗定心丸 启境这次不玩虚的,GX7命名公布:从“自己爽”到“全家嗨” 别克至境L7纯电版官方谍照,续航超700km,或20万左右 全场景MPV的新选择,新款红旗HQ9 PHEV体验全解读 9000mAh巨无霸!vivo新机5月27日开售,续航太离谱了 定档5月29日!vivo S60系列全面曝光,超大电池直接封神