2025年末,北京大学化学与分子工程学院的一场特殊考试引发学界震动——174名大二学生与GPT、Gemini等顶尖AI同场竞技,这场名为“SUPERChem”的评测,不仅是一次简单的成绩比拼,更成为人类智慧与人工智能在科学推理领域的一次深度对话。
虚拟场景图
硬核试题:撕开AI的“记忆伪装”
考试题库的500道题目堪称“化学推理的试金石”:晶体结构解析、反应机理推演、物化性质计算……这些题目并非来自公开题库,而是由近百名师生(含奥赛金牌得主)从高难度试题和前沿文献中深度改编而成。团队直言:“大模型太会背书,我们必须用未被训练过的题目,考验其真实推理能力。”例如,一道涉及门捷列夫预言元素的题目,需要考生从金属M与氧气、盐酸的反应链条中,推导出化合物A到G的结构与性质,这种多步骤、跨章节的逻辑链条,正是AI的“软肋”。
人类优势:直觉与跨维度思维的胜利
考试结果令人深思:人类学生平均准确率40.3%,而顶尖AI的成绩仅与低年级本科生相当。更关键的是,AI在视觉信息处理上暴露出致命短板——当题目引入分子结构图时,部分模型的准确率不升反降。这揭示了AI的困境:其“一维文本预测”模式,难以应对化学中二维、三维的空间推理需求。反观人类,考生能凭借直觉将图形信息与化学语义快速关联,这种“跨模态理解”能力,仍是AI难以企及的。
AI局限:从“记住知识”到“理解世界”的鸿沟
尽管AI在知识储备上碾压人类,但在产物结构预测、反应机理识别等高阶任务中,其推理链条常断裂于关键环节。例如,某模型虽能正确选出答案,但解题步骤中竟出现“物质A在常温下为气体”的荒谬结论——这种“装懂”式回答,暴露了AI缺乏物理世界常识的缺陷。正如团队所言:“AI的进化,需要从‘记住知识’跨越到‘理解世界’。”
未来启示:人机协同的新范式
SUPERChem的开源,为全球AI研究提供了宝贵基准。它提醒我们:AI不会取代科学家,但会重塑科研范式。正如上海人工智能实验室用AI在奥数竞赛中斩获金牌,未来,AI或许能成为科学家的“思维外脑”——在海量文献筛选、初步假设验证等环节释放人力,让人类更专注于提出创造性问题。而这场考试的最大价值,或许在于让我们看清:在探索真理的道路上,人类与AI,终将是并肩前行的伙伴。