174名北大学生迎特殊考试：对决AI

2025年末，北京大学化学与分子工程学院的一场特殊考试引发学界震动——174名大二学生与GPT、Gemini等顶尖AI同场竞技，这场名为“SUPERChem”的评测，不仅是一次简单的成绩比拼，更成为人类智慧与人工智能在科学推理领域的一次深度对话。

虚拟场景图

硬核试题：撕开AI的“记忆伪装”

考试题库的500道题目堪称“化学推理的试金石”：晶体结构解析、反应机理推演、物化性质计算……这些题目并非来自公开题库，而是由近百名师生（含奥赛金牌得主）从高难度试题和前沿文献中深度改编而成。团队直言：“大模型太会背书，我们必须用未被训练过的题目，考验其真实推理能力。”例如，一道涉及门捷列夫预言元素的题目，需要考生从金属M与氧气、盐酸的反应链条中，推导出化合物A到G的结构与性质，这种多步骤、跨章节的逻辑链条，正是AI的“软肋”。

人类优势：直觉与跨维度思维的胜利

考试结果令人深思：人类学生平均准确率40.3%，而顶尖AI的成绩仅与低年级本科生相当。更关键的是，AI在视觉信息处理上暴露出致命短板——当题目引入分子结构图时，部分模型的准确率不升反降。这揭示了AI的困境：其“一维文本预测”模式，难以应对化学中二维、三维的空间推理需求。反观人类，考生能凭借直觉将图形信息与化学语义快速关联，这种“跨模态理解”能力，仍是AI难以企及的。

AI局限：从“记住知识”到“理解世界”的鸿沟

尽管AI在知识储备上碾压人类，但在产物结构预测、反应机理识别等高阶任务中，其推理链条常断裂于关键环节。例如，某模型虽能正确选出答案，但解题步骤中竟出现“物质A在常温下为气体”的荒谬结论——这种“装懂”式回答，暴露了AI缺乏物理世界常识的缺陷。正如团队所言：“AI的进化，需要从‘记住知识’跨越到‘理解世界’。”

未来启示：人机协同的新范式

SUPERChem的开源，为全球AI研究提供了宝贵基准。它提醒我们：AI不会取代科学家，但会重塑科研范式。正如上海人工智能实验室用AI在奥数竞赛中斩获金牌，未来，AI或许能成为科学家的“思维外脑”——在海量文献筛选、初步假设验证等环节释放人力，让人类更专注于提出创造性问题。而这场考试的最大价值，或许在于让我们看清：在探索真理的道路上，人类与AI，终将是并肩前行的伙伴。

174名北大学生迎特殊考试：对决AI

干货知识更多>>