大型语言模型(LLM)的快速发展已成为现代人工智能的核心支柱,推动了从自然语言理解到复杂推理等一系列任务的突破性进展 。然而,该领域仍面临一个长期挑战:功能强大的闭源模型与其开源同类模型之间存在性能差距。这种差距通常源于开发者可获取的海量专有高质量训练数据和巨大的计算资源 。在需要长时间思维链和严谨问题解决能力的推理密集型任务中,这种差距尤为明显 。因此,研究界面临着一个重大瓶颈:如何在不依赖这些专属优势的情况下,有效赋能开源模型,使其达到SOTA性能。
克服这一瓶颈的关键途径是生成高质量、多样化且可扩展的指令数据,用于监督微调(SFT)和强化学习(RL)。现有方法通常依赖人工标注或从更大的教师模型中蒸馏,这些方法要么成本过高、规模受限,要么存在继承教师模型局限性的风险 。关键问题在于,标准蒸馏通常只捕捉最终答案,无法传递复杂问题解决所需的复杂 “思维过程”。
为此,OPPO AI Agent团队提出O-Researcher框架,利用Open Ended的特性,通过多智能体驱动的端到端深度研究数据合成,结合创新的两阶段训练策略,使开源模型无需依赖专有数据或模型,在主流深度研究基准上实现新的SOTA性能。该研究为开源大型语言模型的发展提供了一条可扩展且有效的路径,无需依赖专有数据或模型。
