李飞飞团队尝试将模型成本“打下来”的背后,开源、数据和技术的突破都是关键环节。
近日,有消息称,华裔科学家、“AI教母”李飞飞的团队研究人员以不到50美元的费用训练了一个能力比肩DeepSeek-R1的s1模型。记者从相关人士处了解到,这个s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。
李飞飞团队发表的公开论文显示,基于 Qwen2.5-32B-Instruct 语言模型进行监督微调后的 s1-32B 模型,在竞赛数学问题上的表现超过了 o1-preview,最高提升了 27%(MATH 和 AIME24), 取得了与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果。这个过程中,李飞飞团队主要使用了一个包含 1000 个问题及其推理轨迹的小型数据集 s1K并开发了预算强制(budget forcing)技术延长模型思考,以超低成本构建了一个高质量模型。
如何用最简单的方法实现模型测试时扩展(即允许人工智能模型在回答问题之前进行更多思考)和强大推理性能?李飞飞团队尝试将模型成本“打下来”的背后,开源、数据和技术的突破都是关键环节。
如何实现?
从技术的角度来看,李飞飞团队证明的是数据样本的高质量以及简单的测试时间扩展可能带来的模型训练效率大幅提升。
根据公开论文,研究团队首先构建了一个由 1000 个经过精心筛选的问题组成的 S1K 数据集,这些问题配有从 Gemini Thinking Experimental提炼出的推理过程和答案。基于这个数据集,对Qwen2.5-32B-Instruct 语言模型进行监督微调,李飞飞团队仅在 16 个 H100 GPU 上花 26 分钟完成了模型训练。
事实上,这仅包含1000个问题的数据集远低于行业通常的大模型训练数据量,李飞飞团队印证的是高质量、高难度和多样性数据所带来的强大“张力”。研究人员首先遵循质量、难度和多样性三个原则从16个不同的来源收集来59029个问题,包括现有的数学问题数据集、以及研究人员自己创建的概率问题集、脑筋急转弯问题集,再进行样本检查、筛选掉格式不佳的数据集,选择推理链路长的问题,才最终创建了这个包含50个不同领域的小数据集。
2024年,李飞飞曾在接受媒体采访时反驳“人工智能模型正在耗尽用于训练的数据”这一观点,她认为当前AI训练数据并不存在短缺的问题,仍有大量的差异化的数据等待挖掘。她强调的是,高质量数据正变得前所未有的重要,创建高质量的数据集是人工智能研究的核心。
另一方面,李飞飞团队还在S1模型的训练中开发了一项 “预算强制” 技术来控制模型在测试时所花费的计算量,来影响模型的推理深度和最终答案。
简单来说,这个“预算强制”分为两种情况:若模型生成的推理token超过设定的上限,则强制结束推理过程,并附加思维结束(end-of-thinking)token,促使模型进入答案生成阶段。若希望模型在问题上投入更多测试时计算资源,则抑制思维结束token的生成,并在推理轨迹中追加 「Wait」,鼓励模型进行更深入的推理探索。研究团队表示,他们验证了这种方法还可以使模型重新检查其答案,通常能修正错误的推理步骤,提高推理性能。
目前,s1模型及其训练数据和代码已在GitHub上开源,研究团队表示,他们希望能够激发未来关于简单推理的研究。
开源大模型的进击
随着大模型“烧钱”的降温,如何用更低的成本训练高性能模型,正在成为业内的关注重心之一。
与李飞飞团队所做的“监督微调”不同的是,此前,DeepSeek在发布DeepSeek-R1时,还通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区。DeepSeek表示,基于Qwen-32B和Llama-70B蒸馏的模型,在多项能力上实现了对标 OpenAI o1-mini 的效果。
一位业内人士对记者表示,无论是李飞飞团队提炼精华数据在Qwen上做监督微调,还是DeepSeek的蒸馏,即将DeepSeek-R1 作为教师模型,把Qwen作为学生模型,将教师模型的能力蒸馏给学生模型,都实现了新模型的高性能。这是两种不同的技术路线,但都降低了高性能模型的训练成本。
伴随着DeepSeek的火爆和s1模型基于通义千问监督微调的低成本训练,开源大模型对行业格局的影响正在加深。根据开源社区HuggingFace的数据统计,海内外开源社区中Qwen的衍生模型数量已突破9万,2024年,仅视觉理解Qwen-VL及Qwen2-VL两款模型全球下载量就突破3200万次。大模型开源生态正在迅速发展中。
在模型训练“性价比”受关注的当下,开源大模型正在给闭源大模型带来持续挑战。广发证券研究指出,随着DeepSeek全球下载量登顶,基于R1的完全开源,API服务定价远低于OpenAI,海外市场总体认为,训练和推理成本下降可能带来更快的创新、模型的普及,以及更多推理需求。同时,算力的叙事会受到一定影响,开源和闭源模型性能差距的缩小可能对基础模型开发公司(闭源)带来挑战,因为更便宜的开源选项会吞噬市场需求。
而随着更多开源大模型的发展以及模型训练技术、数据质量提升的探索,行业的更多玩家也将受到影响。广发证券同时提到,未来,大模型成本、效率的提升可能给AI应用类公司带来利好,因为这类公司正在寻求机会在LLM(大语言模型)以及新模型的基础上开发产品,因此成本效率提升会带来这些公司资本回报率的回升。此外,云厂商间的竞争也在加速关注DeepSeek等开源大模型的生态服务,抢食开源大模型算力需求。
在这场大模型技术“普惠”与技术升级的多径赛跑上,更多DeepSeek、s1般的故事正被业界期待,也将有更多快速迭代、追赶的压力给到从业者。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。聚才发仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.jucaifa.com/en/post/1212281.html