国产大模型,密集放大招。
2月12日,字节跳动豆包大模型团队发布消息称,团队提出了全新的稀疏模型架构UltraMem,可有效解决MoE(Mixtureof Experts,混合专家模型)推理时高额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。
除了字节豆包以外,阿里和智谱AI也传来新动态。据TheInformation援引知情人士消息称,苹果和阿里将合作为中国iPhone用户开发AI功能。受该消息影响,阿里美股直线拉升,一度涨超3%。另外,三星则宣布智谱的AgenticGLM成为其新手机GalaxyS25的AI能力来源。业内分析称,苹果牵手阿里,三星与智谱合作,AI手机在中国市场的端侧AI大战,将在2025年进入焦灼的“贴身肉搏”状态。
豆包提出新架构,大幅降低推理成本
据豆包大模型团队,在大模型主流的Transformer架构下,模型的性能与其参数数量和计算复杂度呈对数关系。随着大语言模型规模不断增大,推理成本会急剧增加,速度变慢。尽管MoE架构已经成功将计算和参数解耦,但在推理时,较小的batchsize就会激活全部专家,导致访存急剧上升,进而使推理延迟大幅增加。
为解决这一问题,字节跳动豆包大模型Foundation团队提出了全新的稀疏模型架构UltraMem,这一架构同样将计算和参数解耦,但在保证模型效果的前提下解决了推理的访存问题。
实验结果表明,在参数和激活条件相同的情况下,UltraMem在模型效果上超越了MoE,并将推理速度提升了2—6倍。在常见batchsize规模下,UltraMem的访存成本几乎与同计算量的稠密模型相当。
据了解,最近大火的国产模型团队DeepSeek,重要的一项技术基石就是MoE。其自研的DeepSeekMoE是一种创新的大规模语言模型架构,通过整合专家混合系统、改进的注意力机制和优化的归一化策略,在模型效率与计算能力之间实现了新的平衡。
随着豆包大模型团队提出新的稀疏模型架构UltraMem,大模型训练推理成本有望进一步快速下降,推动大模型的发展。
AI手机两大重磅,都与国产大模型有关
据TheInformation援引知情人士消息称,苹果和阿里将合作为中国iPhone用户开发AI功能,具体功能包括图像生成、文本优化、智能搜索等,以增强iPhone在摄影、通知管理和文本处理等场景的体验。受该消息影响,阿里美股直线拉升,一度涨超3%。
该报道还称,苹果和阿里已将双方共同开发的AI功能提交给监管机构审批,若获批,中国将成为全球首个使用苹果与本土企业合作AI功能的地区。事实上,此前屡屡有关于苹果与国产AI大模型合作的消息传出,曾有消息称百度或成为苹果的合作伙伴,还有传言称苹果曾与腾讯、字节以及智谱AI、百川等公司接触。
苹果在华销售额已连续两年下降,2024年第四季度同比下滑11%,这一举措是苹果应对中国市场销售下滑的战略之一,旨在通过更具吸引力的软件功能,与华为、vivo等本土品牌的竞争对手抗衡。
阿里是国产AI大模型的第一梯队玩家。在今年春节期间,阿里云通义千问旗舰版模型Qwen2.5-Max正式升级发布。据其介绍,Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens,展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。
Qwen2.5-Max的发布还引发了资本市场关于重估中国AI资产的讨论。业内人士分析,阿里云不仅发布了与全球顶尖模型比肩甚至更优的模型,而且具备完整的云生态,或能形成类似去年北美云计算服务商的投资逻辑。自1月中旬以来,阿里美股累计涨幅已超30%。
除了苹果+阿里的组合以外,三星+智谱的合作也引发市场关注。智谱和三星基于AgenticGLM展开合作,三星最新手机GalaxyS25系列现可支持基于AI的实时语音和视频通话,以及实现视觉理解和系统功能调用、AI搜索、文案写作等功能,智谱旗下C端产品智谱清言及清言智能体平台登陆GalaxyS25系列。
智谱有关负责人介绍称,AgenticGLM让GalaxyS25系列能够同时处理文本、语音、图像和视频等多模态的数据,并能够使用工具,具备自主行动能力。比如,GalaxyS25系列的“语聊视界”功能,能够让AI视频通话功第一次在手机上同用户智能互动。GLM-Realtime支持图片和视频输入,能够精确识别画面中的文字和细节,以及流式推理能力带来了低延时。它还拥有多轮记忆能力,能作为更聪明的语音助理,为用户提供流畅的翻译、搜索等功能。
“基于最新GalaxyAI的三星GalaxyS25系列手机是三星在全球范围内首次推出具有视频通话功能的原生AI智能硬件产品。很高兴智谱AgenticGLM丰富多样的AI功能通过系统级的无缝嵌入,能够为广大用户提供沉浸、智能、安全的AI手机体验。”智谱方面表示。
业内人士普遍认为,随着DeepSeek等国产大模型带动大模型的成本大幅下降,有望推动端侧AI加速发展,带动智能手机、智能家居设备、智能可穿戴设备等更多终端设备集成智能功能。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。聚才发仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.jucaifa.com/post/1212852.html