华为昇腾助力书生科学多模态大模型Intern-S2-Preview发布

烽融爱财阅读：34315 2026-05-19

近日，上海人工智能实验室（上海AI实验室）开源新一代书生科学多模态大模型预览版Intern-S2-Preview，以35B的参数规模在多个核心领域实现比肩万亿参数模型的能力，在综合科学场景编程任务中达到同量级领先水平，在科学发现任务中超越Claude-Haiku-4.5、GPT5.4-Nano等主流闭源模型，进一步拓展了“可深度专业化通用模型”的能力边界。昇腾Atlas 900 A3超节点为Intern-S2-Preview提供了算力支持，基于昇腾AI生态，双方团队在训练、推理与评测等关键环节实现了全流程协同优化。

算法—系统—算力协同演进

提升训推效率

Intern-S2-Preview模型能力释放的背后，是算法、训推系统与算力底座的协同演进。基于昇腾AI生态，双方团队围绕模型训练、推理、RL等核心场景，在训练框架、推理引擎以及多模态长序列训练等关键方向上实现了深入的系统级优化。

在训练框架方面：

支持SP、chunk loss、activation offload、swap optimizer、虚拟内存管理等众多显存优化特性，使能多模态长序列模型训练的稳定运行。

重点围绕TND变长输入下的GDN进行了持续打磨。

通过将chunk indices前置计算，减少host和device的同步开销。

与常见的GPU上的GDN chunk size 64不同，本次在NPU上使能了chunk size 128。对于昇腾架构，更大的chunk size（例如128）能提高矩阵单元（Cube）的FLOP利用率，从而加速GDN内的多数计算步骤。

针对GDN中的关键算子，进一步引入Ascend C高性能实现，在不同序列长度下自适应选择tiling策略，并结合算子流水和算子间Transpose消除等手段联合优化，持续降低数据搬运与格式转换开销，提升长序列训练中的有效计算占比，更充分释放A3超节点的算力潜力。

在推理部署环节：

针对Intern-S2-Preview的模型结构和A3超节点的硬件特点，对ViT和LLM部分进行差异化切分部署，结合cube效率和显存需求联合优化prefill的chunk size，替换GMM和后处理算子亲和写法，最终有效支持了超长序列的rollout效率。

在强化学习方面：

RL在A3超节点上同步支持了token in token out、router replay和partial rollout异步训练等关键特性。在解决rollout长尾阻塞问题的同时，维持了高精度的训推一致性和RL训练稳定性。

Intern-S2-Preview也延续了Intern-S1-Pro在“算法—算力”一体化方向上的持续探索，基于XTuner训练框架与LMDeploy推理引擎，双方研发团队围绕训练与推理一体化进行了联合开发。在支持MTP RL训练的基础上，引入共享MTP权重计算方式，不仅有效缓解了训练与推理阶段不一致的问题，还显著提升了draft token的接受率，从而进一步提升模型训练稳定性与推理效率。在多模态长序列训练场景，针对35B模型视觉模块耗时占比过大的问题，团队进一步提出联合视觉模块与语言模块近似FLOPs算力的Packing策略，通过离线模拟不同序列长度下视觉与语言模块的算力占比，实现更合理的负载均衡，显著缓解了负载不均衡导致的tgs下降问题，从而提升了多模态长序列场景下的整体训练效率。

通过算法、系统策略与算力基础设施的协同演进，Intern-S2-Preview在保持高智能密度的同时，实现了训练效率、推理性能与部署成本之间的更优平衡，也进一步验证了“通专融合”路线在小参数、高智能方向上的潜力。

以任务Scaling激发模型潜力

以强化学习加速“通专融合”

将万亿参数规模的科学多模态大模型浓缩为高效、易用的基座模型，是一项极具挑战的工作。其实现路径的核心思路，来自上海AI实验室对“通专融合”技术路线的持续探索。研究团队发现，模型能力进化并非仅依赖传统的参数扩容与数据增量外，通过提升任务难度、丰富任务多样性，亦可持续拉升模型能力上限，具备Scaling效应。

相较于Intern-S1-Pro，Intern-S2-Preview进一步将专业科学任务扩展为“全链路训练”范式：每一个专业科学任务均配备从预训练到后训练的高质量数据与训练策略，并依托稳定高效的训练基础设施，实现多任务融合训练。在这一过程中，当大量高难度、多样化任务进行统一融合训练时，小模型能够在多项科学任务上达到万亿参数模型的表现水平。这其中的关键在于全链路的“通专融合”机制：若仅优化单一训练阶段，往往会出现能力之间的“此消彼长”；而在全链路融合后，不同任务之间反而形成相互促进的协同效应，从而进一步释放模型在复杂科学任务中的整体潜力。

强化学习是实现“通专融合”的核心动力之一，Intern-S2-Preview重点通过拓展强化学习的规模开展多方面探索：

引导模型利用思维链来完成生物多组学理解等专业科学任务，利用思维链的泛化性，实现以35B小参数模型比肩万亿参数模型的性能；

延长强化学习的训练步长，结合更加高难度（如研究生级别）的学科推理问题和专业科学任务，使得小模型能够在各类问题上得到充分训练，最终融会贯通，具备跨域推理能力；

基于数据思维密度（IQPT，Intelligence Quality per token）理念，探索思维链折叠等创新算法，通过构建数据思维密度杠杆，撬动模型性能提升。其中，在数学推理任务中，Intern-S2-Preview以相同的单位智能，性能比肩最新8倍参数量模型（35B对比284B），实现性能与效率的双重突破。

科学能力持续升级

结构理解与生成性能超越主流闭源模型

Intern-S2-Preview以赋能科学发现为核心目标，聚焦更复杂的科学场景开展探索。以小分子结构空间建模能力为例，其作为模型精准认知分子、晶体等微观结构的核心支撑，既决定了结构理解与生成的精度上限，也是适配复杂科研场景的重要前提。科研团队在此前引入傅里叶位置编码（FoPE）、重构时序编码器等创新的基础上，进一步强化该能力，并引入实数预测模块，首次在开源通用大模型中实现了材料晶体结构生成能力。

为精准验证这一能力，团队选取MolecularIQ评测集开展专项测试——该评测集重点考察模型对分子内部结构的空间建模与拓扑理解能力，相比传统仅通过分子式构成即可完成的任务，挑战性显著提升。评测结果显示：Intern-S2-Preview在MolecularIQ上取得57.26分，超过Gemini-3.1-Pro的41.33分。

如果说结构理解主要服务于科研中的分析与筛选环节，那么结构生成则是推动科研创新的“创造性任务”。其中，材料晶体结构生成领域此前长期依赖专业模型，而Intern-S2-Preview不仅填补了开源通用大模型在该领域的空白，也是首个能给出思考过程的结构生成模型。该任务需要模型生成数十个高精度的空间坐标以描述材料晶体结构，GPT-5.5等闭源模型生成的结构通过率约为10%，而Intern-S2-Preview的通过率超40%，显著提升了结构生成质量与可用性，为科研创新提供高效支撑。

通过上述创新，Intern-S2-Preview在无需依赖扩散模型的前提下，仍具备高精度坐标回归的潜力，这不仅降低了相关任务的实现成本，更为各类坐标回归类科研任务提供了全新的技术解决方案。

科学智能体能力升级

高效支撑复杂科研任务

得益于训练阶段引入系统化任务合成方法，Intern-S2-Preview通用智能体能力得到进一步提升。团队依托开源社区技能仓库与真实工具生态，构建贴近实际应用场景的高质量智能体训练数据，重点强化模型对复杂任务的步骤拆解、技能调用与自主执行能力，有效拓宽了从多轮对话到复杂任务规划、自主落地执行的能力边界。

在真实沙盒环境长程任务求解场景中，Intern-S2-Preview在PinchBench等通用智能体评测基准中展现出稳健的任务理解、工具调用、多步决策与状态追踪能力，能够在动态环境中持续完成任务执行，并根据环境反馈进行自我修正。同时，凭借持续增强的科学推理能力，Intern-S2-Preview在面向科学编程与算法求解的SciCode基准上表现优异，位居同量级模型前列，具备强劲的科学代码生成能力，可高效支撑科学计算、算法开发与科研脚本编写等复杂科研任务。

自2023年书生大模型首次发布以来，上海AI实验室已逐步构建起丰富的书生大模型家族。同时首创并开源了面向大模型研发与应用的全链路开源工具体系，包含训练框架XTuner、部署推理框架LMDeploy、评测框架OpenCompass、高效文档解析工具MinerU，形成覆盖数十万开发者参与的活跃开源社区。

自发布以来，Intern-S1多次登顶HuggingFace全球多模态榜单，累计下载量超过100万次。其卓越的跨模态科学理解能力不仅为科研提供了高效工具，也通过开源降低了全球科研团队迈入AGI for Science的门槛。未来，上海AI实验室将继续推动模型能力提升与科研范式创新，与全球合作伙伴共同构建更加开放、高效的科学AI生态。

本文 zblog模板原创，转载保留链接！网址：https://www.wbaas.cn/fengrong/1803.html

可以去百度分享获取分享代码输入这里。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。