xChar

WAIC 2025大会:Intern-S1(代号“书生”)发布

image

上海人工智能实验室在WAIC 2025大会上发布并开源了最新的科学多模态大模型 Intern-S1(代号“书生”)。

体验地址

资源链接

模型架构

Intern-S1以 MoE 架构为基础,拥有:

  • 2350亿参数 的语言模型部分(Qwen3)
  • 60亿参数 的视觉编码器(IntrenViT)
  • 总规模:2410亿参数

训练数据与能力

  • 5T 的训练数据集,其中超过一半是专业领域知识。
  • 上下文长度:128K tokens,能够处理多篇顶会论文并进行前后串联分析。

数据解析能力

  • 能够读取科研图表中的数据趋势,并结合文字解释背后的逻辑。
  • 理解图中显示的内容,解读所代表的物理过程,并推导下一步实验。

创新特性

Intern-S1首创了跨模态科学解析引擎,针对不同模态的数据自适应地进行分词编码。对化学分子式、蛋白质序列等特殊序号提供了更高效的编码表示,压缩率提升了70%以上,使其具备理解专业、复杂数据的能力。

训练范式

为了兼顾通用性与专业性,Intern-S1提出了“通专融合同的训练范式”:

  • 利用海量的通用科研数据拓展模型知识广度。
  • 训练众多领域专家模型生成高可读性、思维路径清晰的专业数据,并由定制的领域智能验证其质量。

通过这一闭环机制反哺预训练,Intern-S1同时具备了强大的通用推理能力和多项顶尖的专业能力,实现了一个模型解决多种专业任务的突破。

训练效率

在模型后期训练中引入了大规模多任务强化学习框架 Inte。算法上主打“混合奖励”——能验证的任务使用规则和验证器给奖励。这套体系让它的训练能耗只有 Grok 4 的1%,性能却毫不逊色。

结论

Intern-S1会不会成为科研多模态的标准答案?现在下结论还早,但它让我们看到了另一条路径——不是一味做大模型拼参数,而是从实际需求出发,去解决真正难但有价值的应用场景。Intern-S1的方向与前几年大家追求通用能力的方向有所不同。虽然 GPTGeminiClaude 等模型在对话和代码生成方面很成熟,但在分析科研图谱或辅助设计实验时,结果经常不稳定且缺乏逻辑,复杂的公式对它们来说就是乱码。

Intern-S1则从科研这一难点切入,将多模态真正应用于文献解析、实验辅助等“高压区”,打开了一条通往“专业型AI”的可能性通道。

Loading comments...