热点新闻

来源：DeepTech深科技

2021 年，陈天润还在浙江大学读本科。那一年 ChatGPT 不存在，大语言模型远没有破圈。“世界模型”这个概念刚刚冒头，David Ha 和 Jürgen Schmidhuber 三年前发表的那篇《World Models》还只是让 AI 学会在赛车游戏里“做梦”，李飞飞要再等三年才会创办 World Labs。整个领域离商业化还很遥远。但陈天润做了一个当时看起来相当激进的决定：成立一家公司，做 3D 和 AI。

他很早就在写代码。高中学编程，大学期间参与了大量 3D 建模和 3D 重建方面的研究，也发了一些成果。最初的想法很朴素：自己做的是偏应用的学科，如果能通过商业化的方式把一些待落地的新技术推到更多人面前，是一件值得试试的事。与此同时，他对市场有一个判断：一定会有更强的人工智能冒出来，而那会带来很大的机会。

这个判断后来被验证了，而且速度比想象中更快。

魔芯科技从成立起就专注在 AI 与三维技术的交叉地带，早期围绕 AI 驱动的 3D 内容生成做产品和商业化，逐步积累了大量三维数据资产和工程经验。

到了 2024 年底，陈天润做了一个更大的决定：把公司资源的重心全面转向 3D 场景建模和世界模型。他认为，从单个物体扩展到整个场景之后，能够打开的应用空间和市场规模远不是同一个量级。一个物体是一个物体，一个场景里可以装下整个世界。

他的导师潘云鹤院士对这条路径产生了非常直接的影响。

潘云鹤是中国计算机图形学和人工智能领域最早的开拓者之一，曾任浙江大学校长、中国工程院常务副院长，1997 年当选中国工程院院士。他在智能 CAD、计算机美术、虚拟现实等方向深耕了数十年，见证了中国在 CAD 建模领域二十多年的演进。陈天润在浙大计算机学院读直博，师从潘云鹤。

潘院士给陈天润提过两个核心建议。第一，要用新技术做新的事；第二，要充分利用视觉知识，把数据转化为知识，让 AI 去学。

“把数据变成视觉知识，让 AI 去学，”陈天润说，“这是一种比较特别的学习范式。”这个思路后来深刻地影响了魔芯的技术选择。

第三条路

要理解魔芯科技在做什么，需要先理解“世界模型”这个概念。

用我们已经非常熟悉的大语言模型来做类比，大模型的本质是预测下一个词：你输入一段文本的上文，它帮你补出下文。给它小说的前半段，它能把后半段续出来，因为它见过类似的东西。世界模型做的是类似的事情，只是它预测的对象不是文字，而是三维空间中的物理状态。你给它当前的场景和某种扰动条件，它能推演出下一个时刻这个世界会变成什么样。

从预测语言的下一个 token，到预测世界的下一个状态。这是 2026 年 AI 领域最重要的范式迁移之一。

这条赛道上，全球目前最受关注的有几股力量。李飞飞的 World Labs 在 2026 年 2 月完成了 10 亿美元融资，投资方包括英伟达、AMD 和 Autodesk。他们的产品 Marble 已经可以从图片和文字生成高保真 3D 世界，走的是基于 3D 高斯（Gaussian splatting）的技术路线，用这种中间表示来重建和生成场景。

杨立昆离开 Meta 后创办的 AMI Labs 探索的则是 JEPA 架构，一条更偏理论前沿的路径，目前仍处于研究阶段，尚未发布可公开评估的产品。Google DeepMind 则推出了实时交互世界模型 Genie 3。

魔芯走的是和他们都不一样的第三条路。

陈天润和团队选择了纯隐式（implicit）的方法来实现世界模型的扩展。他们既没有像 World Labs 那样用 3D 高斯作为中间表示和学习目标，也没有借助显式的几何重建，而是用纯数据驱动的方式，靠规模堆叠模型能力。这意味着模型的表现主要取决于数据的质和量，而不是手工设计的先验规则。

图丨隐式结构路线与其他方案对比（来源：魔芯科技）

这条路线对数据的要求极高，而这恰恰是魔芯从 2021 年就开始布局的东西。他们从成立之初就雇佣设计师和美术艺术家制作三维内容，逐步积累了覆盖复杂物理场景、动态自然环境的 PB 级 3D 模型和场景资产。3D 数据在整个 AI 领域始终是稀缺资源，不像文本和图片那样可以从互联网上大规模抓取，需要靠时间慢慢积累。

“我们不光有数据，我们还打磨了一套让人画得更快的工具，”陈天润说。“这套工具本身也是壁垒。如果相信世界模型是一个靠数据 scaling 的范式，那谁能更快更高效地产生数据，谁就有优势。”

在具体的模型设计上，KOKONI-World 采用了 14B 参数规模，比部分同行公开宣称使用的 1.5B 模型大了将近十倍。更大的网络尺寸意味着更强的信息承载能力，但推理速度和成本也会成为问题。为此团队设计了一套级联式知识蒸馏方案：不是把大模型压缩成小模型，而是把多步推理过程蒸馏为少步推理，模型尺寸不变，但推理迭代次数大幅减少。

另一个关键设计是相机感知记忆结构。KOKONI-World 生成的场景背后存储着 3D 的空间信息。用户在场景中移动视角、探索不同位置之后再回头看，场景的几何结构和视觉细节不会坍塌。它不是一帧一帧地往外吐画面，而是一个场景一个场景地构建记忆。

图丨KOKONI-World 4D场景生成效果图左：RGB视频生成；图右：3D点云生成（来源：魔芯科技）

这两项技术叠加之后，KOKONI-World 跑出了一组相当亮眼的数据：2000 帧的场景记忆时长，对应大约两分钟的连续动态预测；1080P 全高清的实时交互输出；以及 6 自由度的精确相机控制。

魔芯参与的一项前馈式 4D 基座模型研究也为这个选择提供了直接的实验依据。实验表明，当训练数据扩展到百万量级以上、模型参数超过 10B 时，重建误差显著且持续地下降，模型开始具备长时一致的空间建模能力。这条 scaling 曲线和大语言模型早期观察到的规律高度相似，说明 3D 和 4D 场景建模确实具备 Scaling Law。

图｜实验结果，随着数据量的增加（左图）和模型尺寸提升（右图），模型精度持续提高（误差降低）

年轻团队的牌面

做出这些东西的，是一支平均年龄不到 30 岁的全博士团队，核心成员来自浙大、中科大、同济等高校，几位研发骨干从博士阶段就在研究多模态大模型驱动的 3D 重建与视频生成，发表过数十篇顶会论文。

陈天润把这种团队构成看作一种优势：“我们不是计算机视觉老兵，也不是自动驾驶老兵在干这个事情。我们是搞大模型的人在做世界模型。”他认为，做基础模型应该用数据驱动的方式来做，而他们这批人对这种范式有天然的信心和经验。

作为 00 后 CEO，陈天润承认在 2021、2022 年创业早期确实遇到过年龄带来的质疑。但到了 2023 年之后，ChatGPT 的成功让全世界都看到了一个事实：很多最前沿的 AI 创业公司，就是由一群非常年轻的从业者搞出来的。年轻、人少、没有历史包袱，在 AI 时代反而变成了优势。

“国际上创新就是这么发生的，”他说。

而这群年轻人确实拿出了不一样的东西。魔芯的模型有一个区别于多数同行的能力：它既能输出人类可理解的显式结果，比如视频、3D 点云、3D 高斯等场景表示，也能输出纯隐式的 token 和向量。后者对机器人、自动驾驶等下游应用更有价值，因为机器需要的不是一段漂亮的视频，而是能直接用于决策的空间表征。这种“两头都能交付”的能力，让魔芯在面对不同类型的客户时有更多灵活性。

建立在这个能力之上，魔芯是目前世界模型赛道上少数已经产生收入的团队。他们在 2025 年就交付了第一版模型，3D 重建服务对外售卖，支持 API 调用和定制化开发。在影视娱乐、数字孪生、自动驾驶、具身智能等方向上，他们已经在和产业方做实际的对接和交付。部分 PB 级 3D 数据资产也在以开放合作的方式提供给其他 AI 研究团队。

从 BERT 到 ChatGPT

2026 年开春，魔芯科技的节奏在明显加快。

公司近期完成了浙创投等国资机构及多家产业资本投资的 Pre-A++ 轮融资，新一轮 A 轮融资也即将落地。陈天润有意识地选择引入产业方而非纯财务投资人。“行业还处于早期，需要大家共建生态，不是一家能搞定所有事的。”

另一个即将落地的节点是下一代模型的发布。魔芯即将推出参数规模约为现有版本两倍的新模型，核心改进在于更高的输入分辨率。此前用户只能输入较低分辨率的图片，模型能重建的信息量受限。新版本将能处理更大尺寸的图像输入，对应更丰富的重建细节。陈天润说，这个版本在 3D 建模的准确度和泛化能力上，预计将超过目前市面上的同类模型，并会同步对外提供服务和发表学术论文。

当然，陈天润对当前的阶段有清醒的认知。世界模型作为一个新范式，整个行业都还处于能力爬坡期，模型的泛化性和场景覆盖度仍在持续迭代。他把现在比作大语言模型在 ChatGPT 之前的 BERT 时代：基础能力已经涌现，但距离真正的产品化爆发，可能还需要一到两年的打磨。

从 BERT 到 ChatGPT，中间经历了 GPT-2、GPT-3、GPT-3.5 的迭代。世界模型的演化大概率也需要类似的过程。

问他五年后希望别人提起魔芯科技时想到什么，陈天润告诉我们：“3D 的 ChatGPT 时刻。”

这个目标很大。ChatGPT 之所以是 ChatGPT，不只是因为模型能力够强，更因为它让普通人第一次直观感受到了 AI 的可能性。3D 的 ChatGPT 时刻意味着世界模型不再是论文里的概念，而是真正部署到上亿台设备上、让 AI 理解物理世界并做出可靠判断的基础能力。陈天润估算，这个方向最终面向的是万亿级别的市场。

不过眼下最紧迫的事情，是把新模型交付出去。

“我们希望做能 work 的东西，”陈天润强调，“而不是发在公众号上的东西。”

运营/排版：何晨龙

注：封面/首图由 AI 辅助生成

独家｜浙大00后世界模型创业，完成新一轮亿元融资，已在多个产业领域实现交付

图丨隐式结构路线与其他方案对比（来源：魔芯科技）

图丨KOKONI-World 4D场景生成效果图左：RGB视频生成；图右：3D点云生成（来源：魔芯科技）

图｜实验结果，随着数据量的增加（左图）和模型尺寸提升（右图），模型精度持续提高（误差降低）

相关推荐

图丨隐式结构路线与其他方案对比（来源：魔芯科技）

图丨KOKONI-World 4D场景生成效果 图左：RGB视频生成；图右：3D点云生成 （来源：魔芯科技）

图｜实验结果，随着数据量的增加（左图）和模型尺寸提升（右图），模型精度持续提高（误差降低）

相关推荐

图丨KOKONI-World 4D场景生成效果图左：RGB视频生成；图右：3D点云生成（来源：魔芯科技）