独家|浙大00后世界模型创业,完成新一轮亿元融资,已在多个产业领域实现交付

来源:DeepTech深科技

2021 年,陈天润还在浙江大学读本科。那一年 ChatGPT 不存在,大语言模型远没有破圈。“世界模型”这个概念刚刚冒头,David Ha 和 Jürgen Schmidhuber 三年前发表的那篇《World Models》还只是让 AI 学会在赛车游戏里“做梦”,李飞飞要再等三年才会创办 World Labs。整个领域离商业化还很遥远。但陈天润做了一个当时看起来相当激进的决定:成立一家公司,做 3D 和 AI。

他很早就在写代码。高中学编程,大学期间参与了大量 3D 建模和 3D 重建方面的研究,也发了一些成果。最初的想法很朴素:自己做的是偏应用的学科,如果能通过商业化的方式把一些待落地的新技术推到更多人面前,是一件值得试试的事。与此同时,他对市场有一个判断:一定会有更强的人工智能冒出来,而那会带来很大的机会。

这个判断后来被验证了,而且速度比想象中更快。

魔芯科技从成立起就专注在 AI 与三维技术的交叉地带,早期围绕 AI 驱动的 3D 内容生成做产品和商业化,逐步积累了大量三维数据资产和工程经验。

到了 2024 年底,陈天润做了一个更大的决定:把公司资源的重心全面转向 3D 场景建模和世界模型。他认为,从单个物体扩展到整个场景之后,能够打开的应用空间和市场规模远不是同一个量级。一个物体是一个物体,一个场景里可以装下整个世界。

他的导师潘云鹤院士对这条路径产生了非常直接的影响。

潘云鹤是中国计算机图形学和人工智能领域最早的开拓者之一,曾任浙江大学校长、中国工程院常务副院长,1997 年当选中国工程院院士。他在智能 CAD、计算机美术、虚拟现实等方向深耕了数十年,见证了中国在 CAD 建模领域二十多年的演进。陈天润在浙大计算机学院读直博,师从潘云鹤。

潘院士给陈天润提过两个核心建议。第一,要用新技术做新的事;第二,要充分利用视觉知识,把数据转化为知识,让 AI 去学。

“把数据变成视觉知识,让 AI 去学,”陈天润说,“这是一种比较特别的学习范式。”这个思路后来深刻地影响了魔芯的技术选择。

第三条路

要理解魔芯科技在做什么,需要先理解“世界模型”这个概念。

用我们已经非常熟悉的大语言模型来做类比,大模型的本质是预测下一个词:你输入一段文本的上文,它帮你补出下文。给它小说的前半段,它能把后半段续出来,因为它见过类似的东西。世界模型做的是类似的事情,只是它预测的对象不是文字,而是三维空间中的物理状态。你给它当前的场景和某种扰动条件,它能推演出下一个时刻这个世界会变成什么样。

从预测语言的下一个 token,到预测世界的下一个状态。这是 2026 年 AI 领域最重要的范式迁移之一。

这条赛道上,全球目前最受关注的有几股力量。李飞飞的 World Labs 在 2026 年 2 月完成了 10 亿美元融资,投资方包括英伟达、AMD 和 Autodesk。他们的产品 Marble 已经可以从图片和文字生成高保真 3D 世界,走的是基于 3D 高斯(Gaussian splatting)的技术路线,用这种中间表示来重建和生成场景。

杨立昆离开 Meta 后创办的 AMI Labs 探索的则是 JEPA 架构,一条更偏理论前沿的路径,目前仍处于研究阶段,尚未发布可公开评估的产品。Google DeepMind 则推出了实时交互世界模型 Genie 3。

魔芯走的是和他们都不一样的第三条路。

陈天润和团队选择了纯隐式(implicit)的方法来实现世界模型的扩展。他们既没有像 World Labs 那样用 3D 高斯作为中间表示和学习目标,也没有借助显式的几何重建,而是用纯数据驱动的方式,靠规模堆叠模型能力。这意味着模型的表现主要取决于数据的质和量,而不是手工设计的先验规则。

这条路线对数据的要求极高,而这恰恰是魔芯从 2021 年就开始布局的东西。他们从成立之初就雇佣设计师和美术艺术家制作三维内容,逐步积累了覆盖复杂物理场景、动态自然环境的 PB 级 3D 模型和场景资产。3D 数据在整个 AI 领域始终是稀缺资源,不像文本和图片那样可以从互联网上大规模抓取,需要靠时间慢慢积累。

“我们不光有数据,我们还打磨了一套让人画得更快的工具,”陈天润说。“这套工具本身也是壁垒。如果相信世界模型是一个靠数据 scaling 的范式,那谁能更快更高效地产生数据,谁就有优势。”

在具体的模型设计上,KOKONI-World 采用了 14B 参数规模,比部分同行公开宣称使用的 1.5B 模型大了将近十倍。更大的网络尺寸意味着更强的信息承载能力,但推理速度和成本也会成为问题。为此团队设计了一套级联式知识蒸馏方案:不是把大模型压缩成小模型,而是把多步推理过程蒸馏为少步推理,模型尺寸不变,但推理迭代次数大幅减少。

另一个关键设计是相机感知记忆结构。KOKONI-World 生成的场景背后存储着 3D 的空间信息。用户在场景中移动视角、探索不同位置之后再回头看,场景的几何结构和视觉细节不会坍塌。它不是一帧一帧地往外吐画面,而是一个场景一个场景地构建记忆。

这两项技术叠加之后,KOKONI-World 跑出了一组相当亮眼的数据:2000 帧的场景记忆时长,对应大约两分钟的连续动态预测;1080P 全高清的实时交互输出;以及 6 自由度的精确相机控制。

魔芯参与的一项前馈式 4D 基座模型研究也为这个选择提供了直接的实验依据。实验表明,当训练数据扩展到百万量级以上、模型参数超过 10B 时,重建误差显著且持续地下降,模型开始具备长时一致的空间建模能力。这条 scaling 曲线和大语言模型早期观察到的规律高度相似,说明 3D 和 4D 场景建模确实具备 Scaling Law。

年轻团队的牌面

做出这些东西的,是一支平均年龄不到 30 岁的全博士团队,核心成员来自浙大、中科大、同济等高校,几位研发骨干从博士阶段就在研究多模态大模型驱动的 3D 重建与视频生成,发表过数十篇顶会论文。

陈天润把这种团队构成看作一种优势:“我们不是计算机视觉老兵,也不是自动驾驶老兵在干这个事情。我们是搞大模型的人在做世界模型。”他认为,做基础模型应该用数据驱动的方式来做,而他们这批人对这种范式有天然的信心和经验。

作为 00 后 CEO,陈天润承认在 2021、2022 年创业早期确实遇到过年龄带来的质疑。但到了 2023 年之后,ChatGPT 的成功让全世界都看到了一个事实:很多最前沿的 AI 创业公司,就是由一群非常年轻的从业者搞出来的。年轻、人少、没有历史包袱,在 AI 时代反而变成了优势。

“国际上创新就是这么发生的,”他说。

而这群年轻人确实拿出了不一样的东西。魔芯的模型有一个区别于多数同行的能力:它既能输出人类可理解的显式结果,比如视频、3D 点云、3D 高斯等场景表示,也能输出纯隐式的 token 和向量。后者对机器人、自动驾驶等下游应用更有价值,因为机器需要的不是一段漂亮的视频,而是能直接用于决策的空间表征。这种“两头都能交付”的能力,让魔芯在面对不同类型的客户时有更多灵活性。

建立在这个能力之上,魔芯是目前世界模型赛道上少数已经产生收入的团队。他们在 2025 年就交付了第一版模型,3D 重建服务对外售卖,支持 API 调用和定制化开发。在影视娱乐、数字孪生、自动驾驶、具身智能等方向上,他们已经在和产业方做实际的对接和交付。部分 PB 级 3D 数据资产也在以开放合作的方式提供给其他 AI 研究团队。

从 BERT 到 ChatGPT

2026 年开春,魔芯科技的节奏在明显加快。

公司近期完成了浙创投等国资机构及多家产业资本投资的 Pre-A++ 轮融资,新一轮 A 轮融资也即将落地。陈天润有意识地选择引入产业方而非纯财务投资人。“行业还处于早期,需要大家共建生态,不是一家能搞定所有事的。”

另一个即将落地的节点是下一代模型的发布。魔芯即将推出参数规模约为现有版本两倍的新模型,核心改进在于更高的输入分辨率。此前用户只能输入较低分辨率的图片,模型能重建的信息量受限。新版本将能处理更大尺寸的图像输入,对应更丰富的重建细节。陈天润说,这个版本在 3D 建模的准确度和泛化能力上,预计将超过目前市面上的同类模型,并会同步对外提供服务和发表学术论文。

当然,陈天润对当前的阶段有清醒的认知。世界模型作为一个新范式,整个行业都还处于能力爬坡期,模型的泛化性和场景覆盖度仍在持续迭代。他把现在比作大语言模型在 ChatGPT 之前的 BERT 时代:基础能力已经涌现,但距离真正的产品化爆发,可能还需要一到两年的打磨。

从 BERT 到 ChatGPT,中间经历了 GPT-2、GPT-3、GPT-3.5 的迭代。世界模型的演化大概率也需要类似的过程。

问他五年后希望别人提起魔芯科技时想到什么,陈天润告诉我们:“3D 的 ChatGPT 时刻。”

这个目标很大。ChatGPT 之所以是 ChatGPT,不只是因为模型能力够强,更因为它让普通人第一次直观感受到了 AI 的可能性。3D 的 ChatGPT 时刻意味着世界模型不再是论文里的概念,而是真正部署到上亿台设备上、让 AI 理解物理世界并做出可靠判断的基础能力。陈天润估算,这个方向最终面向的是万亿级别的市场。

不过眼下最紧迫的事情,是把新模型交付出去。

“我们希望做能 work 的东西,”陈天润强调,“而不是发在公众号上的东西。”

运营/排版:何晨龙

注:封面/首图由 AI 辅助生成

上一篇:鲟龙科技:慢鱼难上岸
下一篇:岚图汽车获东风香港累计增持 2019.2 万股 H 股,控股股东最新持股比例已超 70%
免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。