群发资讯网

2.6B参数单卡跑分钟级视频:英伟达开源世界模型SANA-WM,个人玩家的生产力

2.6B参数单卡跑分钟级视频:英伟达开源世界模型SANA-WM,个人玩家的生产力工具来了

就在这两天,英伟达发布了全新的开源世界模型 SANA-WM。不得不说,老黄在视频生成和具身智能领域的刀法是越来越精湛了。这次的新模型直接解决了行业的一大痛点:不需要昂贵的显卡集群,单张显卡就能生成“分钟级”的720p高清视频!

对于我们玩AI和做机器人研发的人来说,这简直是福音。简单帮大家盘点几个核心亮点:

🎬 1. 单卡跑出“一分钟”高清长视频
以前绝大多数开源世界模型,要么得用多卡堆算力,要么为了省显卡只能把分辨率压缩得很低。而SANA-WM只有2.6B(26亿)参数,却能原生生成60秒、720p的动作控制视频。在单张RTX 5090显卡上(配合NVFP4量化),只要34秒就能渲染完一整段1分钟的视频!

🎮 2. 电影级的相机轨迹控制(6-DoF)
它不仅仅是根据文字生视频,而是能严格听从你的镜头轨迹指令(前后左右移动、旋转、俯仰等)。英伟达用了“双分支相机控制”黑科技,连视频里极其微小的镜头位移都能精准还原,相机的动作一致性直接刷爆了行业榜单。

🧠 3. 架构大魔改,彻底告别内存爆炸
传统模型生视频,时间越长显存越容易爆。SANA-WM这次把大部分注意力机制换成了“帧级门控Delta网络(GDN)”。简单来说就是它学会了“断舍离”,生成长视频时会自动淡忘很久以前的无效画面,让显存占用始终保持恒定,直接把计算效率提升了36倍!

📂 顺便提一句,英伟达这次非常良心,项目已经完全开源了。代码和权重都可以在他们的GitHub仓库(NVlabs/Sana)里找到。

以前总觉得长视频生成是属于大厂的“军备竞赛”,现在看来,单卡玩家的春天真的要来了。

大家觉得这次英伟达开源的SANA-WM,会对现在的视频生成格局带来多大冲击?