AI六小龙之一的阶跃星辰，开源两款多模态大模型引发全球关注

15 阅读 0 评论 0 点赞 AI创作

在当今人工智能领域，“AI六小龙”早已成为行业内的热门话题。而作为其中最低调却最具潜力的一员，阶跃星辰最近的动作无疑让整个科技圈为之沸腾。作为一名对AI技术充满热情的观察者，我有幸见证了这家公司的一系列突破性进展。

22日，阶跃星辰正式向全球开发者开源了两款多模态大模型——Step-Video V2和Step-1o Vision。这一举动不仅展示了其在技术研发上的深厚积累，也进一步推动了全球AI行业的开放与合作。

Step-Video V2：从VAE到RL融合的技术革新

Step-Video V2是阶跃星辰在视频生成领域的最新成果。相较于前代版本V1，这次升级主要体现在三个方面：VAE（变分自编码器）模型优化、DiT架构改进以及强化学习（RL）的深度融合。

首先，VAE模型的改进使得生成的视频质量更高，细节更加丰富。其次，DiT架构的调整增强了模型对于复杂场景的理解能力，使其能够更好地处理动态变化的画面。最后，通过引入强化学习机制，模型可以更智能地根据用户需求调整输出内容，从而提供更加个性化的服务。

Step-1o Vision：三模态一体化的创新尝试

除了Step-Video V2之外，阶跃星辰还发布了Step-1o Vision多模态理解大模型。这款模型最大的亮点在于它实现了文本、视觉和语音三种模态的端到端生成与理解。这意味着用户可以通过文字、图片或语音任意一种形式输入信息，而模型都能够准确地解析并生成相应的输出。

据业内人士透露，Step-1o Vision的研发团队由旷视联合创始人印奇亲自领衔，并吸纳了多位来自微软等国际顶尖科技公司的专家加盟。这种强大的技术支持使得该模型在性能上具备明显优势。

“六小龙”的竞争格局正在重塑

随着DeepSeek等国外开源项目的出现，国内AI“六小龙”之间的竞争愈发激烈。其他几家如智谱AI、百川智能等也在不断加大研发投入力度，力求在市场中占据有利位置。

值得注意的是，在这样的背景下，阶跃星辰依然选择坚持开源策略。这不仅是对公司自身实力的一种自信表现，更是希望通过这种方式吸引更多优秀的开发者加入到多模态大模型的研究中来，共同推动整个行业向前发展。

未来展望：更多可能性等待探索

目前，阶跃星辰已经将其技术应用于旗下产品「跃问」当中。这款应用结合了最新的多模态大模型技术，为用户提供了一个智能化问答平台。未来，相信随着技术的不断完善，还将有更多基于这些开源模型的应用诞生。

总之，阶跃星辰此次开源两款多模态大模型无疑是AI领域的一大盛事。无论是对于开发者还是普通用户而言，这都将是一个值得期待的新起点。