登录
首页 >  科技周边 >  业界新闻

字节跳动发布Vidi2,120亿参数革新视频编辑

时间:2025-12-06 09:27:32 487浏览 收藏

推广推荐
免费电影APP ➜
支持 PC / 移动端,安全直达

今天golang学习网给大家带来了《字节跳动发布Vidi2,120亿参数实现视频自动化编辑》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~

字节跳动近日推出了其全新多模态大语言模型 Vidi2,这是一个专为视频理解设计、拥有120亿参数的AI模型。该模型具备处理长达数小时原始视频内容的能力,能够解析其中的情节发展,并根据简单的文本提示自动生成完整的TikTok短视频或电影片段,被认为可能对传统视频编辑行业带来深远影响。

Vidi2的核心突破在于其强大的视频理解能力。新版本引入了精细的时空定位(STG)功能,可同时识别视频中特定事件发生的时间点以及对应物体的空间位置。通过输入一段文字查询,模型不仅能精准定位相关时间段,还能在画面中标注出目标对象的边界框。

关键技术亮点包括:

  • 时空定位能力:模型输出“管道”形式的结果——即以每秒为单位的时间索引与边界框组合,实现对人物或物体的连续追踪,例如在复杂场景中锁定某一个人并全程跟踪。
  • 架构升级:Vidi2采用Gemma-3作为主干网络,并结合重新设计的自适应标记压缩技术,在保证长视频处理效率的同时,有效保留关键视觉细节。

在权威评测基准 VUE-TR-V2(用于开放式时间检索)上,Vidi2取得了总体IoU 48.75的优异成绩,尤其在超过一小时的超长视频任务中,性能领先主流商业模型达17.5个百分点。在VUE-STG定位任务中,模型同样表现突出,vIoU达到32.57,tIoU高达53.19,均位居当前最优水平。

字节跳动发布 Vidi2:120 亿参数,让视频编辑彻底自动化

基于Vidi2,字节跳动已开发出一系列自动化视频编辑工具,涵盖高光片段提取、故事感知型剪辑、内容驱动的重构图生成以及多视角智能切换等功能,且这些操作均可在普通消费级设备上流畅运行。

  • TikTok集成应用:相关技术已落地于TikTok的Smart Split功能,支持自动分割长视频、智能重构画面构图、生成字幕,并将原始素材转化为符合平台调性的短视频内容。
  • AI Outline 工具:用户只需输入简短提示或选择热门话题,系统即可自动生成结构化视频方案,包括标题、开场白和分镜大纲。

目前,Vidi2仍处于研究阶段,官方透露即将发布公开Demo版本。

源码地址:点击下载

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>