首页 > 科技周边 > 业界新闻

字节跳动发布Vidi2，120亿参数革新视频编辑

时间：2025-12-06 09:27:32 487浏览收藏

今天golang学习网给大家带来了《字节跳动发布Vidi2，120亿参数实现视频自动化编辑》，其中涉及到的知识点包括等等，无论你是小白还是老手，都适合看一看哦~有好的建议也欢迎大家在评论留言，若是看完有所收获，也希望大家能多多点赞支持呀！一起加油学习~

字节跳动近日推出了其全新多模态大语言模型 Vidi2，这是一个专为视频理解设计、拥有120亿参数的AI模型。该模型具备处理长达数小时原始视频内容的能力，能够解析其中的情节发展，并根据简单的文本提示自动生成完整的TikTok短视频或电影片段，被认为可能对传统视频编辑行业带来深远影响。

Vidi2的核心突破在于其强大的视频理解能力。新版本引入了精细的时空定位（STG）功能，可同时识别视频中特定事件发生的时间点以及对应物体的空间位置。通过输入一段文字查询，模型不仅能精准定位相关时间段，还能在画面中标注出目标对象的边界框。

关键技术亮点包括：

在权威评测基准 VUE-TR-V2（用于开放式时间检索）上，Vidi2取得了总体IoU 48.75的优异成绩，尤其在超过一小时的超长视频任务中，性能领先主流商业模型达17.5个百分点。在VUE-STG定位任务中，模型同样表现突出，vIoU达到32.57，tIoU高达53.19，均位居当前最优水平。

字节跳动发布 Vidi2：120 亿参数，让视频编辑彻底自动化

基于Vidi2，字节跳动已开发出一系列自动化视频编辑工具，涵盖高光片段提取、故事感知型剪辑、内容驱动的重构图生成以及多视角智能切换等功能，且这些操作均可在普通消费级设备上流畅运行。

TikTok集成应用：相关技术已落地于TikTok的Smart Split功能，支持自动分割长视频、智能重构画面构图、生成字幕，并将原始素材转化为符合平台调性的短视频内容。
AI Outline 工具：用户只需输入简短提示或选择热门话题，系统即可自动生成结构化视频方案，包括标题、开场白和分镜大纲。

目前，Vidi2仍处于研究阶段，官方透露即将发布公开Demo版本。

源码地址：点击下载

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。