字节跳动发布Vidi2,120亿参数革新视频编辑
时间:2025-12-06 09:27:32 487浏览 收藏
今天golang学习网给大家带来了《字节跳动发布Vidi2,120亿参数实现视频自动化编辑》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~
字节跳动近日推出了其全新多模态大语言模型 Vidi2,这是一个专为视频理解设计、拥有120亿参数的AI模型。该模型具备处理长达数小时原始视频内容的能力,能够解析其中的情节发展,并根据简单的文本提示自动生成完整的TikTok短视频或电影片段,被认为可能对传统视频编辑行业带来深远影响。
Vidi2的核心突破在于其强大的视频理解能力。新版本引入了精细的时空定位(STG)功能,可同时识别视频中特定事件发生的时间点以及对应物体的空间位置。通过输入一段文字查询,模型不仅能精准定位相关时间段,还能在画面中标注出目标对象的边界框。
关键技术亮点包括:
- 时空定位能力:模型输出“管道”形式的结果——即以每秒为单位的时间索引与边界框组合,实现对人物或物体的连续追踪,例如在复杂场景中锁定某一个人并全程跟踪。
- 架构升级:Vidi2采用Gemma-3作为主干网络,并结合重新设计的自适应标记压缩技术,在保证长视频处理效率的同时,有效保留关键视觉细节。
在权威评测基准 VUE-TR-V2(用于开放式时间检索)上,Vidi2取得了总体IoU 48.75的优异成绩,尤其在超过一小时的超长视频任务中,性能领先主流商业模型达17.5个百分点。在VUE-STG定位任务中,模型同样表现突出,vIoU达到32.57,tIoU高达53.19,均位居当前最优水平。

基于Vidi2,字节跳动已开发出一系列自动化视频编辑工具,涵盖高光片段提取、故事感知型剪辑、内容驱动的重构图生成以及多视角智能切换等功能,且这些操作均可在普通消费级设备上流畅运行。
- TikTok集成应用:相关技术已落地于TikTok的Smart Split功能,支持自动分割长视频、智能重构画面构图、生成字幕,并将原始素材转化为符合平台调性的短视频内容。
- AI Outline 工具:用户只需输入简短提示或选择热门话题,系统即可自动生成结构化视频方案,包括标题、开场白和分镜大纲。
目前,Vidi2仍处于研究阶段,官方透露即将发布公开Demo版本。
源码地址:点击下载
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
394 收藏
-
380 收藏
-
487 收藏
-
368 收藏
-
250 收藏
-
355 收藏
-
259 收藏
-
281 收藏
-
145 收藏
-
229 收藏
-
365 收藏
-
429 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习