首页 > 科技周边 > 人工智能

微软推出深度视频智能体DeepVideoDiscovery

时间：2025-07-02 12:50:53 278浏览收藏

微软推出了一款名为Deep Video Discovery（DVD）的深度视频探索智能体，旨在高效解析和分析长时间视频内容。该系统通过将视频分割成小片段，并结合大型语言模型（LLM）的强大推理能力，自主规划并选择合适的工具与参数来收集信息，从而实现对视频内容的多层级理解。DVD集成了全局浏览、片段检索和帧级检查等工具，能够在不同层级上获取信息，并通过迭代推理逐步建立对整个视频的认知。在长视频理解基准测试中，DVD表现出色，显著提升了长视频理解的精度与效率。该技术在教育、体育赛事分析、安防监控等领域具有广泛的应用前景，能够帮助用户快速定位关键信息，提高视频内容的处理效率。

Deep Video Discovery（DVD）是微软研发的深度视频探索智能体，专为解析和分析长时间视频内容而设计。该系统通过将长视频划分为多个较短片段，并借助大型语言模型（LLM）的强大推理能力，自主规划并选择合适的工具与参数来收集信息。Deep Video Discovery集成了一系列以搜索为核心的工具，包括全局浏览、片段检索和帧级检查，能够在不同层级上获取信息，并通过迭代推理逐步建立对整个视频的理解。在多项长视频理解基准测试中，该系统表现出色，显著提升了长视频理解的精度与效率。

Deep Video Discovery的核心功能

多层级视频分析：从整体结构、片段内容到单帧画面三个维度进行视频解析，实现全面理解。
自适应搜索与推理机制：根据用户查询自动制定搜索策略，动态调用合适工具与参数，逐步构建视频内容认知。
高效的信息提取能力：利用全局概览、片段查找和帧级审查等工具，迅速定位与用户需求相关的视频内容。
支持超长视频处理：针对数小时级别的高密度信息视频，有效应对其中的时间与空间复杂性挑战。
多样化工具组合应用：依据任务差异灵活调配多种工具，实现高效的视频内容解读与问题解答。

Deep Video Discovery的技术架构

多层次视频数据库构建：将长视频平均分割为约5秒的小段（clips），并在全局、片段和帧三个层面提取信息。全局层提供整体事件概述，片段层生成文本描述（caption），帧层保留原始像素数据。构建包含解码帧、文本描述及嵌入向量的结构化数据库，便于快速检索与深入分析。
自主搜索与答案生成流程：
- 全局概览（Global Browse）：提供视频整体摘要，使代理快速掌握主要内容与事件脉络。
- 片段检索（Clip Search）：基于文本嵌入匹配技术，快速筛选出与用户查询相关的小段内容。
- 帧级审查（Frame Inspect）：在指定时间范围内执行细粒度视觉问答（VQA），获取帧级别细节。
- 自主代理机制：Agent采用观察-推理-行动的循环模式，依托LLM的逻辑推理能力，动态调用工具并逐步积累信息。
- 迭代式推理机制：Agent依据当前状态与推理结果，选取合适的工具与参数，逐步优化查询过程，最终输出精准答案。
LLM驱动的认知引擎：LLM作为核心组件，负责逻辑推理与任务规划。其根据对话历史与当前观察结果，动态选择工具与参数，调整推理路径，并可根据任务需求灵活组合不同工具，构建多步骤操作链路，解决复杂查询问题。

Deep Video Discovery的项目链接

arXiv论文地址：http://arxiv.org/pdf/2505.18079

Deep Video Discovery的实际应用

教育行业：用于在线课程平台分析教学视频，帮助学生快速跳转至特定知识点或章节。
体育赛事分析：辅助分析比赛录像，快速识别关键进球、犯规等重要事件。
安防监控：在视频监控系统中实时分析画面，迅速检测异常行为或突发事件。
影视后期制作：协助剪辑团队从大量拍摄素材中快速找到所需镜头。
企业会议管理：帮助企业从会议录像中高效提取重点议题与决策结论。

到这里，我们也就讲完了《微软推出深度视频智能体DeepVideoDiscovery》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于的知识点！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载