-
蒙娜丽莎打哈欠,小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023年底,科技公司都在冲击生成式AI的最后一个关卡——视频生成。本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为VideoPoet的大语言模型,被人们认为是革命性的zero-shot视频生成工具。VideoPoet既可以文生视频、图像生视频,又能风格迁移,视频转语音。从效果上看,它可以构建多样化且流畅的运动。消息一出,有很多人表示欢迎:看看目前的几个成品效果不
-
在去年的五月份,一个名为DragGAN的研究引起了人工智能领域的关注。这项研究让图片变得“活”起来,只需动动鼠标就能实现。通过拖拽的方式,我们可以修改和合成出我们想要的图像,例如在下图中让一只狮子转过头来并张开嘴巴。这种技术的突破为图像编辑和合成带来了新的可能性,让用户能够以更直观的方式进行图像处理,从而创造出更加生动和有趣的作品。这一研究成果源自华人学者领导的项目“DragYourGAN”,最近发表在SIGGRAPH2023会议上。该项目已在GitHub上获得了34.5k的Star。项目地址:https
-
2月26日,西班牙巴塞罗那举办了世界移动通信大会(MWC)。在这一盛会上,联想集团展示了全景式AI终端、基础设施以及解决方案组合,引起了广泛关注。尤其是他们展示的两款新概念产品,一款是拥有透明屏幕的ThinkBook笔记本电脑,另一款是摩托罗拉推出的自适应智能手机,颠覆了传统个人电脑和智能手机的外形设计。这两款产品的亮相展示了联想集团在技术创新方面的雄心壮志,也展示了他们对未来科技发展的前瞻性思考。通过引入透明屏幕和自适应技术,ThinkBook透明屏笔记本电脑和在本届MWC上,联想集团展示了全球首款17
-
Claude3的竞技场排名终于来了:短短3天内,20000张投票,将榜单的流量推向空前。最终,Claude3最强的“大杯”模型Opus得分1233,成为第一个能和GPT-4-Turbo一较高下的选手。“中杯”Sonnet也还不错,和GPT-4的两个旧版本不相上下。图片不过总的来说,还是GPT-4系列占据上风。Claude3的表现和宣传有些许出入。如网友总结:GPT-4还是大模型之王!但,免费的“中杯”Claude3(Sonnet)更物超所值。图片大模型竞技场出炉,“新王”排第三Claude3发布时官方的宣
-
写在前面&个人理解近年来,自动驾驶技术中以视觉为中心的3D感知迅速取得进展。尽管各种3D感知模型在结构和概念上有许多相似之处,但在特征表示、数据格式和目标方面仍存在一些差异,这给统一高效的3D感知框架设计带来了挑战。因此,研究人员正努力寻找解决方案,以便更好地整合不同模型之间的差异,从而构建更加完善和高效的3D感知系统。这种努力有望为自动驾驶领域带来更为可靠和先进的技术,使其在复杂环境下具备更强特别是BEV下的检测任务和Occupancy任务,想做好联合训练,还是很难的,不稳定和效果不可控让很多应
-
视听语音分离(AVSS)技术的主要目的是在混合信号中识别并分离出目标说话者的声音,利用面部信息来实现这一目标。这项技术在多个领域都有广泛的应用,包括智能助手、远程会议和增强现实等。通过AVSS技术,可以显著改善在嘈杂环境下的语音信号质量,从而提高语音识别和交流的效果。这种技术的发展为人们的日常生活和工作带来了便利,使得人们能够更加轻松传统的视听语音分离方法通常需要复杂的模型和大量的计算资源,特别是在有嘈杂背景或多说话者的情况下,其性能容易受到限制。为了克服这些问题,研究人员开始探索基于深度学习的方法。然而
-
一、归因诊断在实际工作中,我们常常受到业务方对关键绩效指标(KPI)的灵魂拷问:某个KPI指标为什么会上升或下降?归因诊断的任务就是解释这些指标变化的原因。将问题的定位过程视为一个因素对比的过程,通过归因诊断来分析。在基准时间区间,指标值为y,在当前时间区间,指标值为y',两者的差值为∆y。基于这个变化量∆y,进行因子的拆解并生成一个因子指标树。在每个叶子节点,计算其对整体∆y的贡献度,以确定哪个因子对整体贡献最显著。通过以上过程,就能够解释KPI波动的原因。在实际应用中,可以支持:多时间粒度的对比,包括
-
现代数据中心,不论规模大小,都需要重新思考电力管理和备份策略,这是创新战略中至关重要的一环。人工智能时代将彻底改变数据中心的现状。各类企业都积极探索如何利用生成式人工智能技术。这就要求他们拥有更先进、更安全、更高效的数据中心设施。超大规模是现代数据中心的理想用户群体,他们拥有资源和能力去寻找新的机遇,并利用最先进的技术来构建全新的基础设施。尽管如此,企业并不必局限于满足更少的需求。通过采用适当的技术来优化房地产使用,可以为人工智能时代改造规模较小的数据中心。这需要仔细考虑为人工智能应用提供动力的计算基础设
-
遮挡是计算机视觉很基础但依旧未解决的问题之一,因为遮挡意味着视觉信息的缺失,而机器视觉系统却依靠着视觉信息进行感知和理解,并且在现实世界中,物体之间的相互遮挡无处不在。牛津大学VGG实验室AndrewZisserman团队最新工作系统性解决了任意物体的遮挡补全问题,并且为这一问题提出了一个新的更加精确的评估数据集。该工作受到了MPI大佬MichaelBlack、CVPR官方账号、南加州大学计算机系官方账号等在X平台的点赞。以下为论文「AmodalGroundTruthandCompletionintheW
-
近一年来,随着大模型突飞猛进的发展,基于大模型的推理泛化能力的语言智能体(LanguageAgents)展示了通向AGI的巨大潜力。科研和开发者社区也涌现出各种语言智能体的框架和系统,如AutoGPT[1],LangChain[2],SuperAGI[3]等。这些系统能够接受人类提供的简单的指令之后自主规划和执行任务。尽管看起来很炫酷,这些框架和系统的都存在一个非常致命的通病:智能体的运行一旦开始,就几乎脱离了人类的控制,对任务规划和执行一旦出错,就会通过误差传播引起明显的滚雪球效应,因此任务失败概率很高
-
谷歌DeepMind号称打造出了首个能在广泛3D虚拟环境和视频游戏中遵循自然语言指令的通用AI智能体。名为SIMA,不是NPC,是可以成为玩家拍档,帮忙干活打杂的那种。比如,在《模拟山羊3》(GoatSimulator3)中当司机开开车:在《幸福工厂》(Satisfactory)中挖矿石:在《瓦尔海姆》(Valheim)中寻找水源:在《无人深空》中(NoMan’sSky)驾驶宇宙飞船射击小行星收集资源:……SIMA全称ScalableInstructableMultiworldAgent,顾名思义可扩展、
-
人形机器人明星公司Figure迎来了高光时刻!就在刚刚,OpenAI与Figure官宣合作,专为人形机器人打造下一代AI多模态模型。图片这项合作最大的目的是,增强机器人处理语言和推理的能力。上个月,机器人Figure01仅使用神经网络煮咖啡的视频走红全网。这一系统完全依靠学习实现,采用端到端的视觉运动策略,以每秒200帧的频率将图像输入转换为低级动作。图片此前视频中,训练10小时的Figure01能够从正确放置胶囊,到启动机器,流程非常娴熟。图片放置胶囊对于人类来说非常简单的动作,Figure01则需要不
-
为了扩大GenAI的使用,工业组织需要使部署易于使用,并将该技术集成到正常工作流程中。ChatGPT的上市让人们看到了生成式人工智能(GenAI)的力量和潜力。似乎所有类型的组织都接受了这项技术并正在使用。然而,提供简单问题(提示)的答案是一回事。真正的问题是,组织如何在不中断运营的情况下,安全有效地使用它来产生最大的影响?在处理这个问题之前,我们需要正确理解ChatGPT和GenAI的使用情况。ChatGPT自推出以来,用户数量迅速增长,仅两个月内就达到了1亿活跃用户,创下应用程序用户增长最快的记录。到
-
编辑|言征出品|51CTO技术栈(微信号:blog51cto)3月15日,腾讯混元和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。当前的图生视频大模型中,一般的生成方法不仅需要用户在提示词中描述运动区域,还需要提供运动指令的详细描述,过程较为复杂。另外,从生成的效果来看,现有图像生成视频技术在移动图像的指定部分上缺乏控制,生成的视频往往需要移动整个场景,而不是图
-
随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。来自字节和北大的一篇新论文在此时吸引关注:文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。论文还透露,截止2023年9月,字节已建立起超过