-
一转眼,2024年已经过半。我们不难发现,AI尤其是AIGC领域出现一个越来越明显的趋势:文生图赛道进入到了稳步推进、加速商业落地的阶段,但同时仅生成静态图像已经无法满足人们对生成式AI能力的期待,对动态视频的创作需求前所未有的高涨。因此,文生视频赛道持续高热,尤其是自年初OpenAI发布Sora以来,以DiffusionTransformer(DiT)为底层架构的视频生成模型迎来了井喷期。在这一赛道,国内外视频生成模型厂商们正默默展开着一场技术竞速。在国内,一家成立于去年3月、专注于构建视觉多模态基础模
-
今年是AI视频生成爆发的元年,以Sora为代表的算法模型和产品应用不断涌现。短短几个月内,我们目睹了几十种视频生成工具的问世,基于AI的视频创作方式开始流行起来。但新技术也引发更多的挑战与质疑,除了大家熟知的“开盲盒”现象,AI所生成的视频内容也因可控性差、处理工作流繁琐而频频被诟病。OpenAI曾经邀请专业视频制作团队对Sora进行了测试,其中来自于多伦多的ShyKids团队,利用Sora制作了一个气球人主题的短片,把创意和AI技术进行了完美的结合,让人印象深刻。整个短片其实并不
-
生物神经网络有一个重要的特点是高度可塑性,这使得自然生物体具有卓越的适应性,并且这种能力会影响神经系统的突触强度和拓扑结构。然而,人工神经网络主要被设计为静态的、完全连接的结构,在面对不断变化的环境和新的输入时可能非常脆弱。尽管研究人员对在线学习和元学习进行了大量研究,但目前最先进的神经网络系统仍然使用离线学习,因为这与反向传播结合使用时更加简单。那么,人工神经网络是否也能拥有类似于高度可塑性的性质?来自哥本哈根信息技术大学的研究团队提出了一种自组织神经网络——LNDP,能够以活动
-
生物神经网络有一个重要的特点是高度可塑性,这使得自然生物体具有卓越的适应性,并且这种能力会影响神经系统的突触强度和拓扑结构。然而,人工神经网络主要被设计为静态的、完全连接的结构,在面对不断变化的环境和新的输入时可能非常脆弱。尽管研究人员对在线学习和元学习进行了大量研究,但目前最先进的神经网络系统仍然使用离线学习,因为这与反向传播结合使用时更加简单。那么,人工神经网络是否也能拥有类似于高度可塑性的性质?来自哥本哈根信息技术大学的研究团队提出了一种自组织神经网络——LNDP,能够以活动
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者潘亮博士目前是上海人工智能实验室的ResearchScientist。此前,在2020年至2023年,他于新加坡南洋理工大学S-Lab担任ResearchFellow,指导老师为
-
语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事实似乎也果然如此:强大如斯的LLM并不能很好地处理时序数据。时序,即时间序列,顾名思义,是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何使用大型语言模型(LLM)来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序列数据中的
-
第一个提出自动驾驶并进行研发的公司是Google,巧的是,它发布的Transformer模型也为今天的大模型发展奠定了基础。自动驾驶已经完成从概念到现实的华丽转变,彻底重塑了传统驾车方式,而大模型行业正在经历的,恰如自动驾驶技术发展的传奇征程——最顶尖的研发团队竞相投身其中、不断加速抢跑的技术产品创新,以及持续被推向极致的用户体验。在大模型赛道中,有一家企业始终以领先的身位,推动着行业边界向前拓展。为什么是联汇科技?当行业刚开始关注大模型,他们已经锚定多模态大模型,并高分取得了工信
-
7月4日,在2024世界人工智能大会上,具身智能公司穹彻智能Noematrix(展位号:H1-A715)宣布推出穹彻具身大脑NoematrixBrain,加速具身智能大模型落地。结合实体机器人,穹彻在完全开放的环境中向现场观众近距离展示了“随手一扔就能叠的衣物折叠”(无限自由度物体操作,复杂物体理解堪比人类)和“削完就能吃的黄瓜削皮”(不规则曲面操作,精细度甚至超越人类水平)等突破性技术,以及家庭地面整理等落地应用。通过这些实时演示和真实互动,穹彻具身大脑的
-
检索增强式生成(RAG)是一种使用检索提升语言模型的技术。具体来说,就是在语言模型生成答案之前,先从广泛的文档数据库中检索相关信息,然后利用这些信息来引导生成过程。这种技术能极大提升内容的准确性和相关性,并能有效缓解幻觉问题,提高知识更新的速度,并增强内容生成的可追溯性。RAG无疑是最激动人心的人工智能研究领域之一。有关RAG的更多详情请参阅本站专栏文章《专补大模型短板的RAG有哪些新进展?这篇综述讲明白了》。但RAG也并非完美,用户在使用时也常会遭遇一些「痛点」。近日,英伟达生成式AI高级解决方案架构师
-
7月5日,2024世界人工智能大会暨人工智能全球治理高级别会议—“盘古大模型重塑千行万业”分论坛于上海世博中心举办。在“盘古大模型做难事解难题,以‘智’重塑千行万业”主题演讲中,华为云Marketing部部长董理斌向出席会议的百余名人工智能领域顶尖专家、业界领军人物分享了盘古大模型5.0的全新能力,以及盘古大模型深入高铁、钢铁、工业设计、建筑设计、气象等领域,重塑千行万业的应用进展。他表示,盘古大模型5.0通过更多的模态和
-
7月4日,2024世界人工智能大会在上海拉开帷幕。教育科技公司网易有道惊艳亮相,在大会现场全新AI大模型学习硬件“有道词典笔X7”重磅登场,标志着词典笔开启全科辅导新时代。在有道展台上,除了首秀的有道词典笔X7,一系列令人瞩目的创新成果悉数展出。既是听力神器、又是口语教练的听力宝E6Pro,全球首个虚拟人口语私教HiEcho,首个高度集成化智能体育终端有道趣动屏等基于国内首个教育大模型“子曰”的十余款最新应用惊艳亮相,展现了网易有道在教育科技融合创新方面的深
-
2024年7月5日,上海——2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC2024)战略合作伙伴商汤科技召开“大爱无疆・向新力”人工智能论坛,发布国内首个所见即所得模型“日日新5o”,交互体验对标GPT-4o,实现全新AI交互模式。通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,国内首个所见即所得模型“日日新5o”带来一种全新的AI交互模式,即实时的流式多模态交互。现场也为大家展示了这
-
7月5日,在2024世界人工智能大会“可信大模型论坛”上,支付宝公布了其AI技术在医疗领域布局的最新进展:发布多模态医疗大模型,同时,全新推出包括医疗可信一体机、可信云等多款数智化解决方案。现场,支付宝还与人民卫生出版社、北京大学医学部、浙江省卫生健康委等20家机构,联合发起AI医疗共建计划,共同探索AI数智技术底座与创新应用服务。支付宝多模态医疗大模型亮相经过半年多测试打磨,支付宝医疗大模型正式亮相,这也是国内首批多模态医疗大模型之一。蚂蚁集团大模型应用部总经理顾进杰介绍了背后的
-
7月5日,在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上,蚂蚁集团公布了其自研的百灵大模型最新研发进展:百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。原生多模态被认为是通往AGI的必经之路,在国内,目前只有为数不多的大模型厂商实现了这一能力。记者从大会现场的演示看到,多模态技术可以让大模型更像人一样感
-
编辑|KX蛋白质的动力学对于理解其机制至关重要。然而,通过计算预测蛋白质动学信息具有挑战性。在此,来自山东大学、百图生科(BioMap)、北京理工大学、湖北医药学院、宁夏医科大学和阿卜杜拉国王科技大学(KAUST)的研究团队,提出了一个神经网络模型RMSF-net,其优于以前的方法,并在大规模蛋白质动力学数据集中产生最佳结果;该模型可以在几秒钟内准确推断出蛋白质的动力学信息。通过从实验蛋白质结构数据和低温电子显微镜(cryo-EM)数据集成中有效地学习,该方法能够准确识别低温电子显微镜图和PDB模型之间的