-
1.第32届ACM国际多媒体学术会议(ACMInternationalConferenceonMultimedia,简称ACMMM)公布论文接收结果,网易伏羲最新研究成果《SelectionandReconstructionofKeyLocals:ANovelSpecificDomainImage-TextRetrievalMethod》入选。该论文研究方向涉及视觉语言预训练(VLP)、跨模态图文检索(CMITR)等领域。此次入选标志着网易伏羲实验室多模态能力再受国际认
-
七年前,论文《Attentionisallyouneed》提出了transformer架构,颠覆了整个深度学习领域。如今,各家大模型都以transformer架构为基础,但transformer内部运作原理,仍是一个未解之谜。去年,transformer论文作者之一LlionJones宣布创立人工智能公司SakanaAI。近期,SakanaAI发表了一篇题为《TransformerLayersasPainters》的论文,探究了预训练transformer中的信息流,并针对仅解码器和仅编码器冻结trans
-
近几年,有一种编程语言无处不在,它的大名无人不晓,网络上甚至鼓吹过学会它就能成为编程高手。它就是Python。学会Python,如有一宝:易于读写、兼容性强、丰富的库以及广泛的用途,它已经在数据和机器学习时代变得非常流行了。但是千万般好,Python还是有着自己的弊端的,那就是太慢了!编程语言有很多种,如C++、Fortran和Java是其中比较出名的,Python编写的程序相对于它们来说就是出了名的慢。马萨诸塞大学阿默斯特分校(UniversityofMassachusettsAmherst)的计算机科
-
智谱AI把自研打造的大模型给开源了。国内视频生成领域越来越卷了。刚刚,智谱AI宣布将与「清影」同源的视频生成模型——CogVideoX开源。短短几个小时狂揽4k星标。代码仓库:https://github.com/THUDM/CogVideo模型下载:https://huggingface.co/THUDM/CogVideoX-2b技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf7月26
-
更懂你的AI助手,让办公轻得自在。8月6日,科大讯飞举行“AI懂你,轻得自在”智能办公本新品发布会,正式发布科大讯飞智能办公本Air2系列。Air2深度融合了讯飞星火大模型能力,带来会议纪要、笔记分析、AI写作三大AI绝招;Air2也首次使用了语义转折点识别算法,大幅提升多人会议的分角色转写准确率;此外,Air2还拥有88.5%超大视觉屏占比,在轻薄便携的同时带来墨水屏视野“大”体验。轻薄超便携,88.5%超大屏占比Air2采用8.2英寸EInk墨水屏,超大
-
随着人工智能的迅猛发展,尤其是在自然语言处理(NLP)领域,大型语言模型(LLM)展示了巨大的变革潜力。这些模型正在改变我们的工作和交流方式,并在各种计算设备上展现出广泛的应用前景。然而,LLM巨大的模型给它在智能手机、物联网设备和车载系统等边缘设备上的应用带来了不小的挑战。我们的竞赛旨在推动LLM在资源受限的边缘设备上的性能、效率和多任务处理能力的极限。竞赛背景:虽然LLM具有巨大的应用潜力,但其庞大的参数对边缘设备的资源提出了严峻要求。例如,一个10B参数的LLM模型,即使经过量化处理,也需要高达20
-
北京时间7月31日下午2点整,XREAL系列AR眼镜的最新成员XREALAir2Ultra在国内正式发售,目前在京东、天猫和抖音等平台都已上线,首发价3999元。这款AR眼镜是主要面向开发者群体打造的旗舰级产品,旨在降低广大开发者进入空间计算的门槛,推动空间计算领域革新,建立更繁荣的AR生态体系。赋能开发者六大核心能力作为XREAL第二款6DoF(SixDegreesofFreedom,六自由度)全功能眼镜,XREALAir2Ultra也是目前业界唯一通过双环境感知传感器(SLAMCamera)来实现空间
-
AI真的已经危险到要如此监管的地步了吗?在创新的热土硅谷,李飞飞、吴恩达等AI科学家正在与监管部门展开一场关于安全与创新的拉锯战。这场拉锯战的核心是一个名叫SB-1047的法案。该法案的全称是「SafeandSecureInnovationforFrontierArtificialIntelligenceAct(《前沿人工智能模型安全创新法案》)」,试图为高风险的AI模型建立明确的安全标准,以防止其被滥用或引发灾难性后果。该法案于今年2月份在参议院被提出,随后引起了很大的争议。很多科学家认为,法案的条款过
-
继日前OpenAI发布SearchGPT之后,被点燃的“AISearch”赛道再迎一全新的重量级选手:阿里国际研发的AI驱动的B2B搜索引擎将于今年9月正式亮相。当下,AI的出现彻底改变了搜索的体验。而阿里国际的新产品将是全球首个专业版AI搜索引擎,其应用场景和商业价值非常明确:专注于全球B2B电商,面向全世界的中小企业主群体,意在改变全球采购流程,使之更加直观和高效。它能用主动理解采购者的自然语言,并转化为专业的采购请求。更进一步,它还能根据全球市场数据预测需求、提供建议,实现更
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文第一作者为斯坦福大学研究生蔡闻骁,此前,他以绩点第一名的成绩在东南大学取得学士学位。他的研究兴趣为多模态大模型、具身智能。此工作为其在上海交通大学访问和北京智源人工智能研究院实习期间
-
由佐治亚理工EIC实验室与Nvidia公司联合举办的LLM4HWDesign@ICCAD2024大赛正式启动!此次比赛旨在推动大语言模型(LLM)在辅助硬件设计中的性能,诚邀各界精英踊跃参与,共同探索自动化数据生成、收集、清洗和标注的方法,构建一个开源、大规模、高质量的硬件代码数据集,实现LLM辅助硬件设计领域的革命性变革。竞赛目标大赛主要目标是:通过探索构建和标注数据集的方法,提升LLM在辅助硬件设计领域的性能和应用效果。解决数据收集、生成、筛选和标注等问题,实现高效的硬件设计自动化。提升LLM在辅助硬
-
北京大学与EVLO创新团队共同提出面向自动驾驶的四维时空预训练算法DriveWorld。该方法采用世界模型进行预训练,设计记忆状态空间模型进行四维时空建模,通过预测场景的占据栅格,降低自动驾驶面临的随机不确定性和知识不确定性。该论文已被CVPR2024接收。论文题目:DriveWorld:4DPre-trainedSceneUnderstandingviaWorldModelsforAutonomousDriving论文链接:https://arxiv.org/abs/2405.04390一、动机自动驾驶
-
最近一段时间,生成式AI技术兴起,众多造车新势力都在探索视觉语言模型与世界模型的新方法,端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月,理想汽车发布了端到端+VLM视觉语言模型+世界模型的第三代自动驾驶技术架构。此架构已推送千人内测,将智能驾驶行为拟人化,提高了AI的信息处理效率,增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示,面对大部分算法难以识别和处理的罕见驾驶环境,VLM(VisualLanguageModel)即视觉语言模型可以系统地提升自动驾驶的能力,这种方法从理论上实现了突
-
最近一段时间,生成式AI技术兴起,众多造车新势力都在探索视觉语言模型与世界模型的新方法,端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月,理想汽车发布了端到端+VLM视觉语言模型+世界模型的第三代自动驾驶技术架构。此架构已推送千人内测,将智能驾驶行为拟人化,提高了AI的信息处理效率,增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示,面对大部分算法难以识别和处理的罕见驾驶环境,VLM(VisualLanguageModel)即视觉语言模型可以系统地提升自动驾驶的能力,这种方法从理论上实现了突
-
经历过「千模大战」的喧嚣,一年半之后,生成式AI的应用层创新终于步入爆发期。年初的Sora激起一阵AI+视频生成的浪潮。涟漪未散,OpenAI新的SearchGPT又燃起了AI+搜索的战火。AI+搜索,这其实是生成式AI技术浪潮刚涌现时,大部分人对其应用的想象:改变传统的搜索引擎。这一战场上,Perplexity在另起炉灶,Google想着自我革新,Bing忙着乘势而起。如今,阿里国际也宣布入局,直接带来了一款新产品。但与其它所有人都不同,阿里国际的AI搜索切入了一个空白地带:涉及更多行业Know-How