-
Attention机制是一种关键的序列数据处理算法,其主要目标是为序列中的每个元素分配权重,以便在计算输出时考虑它们的相对重要性。这种机制在自然语言处理、图像处理和其他领域都得到了广泛应用。接下来,我将简要介绍几种基于Attention机制的算法及其应用。1.Seq2Seq模型Seq2Seq模型是一种常用的机器翻译模型,使用encoder-decoder架构实现源语言句子到目标语言句子的转换。在该模型中,encoder将源语言句子编码为一个向量,而decoder则利用该向量生成目标语言句子。为了指导dec
-
建立会做视频的世界模型,也能通过Transformer来实现了!来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型——WorldDreamer。它可以完成多种视频生成任务,包括自然场景和自动驾驶场景,如文生视频、图生视频、视频编辑、动作序列生视频等。据团队介绍,通过预测Token的方式来建立通用场景世界模型,WorldDreamer是业界首个。它把视频生成转换为一个序列预测任务,可以对物理世界的变化和运动规律进行充分地学习。可视化实验已经证明,WorldDreamer已经深刻理解了通用世界
-
昨晚Meta发布了Llama38B和70B模型,Llama3指令调整模型针对对话/聊天用例进行了微调和优化,在常见基准测试中优于许多现有的开源聊天模型。比如,Gemma7B和Mistral7B。Llama+3模型对数据和规模进行了提升,达到了新的高度。它是在Meta最近发布的两个定制的24KGPU集群上,对超过15Ttoken的数据进行训练的。这个训练数据集比Llama2大7倍,包含多4倍的代码。这使得Llama模型的能力达到了目前的最高水平,它支持8K以上的文本长度,是Llama2的两倍。下面我将介绍6
-
在AI领域,扩展定律(Scalinglaws)是理解LM扩展趋势的强大工具,其为广大研究者提供了一个准则,该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。但不幸的是,扩展分析在许多基准测试和后训练研究中并不常见,因为大多数研究人员没有计算资源来从头开始构建扩展法则,并且开放模型的训练尺度太少,无法进行可靠的扩展预测。来自斯坦福大学、多伦多大学等机构的研究者提出了一种替代观察法:可观察的扩展定律(ObservationalScalingLaws),其将语言模型(LM)的功能与跨多个模型系列的下游
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本论文第一作者杜超群是清华大学自动化系2020级直博生。导师为黄高副教授。此前于清华大学物理系获理学学士学位。研究兴趣为不同数据分布上的模型泛化和鲁棒性研究,如长尾学习,半监督学习,迁移
-
LLM很强,而为了实现LLM的可持续扩展,有必要找到并实现能提升其效率的方法,混合专家(MoE)就是这类方法的一大重要成员。最近,各家科技公司提出的新一代大模型不约而同地正在使用混合专家(MixtureofExperts:MoE)方法。混合专家这一概念最早诞生于1991年的论文《Adaptivemixturesoflocalexperts》,三十多年来已经得到了广泛的探索和发展。近年来,随着稀疏门控MoE的出现和发展,尤其是与基于Transformer的大型语言模型相结合,这种已有三十多年历史的技术焕发出
-
1.上周,特斯拉在自动驾驶出租车发布会上展示了其Optimus人形机器人。Optimus在现场展现了智能性,包括跳舞、倒饮料和与与会者互动。然而,随后多家媒体证实,发布会上的Optimus机器人实际上是由特斯拉工程师远程操控的。这一消息引发了一些分析师和投资者的质疑,他们认为特斯拉的展示“不诚实”且具有误导性。尽管如此,英伟达Omniverse开发平台和仿真部门副总裁莱巴雷迪安认为,特斯拉Optimus值得赞扬,而不是批评。“我不确定有多少是远程操控的,但我必须说,即使是远程操控,以那种精确度控制机器人也
-
编辑|KX9月23日,IBM与NASA合作发布了一个用于天气和气候的新型通用AI模型PrithviWxC,该模型可以在台式计算机上运行,且开源。PrithviWxC具有23亿参数,使用MERRA-2数据集的160个变量开发而成。PrithviWxC采用创新的Transformer架构。研究人员在一系列具有挑战性的下游任务上测试了该模型,即:自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。由于其独特的设计和训练机制,PrithviWxC可以解决比现有天气AI模型更多的应用,潜在的应用包括根据当地天气
-
据最新消息,本田和日产正就潜在的合并进行商讨,旨在整合资源,应对日益激烈的全球电动汽车市场竞争。本田官方回应称,三家公司(本田、日产、三菱)正在探讨多种合作模式,目前尚未达成任何最终决定。日产汽车目前正经历第三次经营危机,已裁员9000人并进行高管调整。为应对产能过剩,日产计划到2025年3月底前,将美国产量较去年同期减少17%,影响其在密西西比州和田纳西州的工厂。报道指出,日产正寻求稳定的战略投资者,本田作为其电动汽车领域的合作伙伴,成为潜在候选。本田则计划大幅削减在中国市场的燃油车产能,约减少三分之一
-
在2024年理想AITalk上,理想汽车CEO李想就人工智能等前沿科技进行了深入解读。他指出,电动化和智能化是汽车产业的两大核心驱动力,而真正的智能化,离不开人工智能技术的赋能。李想透露,理想汽车每年投入百亿研发资金,其中一半用于人工智能领域的研发投入。他认为,大模型的崛起将深刻改变人类社会,互联网实现了信息平等,而人工智能将推动认知和知识的平等。他预测,汽车将从传统的交通工具,进化为人工智能时代下的智能空间。关于理想汽车的未来,李想表示,公司的目标是打造理想之家,而非进军Robotaxi领域。他相信,L
-
日产与本田潜在合并,鸿海介入难度大:专家建议转向欧洲市场据报道,日产汽车正考虑与本田汽车合并,并传出鸿海有意参与。对此,台湾资策会MIC分析师何心宇指出,日本政府自2020年起便积极推动两家车厂合并,而鸿海作为外资企业,介入谈判的可能性较低。他建议鸿海将投资重心转向欧洲小型车厂或一级供应商。何心宇分析,日产和本田的合并谈判已持续一段时间,双方发展策略存在差异。本田以发动机技术见长,而日产则更侧重电动车发展。此外,本田倾向独立运营,日产则更青睐股权合作。日产近年来面临诸多挑战,尽管销量增长,但营收停滞不前,
-
逸飞激光近期披露,前三季度合同负债达3.2亿元,同比增长73.22%。这主要源于订单预收款,表明公司订单充足,尤其圆柱电芯设备订单增长迅速。公司产能利用率保持高位运行。逸飞智能二期、江苏逸飞二期已投产,总部基地项目也在建设中。未来产能扩张将根据订单和市场需求灵活调整。关于新聚力,公司表示经营稳健,订单充裕,资源整合也在加速推进,预计将对业绩带来积极影响。公司正全力推进新聚力今年2400万元的业绩目标。新聚力已推出半导体AMHS系统,涵盖Stocker、ZipTower、OHT等核心设备,并实现部分国产替代
-
字节跳动与中山大学合作研发的ParGo模型,在多模态大语言模型(MLLMs)的视觉-语言连接方面取得突破,并被AAAI2025收录。该模型巧妙地融合全局和局部视觉信息,在多个权威基准测试中表现优异。AIxiv专栏持续发布前沿学术和技术内容,多年来已报道2000余篇来自全球顶尖高校和企业实验室的成果,致力于促进学术交流与传播。欢迎投稿或联系报道:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com以往的MLLMs多采用线性投影或多层感知机(MLP)将视觉特征直
-
达摩院“敏迭”求解器再夺能源电子产业创新大赛冠军!阿里巴巴达摩院自主研发的“敏迭”求解器,在第二届能源电子产业创新大赛的国产求解器技术专题赛中再次夺冠,展现了其卓越的性能和在关键领域的应用实力。“敏迭”求解器历经四年潜心研发,是一款全能力求解器,能够高效解决产业场景中的复杂问题,求解速度可达分钟甚至毫秒级,性能达到国际领先水平。目前已成功应用于电力调度、航班编排、高端制造和计算资源管理等关键领域。求解器被认为是“工业软件之芯”,其研发难度极高,长期以来被国外厂商垄断。此次大赛旨在推动国产求解器发展,
-
小米汽车宣布召回部分SU7标准版电动汽车,进行OTA升级以提升智能泊车辅助功能。此次召回涉及2024年2月6日至2024年11月26日期间生产的30931辆SU7标准版电动汽车。小米汽车将通过远程OTA升级的方式进行修复,无需车主到店。受影响车主将收到短信和APP通知,并可联系小米汽车客户服务热线了解详情。小米汽车解释称,尽管此次升级不涉及硬件更换,但为确保用户安全,公司仍按照召回程序进行操作。OTA升级旨在增强智能泊车系统的可靠性。需要注意的是,本次召回仅限于小米SU7标准版车型,其他版本不