-
如果试题太简单,学霸和学渣都能考90分,拉不开差距……随着Claude3、Llama3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard,引起广泛关注。Llama3的两个指令微调版本实力到底如何,也有了最新参考。与之前大家分数都相近的MTBench相比,Arena-Hard区分度从22.6%提升到87.4%,孰强孰弱一目了然。Arena-Hard利用竞技场实时人类数据构建,与人类偏好一致率也高达89.1%。除了上面
-
元象发布XVERSE-MoE-A4.2B大模型,采用业界最前沿的混合专家模型架构(MixtureofExperts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,让海量中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。GPT3、Llama与XVERSE等主流大模型发展遵循规模理论(ScalingLaw),在模型训练和推理的过程中,单次前向、反向计算时,所有参数都被激活,这被称为稠密激活(denselyactivated)。当模型
-
对3D场景的全面理解在自动驾驶中至关重要,最近的3D语义占用预测模型已经成功地解决了描述具有不同形状和类别的真实世界物体的挑战。然而,现有的3D占用预测方法在很大程度上依赖于全景相机图像,这使得它们容易受到照明和天气条件变化的影响。通过集成激光雷达和环视雷达等附加传感器的功能,本文的框架提高了占用预测的准确性和稳健性,从而在nuScenes基准上获得了顶级性能。此外,在nuScene数据集上进行的广泛实验,包括具有挑战性的夜间和雨天场景,证实了我们的传感器融合策略在各种感知范围内的卓越性能。论文链接:ht
-
这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致分为两种策略:2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征,但深度预测的固有不确定性,尤其是在远处区域,可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征,并通过Transformer学习3D和2D特征之间对应关系的注意力权重,这增加了计算和部署的复杂性。论
-
引言如图1所示,现有的三阶段RGB-T单目标跟踪网络通常采用两个独立的特征提取分支,分别负责提取两个模态的特征。然而,相互独立的特征提取分支会导致两个模态在特征提取阶段存在缺乏有效的信息交互。因此,一旦网络完成离线训练,其只能从每个模态图像中提取固定的特征,无法根据实际的模态状态动态调整,以提取更具针对性的动态特征。这一局限性约束了网络对多样的目标双模态外观,以及模态外观之间动态对应关系的适应能力。如图2所示,这种特征提取方式并不适合RGB-T单目标跟踪的实际应用场景,特别是在复杂环境下,因为被跟踪目标的
-
人工智能(AI)在各个领域持续快速发展,其在各个领域的应用日益明显。预计到2030年,人工智能领域将彻底改变众多行业,改变企业运营方式,提高效率、生产力和创新。本文将探讨一些准备在未来十年利用人工智能力量的顶级行业。医疗保健:到2030年,医疗保健行业将从人工智能驱动的技术中受益匪浅。人工智能驱动的诊断工具可以分析医学图像,例如X射线和MRI扫描,其准确性和速度比人类放射科医生更高,从而可以更早地检测到疾病并改善患者的治疗结果。此外,人工智能算法可以帮助医疗保健提供者根据患者的基因图谱和病史制定个性化的治
-
在过去几年中,特别是在COVID-19大流行之后,随着对设施管理人员的期望发生变化以及可持续需求的扩大,建筑管理面临着不断增加和演变。从办公室到更加混合和灵活的工作环境的转变改变了商业建筑的使用方式,需要实时了解建筑使用情况、居住趋势等。不断变化的建筑管理格局表明,迅捷适应新的灵活环境,同时提高整体生产力和性能的解决方案。智能建筑评估自己的设施和改进机会,智能建筑成为一种日益增长的趋势,它不仅有可能简化运营,还可以降低成本并提高所有人的可见性。利用物联网(IoT)、人工智能(AI)、自动化等技术,智能建筑
-
虽然大型语言模型(LLM)在各种常见的自然语言处理任务中展现出了优异的性能,但随之而来的幻觉也揭示了模型在真实性和透明度上仍然存在问题。尽管LLM在某些任务上准确无误地完成了指定的任务,但其输出结果并非总是可靠的。它可能会生成看似合理但事实上是错误或误导性的文本。这些错误可能是因为模型在训练过程中没有接触到足够多的可在模型生成错误回复内容时,可以尝试“深入理解其背后机制”,解决模型的幻觉问题。深度神经网络的复杂性和模型的增长,使得通过探索机器学习(ML)模型对所学内容的hiddenrepresentati
-
Open-Sora在开源社区悄悄更新了,现在支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来尝试尝试效果。生成个横屏圣诞雪景,发b站再生成个竖屏,发抖音还能生成16秒的长视频,这下人人都能过把编剧瘾了怎么玩?指路GitHub:https://github.com/hpcaitech/Open-Sora更酷的是,Open-Sora依旧全部开源,包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率
-
语言模型是否会规划未来token?这篇论文给你答案。「别让YannLeCun看见了。」YannLeCun表示太迟了,他已经看到了。今天要介绍的这篇「LeCun非要看」的论文探讨的问题是:Transformer是深谋远虑的语言模型吗?当它在某个位置执行推理时,它会预先考虑后面的位置吗?这项研究得出的结论是:Transformer有能力这样做,但在实践中不会这样做。我们都知道,人类会思考而后言。十年的语言学研究表明:人类在使用语言时,内心会预测即将出现的语言输入、词或句子。不同于人类,现在的语言模型在「说话」
-
写在前面&出发点端到端的范式使用统一的框架在自动驾驶系统中实现多任务。尽管这种范式具有简单性和清晰性,但端到端的自动驾驶方法在子任务上的性能仍然远远落后于单任务方法。同时,先前端到端方法中广泛使用的密集鸟瞰图(BEV)特征使得扩展到更多模态或任务变得困难。这里提出了一种稀疏查找为中心的端到端自动驾驶范式(SparseAD),其中稀疏查找完全代表整个驾驶场景,包括空间、时间和任务,无需任何密集的BEV表示。具体来说,设计了一个统一的稀疏架构,用于包括检测、跟踪和在线地图绘制在内的任务感知。此外,重新
-
昨日,昆仑万维AI音乐生成大模型“天工SkyMusic”开启了免费邀测活动。诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验SOTA的音乐大模型产品。该产品能够让用户产生身临其境的体验,同时共同体验人声情感表达。邀测开始后,广大用户对“天工SkyMusic”AI音乐生成大模型的期望很高。工作人员在极短时间内收到了数十万份测试申请,其中包括众多专业的音乐创作人、媒体及行业专家。同时,还有大量测试申请源源不断地发至后台。在申请中,包括众多专业的音乐创作人、媒体及行业专家,还有大量的测试申请需要被源源不断地筛
-
上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。却没想到发布几小时之后,立马被删除了。有网友突然发现,WizardLM的模型权重、公告帖子全部被删除,并且不再微软集合中,除了提到站点之外,却找不到任何证据证明这个微软的官方项目。GitHub项目主页已成404。项目地址:https://wizardlm.github.io/包括模型在HF上的权重,也全部消失了.....全网满脸疑惑,WizardLM怎么没了?然鹅,微软之所以这么做,是因为团队内部忘记对模型做「测试」。随后,微软团队现身
-
华为云于4月23日成功举办华为云峰会,在香港提供即开即用的AI云服务,为大模型训练和推理提供高效、长稳、可靠的AI算力。华为云表示,其基础设施将通过全链路云化工具链支持大模型高效迁移、开发和高效运行,并提供针对昇腾云进行特别优化的大模型专区,使能“百模千态”应用快速落地。华为云全球Marketing与销售服务总裁石冀琳在活动中。华为云全球Marketing与销售服务总裁石冀琳表示:香港AI产业发展具备良好的基础,拥有一流的高校资源和科研机构,以及开放的经济体制和国际化的商业环境,吸引了全球顶尖人才和企业在
-
天降猛男,大模型化身为“痴情男大”,等待人类玩家的拯救。一款名为“拯救舔狗”的大模型原生小游戏出现了。游戏规则很简单:如果玩家在几轮对话内说服“他”放弃追求对他并无青睐的女神,就算挑战成功。听起来并不难,然而游戏源于生活,模型人设是痴情属性,相当油盐不进且自我攻略,在长达近一个小时的“劝说”中,大模型“好友”偶有松动但又要坚持的态度很有些现实意味。实战拯救痴心“舔狗&rdqu