-
LLM很强,而为了实现LLM的可持续扩展,有必要找到并实现能提升其效率的方法,混合专家(MoE)就是这类方法的一大重要成员。最近,各家科技公司提出的新一代大模型不约而同地正在使用混合专家(MixtureofExperts:MoE)方法。混合专家这一概念最早诞生于1991年的论文《Adaptivemixturesoflocalexperts》,三十多年来已经得到了广泛的探索和发展。近年来,随着稀疏门控MoE的出现和发展,尤其是与基于Transformer的大型语言模型相结合,这种已有三十多年历史的技术焕发出
-
12月25日,昆仑万维AIAgents开发平台「天工SkyAgents」Beta版正式开放测试,用户可在https://model-platform.tiangong.cn/立即体验。昆仑万维「天工SkyAgents」AIAgents开发平台,基于昆仑万维「天工大模型」打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”,并能将不同任务模块化,通过操作系统模块的方式,实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http
-
近几年,有一种编程语言无处不在,它的大名无人不晓,网络上甚至鼓吹过学会它就能成为编程高手。它就是Python。学会Python,如有一宝:易于读写、兼容性强、丰富的库以及广泛的用途,它已经在数据和机器学习时代变得非常流行了。但是千万般好,Python还是有着自己的弊端的,那就是太慢了!编程语言有很多种,如C++、Fortran和Java是其中比较出名的,Python编写的程序相对于它们来说就是出了名的慢。马萨诸塞大学阿默斯特分校(UniversityofMassachusettsAmherst)的计算机科
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架!近期
-
更懂你的AI助手,让办公轻得自在。8月6日,科大讯飞举行“AI懂你,轻得自在”智能办公本新品发布会,正式发布科大讯飞智能办公本Air2系列。Air2深度融合了讯飞星火大模型能力,带来会议纪要、笔记分析、AI写作三大AI绝招;Air2也首次使用了语义转折点识别算法,大幅提升多人会议的分角色转写准确率;此外,Air2还拥有88.5%超大视觉屏占比,在轻薄便携的同时带来墨水屏视野“大”体验。轻薄超便携,88.5%超大屏占比Air2采用8.2英寸EInk墨水屏,超大
-
在当前AI领域,大语言模型采用的主流架构是Transformer。不过,随着RWKV、Mamba等架构的陆续问世,出现了一个很明显的趋势:在语言建模困惑度方面与Transformer较量的循环大语言模型正在快速进入人们的视线。令人兴奋的是,这些架构在推理期间使用了恒定量的内存。不过,受制于有限的内存,循环语言模型(LM)无法记忆并使用长上下文中的所有信息,这导致了上下文学习(in-contextlearning,ICL)质量的不佳。因此,获得高效大语言模型的关键挑战在于选择存储或者丢弃哪些信息。在最近的论
-
最近一段时间,生成式AI技术兴起,众多造车新势力都在探索视觉语言模型与世界模型的新方法,端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月,理想汽车发布了端到端+VLM视觉语言模型+世界模型的第三代自动驾驶技术架构。此架构已推送千人内测,将智能驾驶行为拟人化,提高了AI的信息处理效率,增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示,面对大部分算法难以识别和处理的罕见驾驶环境,VLM(VisualLanguageModel)即视觉语言模型可以系统地提升自动驾驶的能力,这种方法从理论上实现了突
-
7月25日,火山引擎2024“AI创新巡展”首站成都站透露了字节豆包大模型的最新进展:截至7月,豆包大模型日均Tokens使用量已突破5000亿,平均每家企业客户日均Tokens使用量较5月15日模型发布时期增长22倍。1.豆包大模型由字节跳动自研,原名“云雀”,是国内首批通过算法备案的大模型之一,目前通过字节跳动旗下云服务平台火山引擎面向企业提供服务。自发布之初,豆包大模型便主打使用量大、应用场景丰富。据火山引擎副总裁张鑫介绍,在字节内部,有超过50多个业
-
国内大模型的能力,又来到了一个新高度!6月27日,科大讯飞正式对外发布讯飞星火大模型V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。随着新版本的发布,讯飞星火V4.0七大核心能力全面升级,在8个国际主流测试集中排名第一,整体超越GPT-4Turbo,领先国内大模型。刘庆峰称,当前,星火APP下载量已经达到了1.31亿,涌现出一批用户喜爱的应用助手。在星火大模型的加持下,部分场景下的智能硬件销量同比增长70%+,月均使用时次数超过4000万。另外,星火V4.0大模型是基于全国首个国产万卡算力集群「
-
9月3日,火山引擎AI创新巡展活动在天津举办,来自教育、交通、医疗等各领域的客户分享了大模型应用实践。南开大学副校长、教授、博士生导师方勇纯表示:“南开大学携手火山引擎,共同探索‘AI+教育’的创新模式,落地一批AI应用场景,培养一支高水平的AI人才队伍,全场景拥抱大模型,推进‘数字南开’智慧校园建设。”据介绍,南开大学与火山引擎协同研发了大模型应用开发平台,现已落地并开放给南开的广大师生。同时,学校在教学、科研和管理服务等场景中应用
-
2023年,Anthropic发布了负责任扩展策略(ResponsibleScalingPolicy,RSP),这是一系列技术和组织协议,Anthropic将采用这些协议来帮助他们管理开发功能日益强大的AI系统。Anthropic认为,AI模型一方面变得越来越强大,创造巨大的经济和社会价值,另一方面也带来了严重的风险。RSP将专注于灾难性风险——即人工智能模型直接造成大规模破坏的风险。此类风险可能来自故意滥用模型(例如恐怖分子用它来制造生物武器),也可能来自模型以违背其设计者意图的
-
近日,苹果公司在HuggingFace上发布了20个新的CoreML模型和4个数据集,字节大模型团队的单目深度估计模型DepthAnythingV2入选其中。CoreML苹果公司的机器学习框架,用于将机器学习模型集成到iOS、MacOS等设备上高效运行。在无需互联网连接的情况下执行复杂的AI任务,增强用户隐私并减少延迟。苹果开发者可通过这些模型构建智能、安全的AI应用。DepthAnythingV2字节大模型团队开发的单目深度估计模型。V2版细节处理更精细,鲁棒性更强,速度显著提升。包含25M到1.3B参
-
大模型正引领新一轮的研究热潮,业界和学术界都涌现出了众多的创新成果。小红书技术团队也在这一浪潮中不断探索,多篇论文研究成果在ICLR、ACL、CVPR、AAAI、SIGIR、WWW等国际顶会上频频亮相。在大模型与自然语言处理的交汇处,我们发现了哪些新机遇和挑战?对于大模型,有哪些有效的评测方法?它又如何更好地融入到应用场景中的呢?6月27日19:00-21:30,【REDtech来了】第十一期《小红书2024大模型前沿论文分享》线上开播!REDtech特别邀请了小红书社区搜索团队来到直播间,他们将分享6篇
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方向是基于A
-
6月26日,“Make2024钉钉生态大会”在北京举办。会上,钉钉宣布对所有大模型厂商开放,构建中国最开放AI生态。除了通义大模型外,MiniMax、月之暗面、智谱AI、猎户星空、零一万物、百川智能六家大模型厂商已经与钉钉达成合作。目前,钉钉生态伙伴总数超过5600家,其中AI生态伙伴已经超过100家;钉钉AI每天调用量超1000万次。钉钉总裁叶军表示:“模型开放是钉钉生态开放战略的再进一步。随着行业从模型创新走向应用创新,探索大模型的应用场景是钉钉的责任所在。钉钉拥有