-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者是来自OpenSearch中国研发团队的机器学习负责人杨扬博士以及机器学习工程师耿志超和管聪。OpenSearch是一个由亚马逊云科技发起的纯开源搜索和实时分析引擎项目。目前软件
-
Meta搞了个很牛的LLMCompiler,帮助程序员更高效地写代码。昨天,三大AI巨头OpenAI、Google、Meta组团发布自家大模型最新研究成果——OpenAI推出基于GPT-4训练的专门找bug的新模型CriticGPT,谷歌开源9B、27B版Gemma2,而Meta则拿出了一项最新的人工智能突破——LLMCompiler。这是一套强大的开源模型,旨在优化代码并彻底改变编译器设计。这项创新有可能改变开发者处理代码优化的方式,使其更快、更高效、更经
-
近日,云从科技从容大模型在综合评测权威平台OpenCompass的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的Gemini-1.5-Pro和GPT-4v,仅次于GPT-4o(69.9)和Claude3.5-Sonnet(67.9)。而在国内市场,从容大模型的成绩也超过了InternVL-Chat(61.7)和GLM-4V(60.8),排名首位。1.OpenCompass多模态榜单OpenCompass大
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架!近期
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者张天宇,就读于加拿大Mila人工智能研究所,师从图灵奖得主YoshuaBengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。
-
性能翻倍的Gemma2,让同量级的Llama3怎么玩?AI赛道上,科技巨头们激烈角逐。前脚有GPT-4o问世,后脚就出现了Claude3.5Sonnet。如此激烈的争斗中,谷歌虽然发力较晚,但在短时间内就能有显著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包括CodeGemma、RecurrentGemma和PaliGe
-
近日,苹果公司在HuggingFace上发布了20个新的CoreML模型和4个数据集,字节大模型团队的单目深度估计模型DepthAnythingV2入选其中。CoreML苹果公司的机器学习框架,用于将机器学习模型集成到iOS、MacOS等设备上高效运行。在无需互联网连接的情况下执行复杂的AI任务,增强用户隐私并减少延迟。苹果开发者可通过这些模型构建智能、安全的AI应用。DepthAnythingV2字节大模型团队开发的单目深度估计模型。V2版细节处理更精细,鲁棒性更强,速度显著提升。包含25M到1.3B参
-
国内大模型的能力,又来到了一个新高度!6月27日,科大讯飞正式对外发布讯飞星火大模型V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。随着新版本的发布,讯飞星火V4.0七大核心能力全面升级,在8个国际主流测试集中排名第一,整体超越GPT-4Turbo,领先国内大模型。刘庆峰称,当前,星火APP下载量已经达到了1.31亿,涌现出一批用户喜爱的应用助手。在星火大模型的加持下,部分场景下的智能硬件销量同比增长70%+,月均使用时次数超过4000万。另外,星火V4.0大模型是基于全国首个国产万卡算力集群「
-
DiT都能用,生成视频无质量损失,也不需要训练。实时AI视频生成来了!本周三,新加坡国立大学尤洋团队提出了业内第一种可以实时输出的,基于DiT的视频生成方法。该技术名为PyramidAttentionBroadcast(PAB)。通过减少冗余注意力计算,PAB实现了高达21.6FPS的帧率和10.6倍的加速,同时不会牺牲包括Open-Sora、Open-Sora-Plan和Latte在内的流行基于DiT的视频生成模型的质量。值得注意的是,作为一种不需要训练的方法,PAB可以为任何未来基于DiT的视频生成模
-
来自清华大学AIR、北京大学、南京大学的研究团队提出了ESM-AA模型。该模型在蛋白质语言建模领域取得了重要进展,提供了一套整合多尺度信息的统一建模方案。它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。模型的出色性能展示了多尺度统一建模在克服现有局限和解锁新能力方面的巨大潜力。作为基座模型,ESM-AA获得了多位学者的关注与广泛讨论(截图见下方),被认为有潜力基于ESM-AA开发出可与AlphaFold3、RoseTTAFoldAll-Atom相竞争的模型,为研究不同生物结构间的相互作用开辟
-
来自清华大学AIR、北京大学、南京大学的研究团队提出了ESM-AA模型。该模型在蛋白质语言建模领域取得了重要进展,提供了一套整合多尺度信息的统一建模方案。它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。模型的出色性能展示了多尺度统一建模在克服现有局限和解锁新能力方面的巨大潜力。作为基座模型,ESM-AA获得了多位学者的关注与广泛讨论(截图见下方),被认为有潜力基于ESM-AA开发出可与AlphaFold3、RoseTTAFoldAll-Atom相竞争的模型,为研究不同生物结构间的相互作用开辟
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者李宏康,美国伦斯勒理工大学电气、计算机与系统工程系在读博士生,本科毕业于中国科学技术大学。研究方向包括深度学习理论,大语言模型理论,统计机器学习等等。目前已在ICLR/ICML/
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com皮仁杰:香港科技大学博士三年级学生,师从张潼教授和周晓方教授。于2024年获得苹果奖学金。目前主要研究方向是多模态大语言模型和数据为中心的AI。张鉴殊:武汉大学本科三年级学生,目前在张潼
-
编辑|萝卜皮在药物研发中,确定小分子配体对蛋白质的结合亲和力和功能效应至关重要。目前的计算方法可以预测这些蛋白质-配体相互作用特性,但如果没有高分辨率的蛋白质结构,通常会失去准确性,并且无法预测功能效应。莫纳什大学和格里菲斯大学的研究人员开发了PSICHIC(PhySIcoCHemICalgraphneuralnetwork),这是一个结合物理化学约束的框架,可直接从序列数据解码相互作用指纹。这使PSICHIC能够解码蛋白质-配体相互作用背后的机制,实现最先进的准确性和可解释性。在没有结构数据的相同蛋白质
-
就像动物有了眼睛,谢赛宁YannLeCun团队的Cambrian-1能让AI获得强大的视觉表征学习能力。古往今来,许多哲学家都探究过这个问题:理解语言的含义是否需要以感官为基础?尽管哲学家们看法不一,但有一点却不言而喻:坚实有效的感官定基(grounding)至少能带来助益。比如科学家们普遍相信,寒武纪大爆发期间视觉的出现是早期动物演化的关键一步;这不仅能帮助动物更好地找寻食物和躲避捕食者,而且还有助于动物自身的进化。事实上,人类(以及几乎所有动物)的大多数知识都是通过与物理交互的感官体验获取的,比如视觉