-
近期,来自字节跳动的视频生成模型Loopy,一经发布就在X上引起了广泛的讨论。Loopy可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。Loopy模型采用了Diffusion视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以实现准确的音频和口型同步,还可以生成细微自然的表情动作,例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到;在唱歌时也能表现得活灵活现,驾
-
9月10日凌晨,Apple年度旗舰新品iPhone16系列在天猫全球同步首发。目前,iPhone16、iPhone16Plus、iPhone16Pro及iPhone16ProMax等新品已在天猫AppleStore官方旗舰店启动预约,售价分别为5999元起、6999元起、7999元起及9999元起。9月13日晚8点开始预售。1.今年消费者在天猫AppleStore官方旗舰店购买iPhone16系列更划算,新品首发期,即首次支持24期分期免息,合每天仅需8元左右,货量充足。此外,通过天猫平台以旧换新购买新i
-
2023年,Anthropic发布了负责任扩展策略(ResponsibleScalingPolicy,RSP),这是一系列技术和组织协议,Anthropic将采用这些协议来帮助他们管理开发功能日益强大的AI系统。Anthropic认为,AI模型一方面变得越来越强大,创造巨大的经济和社会价值,另一方面也带来了严重的风险。RSP将专注于灾难性风险——即人工智能模型直接造成大规模破坏的风险。此类风险可能来自故意滥用模型(例如恐怖分子用它来制造生物武器),也可能来自模型以违背其设计者意图的
-
近日,据火山引擎官方公众号透露,新能源汽车品牌赛力斯已接入字节豆包大模型,借助豆包大模型强大的自然语言理解能力,提升对用户反馈的服务效率和质量。据介绍,赛力斯携手字节跳动旗下云服务平台火山引擎,共创用户之声管理平台(VOC:VoiceofCustomers)。依托于豆包大模型的理解、分类、总结能力,VOC分析工作由人工承接转为模型承接,再由运营和业务人员根据分析结果对服务进行改进和优化。豆包大模型可对反馈内容做上下文理解,并作出情绪正负向判定,避免人工主观漏判和误判;并且,豆包大模型能基于火山引擎沉淀的6
-
党的二十大以来,上海市委市政府在“全球科创中心”建设工作中,再次明确了人工智能、大数据、元宇宙等数字科技作为重大科技创新任务的重点领域。举办上海人工智能大会,是上海乃至长三角地区的政府部门、专业组织、科研院所高校、科技创新企业等各方面力量共同谋划人工智能技术和数字产业发展的重要平台,也是推动长三角数字技术产业多要素深度融合的重要途径,协同推进数字产业化和产业数字化,营造良好数字生态,为上海建设全球科创中心、率先实践数字中国建设打下坚实科技和产业基础。2024第八届上海人工智能大会暨
-
人工设计提示词太麻烦了!想过让LLM帮你设计用于LLM的提示词吗?近日,自称生成式AI黑带选手的谷歌研究者HeikoHotz发布了一篇长文,详细介绍了自动提示词工程的概念、原理和工作流程,并通过代码从头实现了这一方法。自动提示词工程是什么?自动提示词工程(APE)是指自动生成和优化LLM提示词的技术,目标是提升模型在特定任务上的性能。其基于提示词工程的思路,即编写多个不同的提示词并对其进行测试,只不过是让整个过程自动化。后面我们会看到,这个过程非常类似于传统监督式机器学习中的自动超参数优化。本文将深度介绍
-
像听书一样「读」论文。先来听一段英文播客,内容是不是很熟悉?是的,这俩人就是在聊那篇《AttentionisAllYouNeed》。在4分半的对话里,他们介绍了论文的核心内容,一问一答,听上去相当自然。播客原址:https://illuminate.google.com/home?pli=1&play=Pa5iGH1___bGy1实际上,播客中对谈的双方都是AI,生成这段四分钟音频内容的产品是Illuminate,来自谷歌。Illuminate是一个将学术论文转化为人工智能生成的音频讨论的项目。
-
探讨AI(人工智能)的思维方式,实际上是在探讨AI系统如何模拟、扩展甚至在某些方面超越人类的认知能力。虽然AI与人类的思维方式存在本质差异,但我们可以从几个维度来尝试理解和描述AI的“思维方式”。数据驱动与模式识别AI系统的核心在于其强大的数据处理能力。它们通过收集和分析大量数据来识别其中的模式和规律。这种数据驱动的思维方式使得AI能够在复杂的信息环境中做出快速而准确的决策。例如,在图像识别任务中,AI会分析像素级的图像数据,通过卷积神经网络等模型提取特征,并基于这些特征进行分类和识别。逻辑推理与规则应用
-
9月3日,火山引擎AI创新巡展活动在天津举办,来自教育、交通、医疗等各领域的客户分享了大模型应用实践。南开大学副校长、教授、博士生导师方勇纯表示:“南开大学携手火山引擎,共同探索‘AI+教育’的创新模式,落地一批AI应用场景,培养一支高水平的AI人才队伍,全场景拥抱大模型,推进‘数字南开’智慧校园建设。”据介绍,南开大学与火山引擎协同研发了大模型应用开发平台,现已落地并开放给南开的广大师生。同时,学校在教学、科研和管理服务等场景中应用
-
训练代码、中间checkpoint、训练日志和训练数据都已经开源。尽管大语言模型(LM)在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的LM是无法访问的,因为它们的构建和部署成本过高。改善成本-性能的一种方法是使用稀疏激活混合专家(MoE)。MoE在每一层都有几个专家,每次只激活其中的一个子集(参见图2)。这使得MoE比具有相似参数量的密集模型更有效,因为密集模型为每个输入激活所有参数。出于这个原因,行业前沿模型包括Gemini-1.5、GP
-
大模型落地持续加速中。9月5日,腾讯宣布推出新一代大模型“混元Turbo”,相比前代模型,腾讯混元Turbo性能显著提升,训练效率提升108%,推理效率提升100%,推理成本降低50%,效果在多个基准测试上对标GPT-4o,且第三方测评居国内第一。目前,混元Turbo已经在腾讯云上线,输入和输出价格只有前代模型的一半。企业和开发者可以通过API、专属模型、精调模型等方式使用混元大模型相关能力。腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,随着大模型与生成式AI的技术突
-
机器之能报道编辑:杨文「暴打」海马体照相馆?现代年轻人都有个心照不宣的共识:拍证件照,就要做好「毁容」的准备。因为它总能掀起你的减龄刘海,让脸看上去像被车碾过一样……AI来拯救废片了。比如,去年火遍全网的妙鸭相机,只需上传几张照片,就能直出时尚大片。再比如,最近的一个AI证件照项目——「HivisionIDPhotos」,不仅可以实现轻量级抠图,还能生成不同尺寸的证件照。甚至,它还能生成方便打印的六寸排版照。此外,一键美颜、智能换正装的功能未来也会上线。更重要的是,它是真省钱。要知道,淘宝上随随便便拍个证
-
新华社上海9月8日电(记者董雪、温竞华)中国科学技术发展战略研究院8日在2024浦江创新论坛上发布《中国区域科技创新评价报告2024》。报告显示,我国区域科技创新水平进一步提升,多层次、各具特色的区域创新体系更加完善,有力支撑高水平科技自立自强和科技强国建设。报告从科技创新环境、科技活动投入、科技活动产出、高新技术产业化和科技促进经济社会发展等5个方面,选取12个二级指标和44个三级指标,对全国31个省、自治区、直辖市(不包括港澳台)综合科技创新水平进行评价,并对各地区科技创新发展态势进行分析研究。报告显
-
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLMAgents等。本论文上线几天内在github上斩获1
-
人工智能(AI)的底层逻辑涉及多个方面,主要包括计算机基础、数据处理、模型设计与训练、以及知识表示与推理等。以下是详细的解析:计算机基础二进制与逻辑运算:计算机使用二进制方式进行数据储存和处理,即用0和1表示不同的状态。通过电路中的逻辑门实现各种逻辑运算,这是计算机实现复杂功能的基础。神经网络:神经网络是人工智能的核心,用于模拟生物神经网络。它由多层神经元组成,每个神经元都是一种数学模型,负责接收和处理信息并向下一层神经元传递。神经网络能够从大量数据中学习,并通过相互连接的神经元来识别模式并进行决策。数据