6000 字详解华为盘古大模型:能否撑起世界 AI 另一极?
来源:搜狐
时间:2023-08-01 15:20:57 231浏览 收藏
最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《6000 字详解华为盘古大模型:能否撑起世界 AI 另一极?》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~
今天,华为在大模型领域狠狠秀了一把「肌肉」。
HDC 2023, Huawei Developer Conference, will commence on July 7th, 2023.。下午两个多小时的主题演讲里,华为云首次详细披露了盘古大模型的进展,不仅发布面向行业的盘古大模型 3.0,还详细介绍了华为发展大模型的基础技术能力。
盘古大模型 3.0 包括「5+N+X」三层架构,三层分别指 L0 层的 5 个基础大模型、L1 层的 N 个行业通用大模型、以及 L2 层可以让用户自主训练的更多细化场景模型。其采用完全的分层解耦设计,企业用户可以基于自己的业务需要选择适合的大模型开发、升级或精调,从而适配千行百业多变的需求。
华为轮值董事长胡厚崑在日前的 WAIC 大会上表示,华为发展大模型的核心是关注算力和应用。一方面是深耕算力,打造强有力的算力底座,来支撑中国的人工智能事业的发展。另一方面就是结合大模型,从通用大模型到行业大模型的研究创新,来真正让人工智能服务好千行百业,服务好科学研究。
华为是中国最早进入大型模型云服务领域的公司之一,早在2021年就已经发布了名为盘古的大型模型。在发展大模型的道路上,华为从最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等技术能力。
除了大模型和算力底座,会上,华为云还重点介绍了盘古大模型与具体行业结合的典型案例,涉及的行业包括政务、气象、铁路、制造、金融,以及多个升级、重塑华为云旗下软件产品和服务的应用案例。
不论是基础的技术能力,AI + 云的产品服务体系,还是落到具体行业的应用案例,华为云均展示出了高度成熟、成体系化的业务能力,这着实给行业带来惊喜。在大家还在争论谁是中国的 OpenAI 时,华为云已经开辟出了一条相当成熟的大模型发展道路。
华为在用自己的实践证明,大模型很重要,但更重要的是用大模型解决行业和产品的痛点问题,做出能让企业和用户买单的产品和服务,为千行百业真正创造价值。
盘古大模型 3.0:分层解耦架构
解耦,是今天发布的盘古大模型 3.0 的关键词。这也是过去几个月来,实际调用大模型的行业客户一个普遍的诉求。
一位头部 SaaS 厂商在发布自己的大模型升级应用时表示,「我们不自研大模型,而是在不同的业务场景中,哪个大模型擅长什么事情,就接那个模型。我们的产品架构必须与底层大模型无关,或者说具有松耦合性,以便在不同的大模型之间进行切换。」
「盘古大模型的解耦设计,就是为行业着想」,在华为开发者大会上,华为常务董事、华为云 CEO 张平安给出了盘古大模型的差异化路线。这句话的重写如下:重要的是将盘古大模型的各个层级和能力分离,让行业用户根据自身需求进行开发。
具体来说,盘古大模型 3.0 是一个面向行业的大模型系列,包括「5+N+X」三层架构:
「5」代表 L0 层的五个基础大模型:包括自然语言、视觉、多模态、预测、科学计算大模型,提供满足行业场景中的多种技能需求。
盘古 3.0 为客户提供 100 亿参数、380 亿参数、710 参数和 1000 亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。
「5+N+X」三层架构中的「N」,代表 L1 层的 N 个行业大模型。行业大模型的提供方式有两种:一方面,华为云可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;另一方面,可以基于行业客户的自有数据,在盘古大模型的 L0 和 L1 层上,为客户训练自己的专有大模型。
张平安表示:「盘古一出生就是为行业服务,提供了多种大模型的部署、开发和推理形态,可以像华为生成盘古大模型一样,生成自己的行业大模型,只需要输入自己的私有数据。」并且,训练数据也和大模型解耦。
「5+N+X」中的 X,则代表 L2 层为客户提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供「开箱即用」的模型服务。
通过「5+N+X」的这三层大模型,华为云构建了自己的大模型底座。
在昨天的世界人工智能大会上,华为轮值董事长胡厚崑形象地阐述道:「最基层对标的是通用大模型,我们叫做基础大模型。这层我们形象的叫做读万卷书,就是要做好海量的基础知识的学习。这一层之上还打造了行业模型和场景模型,叫做行万里路。从读万卷书到行万里路还有很多的挑战要克服,很关键的一点就是要把各行各业的知识与大模型进行充分的匹配和融合,华为正在和各个行业的伙伴一起进行努力。」
此外,大模型的创新不仅仅是模型自身的创新,更依赖于 AI 的各项根技术创新。会上,华为诺亚方舟实验室主任姚骏介绍了盘古大模型的技术底座。
华为在最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。借助华为的 AI 根技术,大型模型训练效率可以提升至业界主流 GPU 的1.1倍。
算力是训练大模型的基础。在本次大会上,张平安宣布单集群 2000P Flops 算力的昇腾 AI 云服务在华为云的乌兰察布和贵安 AI 算力中心同时上线。昇腾 AI 云服务除了支持华为全场景 AI 框架昇思 MindSpore 外,还支持 Pytorch、Tensorflow 等主流 AI 框架。
在华为的昇腾平台上,90%的算子可以通过端到端的迁移工具平稳地迁移到该平台上。例如,美图仅用 30 天就将 70 个模型迁移到了昇腾,同时华为云和美图团队一起进行了 30 多个算子的优化以及流程的并行加速,AI 性能较原有方案提升了 30%。
此外,在大模型训练过程中经常会遇到 GPU 故障,研发人员不得不经常重启训练,时间长,代价大。昇腾 AI 云服务可以提供更长稳的 AI 算力服务,千卡训练 30 天长稳率达到 90%,断点恢复时长不超过 10 分钟。
赋能千行百业
任正非此前曾表示,「人工智能软件平台公司对人类社会的直接贡献可能不到 2%,98% 都是对工业社会、农业社会的促进。但是应用平台不是我们的选项,我们会做 AI 的底层算力平台。」
让大模型走进千行百业,已经成为华为发展大模型的工作重心。华为云在会上详细介绍了盘古大模型在政务、铁路、气象、金融等七个领域的应用实例。
政务
在政务领域,华为云携手深圳市福田区政务服务数据管理局,上线了基于盘古政务大模型的福田政务智慧助手小福,能够精准理解民众咨询意图,改变传统的一网通办模式。通过对超过 20 万条政务数据进行精调,包括 12345 热线、政策文件、政务百科等,政务助手掌握了丰富的法律法规、办事流程等行业知识。
华为云介绍,盘古政务大模型的核心,是认知能力。实现城市公共系统的闭环,从感知到认知、处置进一步提升可见可懂性。提供问答、文案生成、视频感知和多模态理解等多样化的能力,以适应各种不同的场景。
华为云介绍了两个典型场景:首先是一个咨询场景,企业用户向政务助手咨询相关的投资扶持政策,政务助手可以介绍相关的法规政策,并为咨询者提供适当的建议;第二个场景,如上图所示,是一个基于对话和多模态能力的政务处理场景,工作人员可以根据摄像头拍摄的图片,智能分析图片中的违规情况。
铁路
在铁路领域,华为展示了货车检测助手的应用案例。
传统列检员每日繁忙地检测数百万张列车图片,以发现铁路货车网络运行中的故障问题。引入盘古大模型后,可以精准识别现网运行的 67 种货车、430 多种故障,无故障图片筛除率高达 95%。换句话说,列检员只需检查以往的 1/20 辆火车图片,相当于提高了 20 倍的工作效率。
煤矿
在煤矿领域,盘古矿山大模型已经在全国 8 个矿井规模使用,一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的 1000 多个细分场景,让更多的煤矿工人能够在地面上作业,不仅能让煤矿工人的工作环境更加舒适,而且可以极大地减少安全事故。
气象
气象领域是华为云发布会上介绍的重点,就在几天前,盘古气象大模型的研究成果发表在国外顶级期刊《Nature》,被审稿人评价为:让我们重新审视气象预测的未来。
原来预测一个台风未来 10 天的路径,需要在 3000 台服务器的高性能计算机集群上花费 5 小时进行仿真。现在基于预训练的盘古气象大模型,通过 AI 推理的方式,研究者只需单台服务器上单卡配置,10 秒内就可以获得更精确的预测结果。
目前,盘古气象大模型可以用于预测海浪、高温、台风、寒潮等气象,相比传统的气象预测速度更快、准确率也更高。此前盘古和气象局合作,提前 10 天预测了「玛娃」的路径。盘古提前两天预测到了芬兰寒潮的到来,并且与欧洲气象局的预测相比,盘古的预测更加准确。
金融
在金融领域,盘古大模型与工商银行合作,打造了一系列探索性的应用。
其中一个典型的场景是提高银行柜员的工作效率。工行在全国有数万个网点,20 万网点柜员。他们需要在各种业务间切换,这会浪费大量的时间。
盘古金融大模型对银行的各种操作、政策、案例文档进行预训练,能根据客户的问题,为柜台工作人员自动生成流程和操作指导,将原来需要平均 5 次的操作降低为 1 次,办结时间缩短 5 分钟以上。
而这只是最初级的应用,华为正在与金融行业探索,未来将大模型运用到信贷分析等更多的金融场景。
制造业
华为是一家制造企业,生产和制造的产品涵盖通信基站、手机、汽车和芯片等多个领域。基于过去积累的经验,华为将盘古大模型引入到生产制造领域。
过去,制定单线产量分配计划通常需要超过3个小时才能完成一天的生产计划。盘古制造大模型学习了华为产线上各种器件数据、业务流程及规则以后,能够对业务需求进行准确的意图理解,并调用天筹 AI 求解器插件,1 分钟即可做出未来 3 天的生产计划。
药物研发
在药物研究领域,一种新药的研发平均耗时10年,并且投入了10亿美元的资金。盘古药物分子大模型助力西安交通大学第一附属医院刘冰教授团队发现全球 40 年来首个新靶点、新类别的抗生素,并将先导药物研发周期缩短至 1 个月、研发成本降低 70%。
大模型融入华为云产品体系
除了在千行百业的落地实践,华为云盘古大模型也深度融入了华为云的产品服务,重构产品创新。
盘古大模型+华为云服务
盘古大模型加持下,华为云一系列 B 端产品服务被升级重构。在会议上,华为云详细介绍了资料服务、云客服、BI以及云搜索四项服务的升级内容。
- 在资料服务中,通过盘古大模型的文案生成和代码生成技术,能够提升资料撰写和前端代码编写效率,将新产品上市周期大为缩短。
- 在云客服,通过嵌入行业知识库和意图挖掘能力的对话问答,实现全流程 AI 优先作答,提升客服工作效率 30%。
- 在 BI,通过 NL2SQL 和 AutoGraph 智能路由,实现 SQL 到可视化图表的自动推荐,通过多轮自然语言交互,让人人都能便捷地从数据中洞察业务细节。
- 在云搜索,通过多模态 Embedding 和 NL2API 技术,实现视频、文本、图谱等广泛场景搜索,借助强大的语义理解和泛化能力,让搜索准确率提高 15%。
华为云将 CodeArts 研发工具与盘古大模型相结合,正式发布了面向开发者的智能编程助手 CodeArts Snap。
该工具训练了 760 亿行精选代码、1300 万篇技术文档,具备智能生成、智能问答、智能协同三大核心功能,可以实现一句对话让代码生成、一次点击即可自动注释和生成测试用例,一条指令即可智能部署,让每个软件开发者都有自己的编程助手。
盘古大模型+数字人
华为云通过盘古基础大模型赋能 MetaStudio 数字内容生产线,打造了盘古数字人大模型,提供模型生成和模型驱动两大服务,并已经使用了 20 万小时音视频数据进行了预训练。
基于这两大服务,开发者可以快速生成和驱动数字人模型,赋能在线教育、文娱直播、企业会议等行业应用,让每个企业员工实现「数字人自由」。例如,用户只需在华为云 MetaStudio 的服务页面上传 20 秒的个人视频,就可以快速生成个性化的数字人讲解视频,过去 3 个研发人员 3 天完成的工作,现在只需要 3 分钟就可以完成。
盘古大模型+具身智能
会上,华为云还提到了盘古大模型在机器人领域的应用,并演示了一段视频。
过去向机器人下命令需要开发者进行编程,而基于盘古大模型的自然语言理解能力,机器人可以识别自然语言,执行命令,并具备全域感知引导的自主智能。会上,华为演示了一段视频,用户不需要输入程序命令,只需要用自然语言向机器人下令,机器人就可以完成拿取物品等命令,过程中会根据所处的环境情况作出自主判断(比如移开挡住目标物体的杂物),从而完成任务。
华为介绍,上述演示并非概念视频,而是来自真实的产品,并在 HDC 大会期间在会场展出。
总结和思考:华为能成 AI 另一极吗?
张平安表示,「为了帮助全球客户、伙伴、开发者训练和使用大模型,我们致力于为全球客户打造世界 AI 另一极,为所有 AI 开发者提供新的选择」。
甚至在今年3月之前,任正非就曾在公司内部表达过类似的观点。他表示 AI 大模型上会风起云涌,不只是微软一家。任正非的理由,其实也是今天华为云努力的方向,即人工智能软件平台公司对人类社会的直接贡献可能不到 2%,98% 都是对工业社会、农业社会的促进。
比如在中国、德国的工厂,都在推进人工智能对工业的促进,从而实现无人化的生产;比如天津港口的码头,货物装卸也试了无人化,代码一输入,从船上自动把集装箱搬运过来,然后用汽车运走;比如山西的煤矿,在地下采用 5G+人工智能后,人员减少了 60-70%,大多数人在地面的控制室穿西装工作。
这些都是过去数年 AI 已经大规模运用到产业侧的实例,这些产业的共同点是有庞大的规模和产值,一点点效率的提升都能带来巨大的收益。
而大模型的出现,实质上是提供了更加高效的生产力工具。一方面,对于这些原本已经在拥抱 AI 的产业,意味着更高的效率和更快的改造进程;而效率更高,也意味着对更多行业来说,更容易算好「经济账」,AI 有潜力从变革所谓几大行业,变成改造千行百业。
这是华为为什么要坚决走进产业的原因,实际上阿里云、腾讯云、火山云和百度云等国内主要的云服务大厂,也是相近的思路。而方向一致、起点接近的情况下,在这场竞赛中谁能跑的最快,比拼的就是从算力、大模型底座、平台、产品到具体解决方案的全链条能力。
因为众所周知的原因,华为拿不到当下公认的全球最先进的计算芯片,看起来在这场竞赛中先天不足。但从今天的发布会来看,华为完全看不到受上游掣肘而落后于人,在大模型的关键链条上,都拿出了成熟的产品、案例,解耦化的盘古大模型架构更是让人眼前一亮。事实上,考虑到今天国产化的需求,在算力上不落后于人的华为,被卡脖子的劣势,很可能变成自主可控的优势。
大模型成为华为的新机遇,看起来正在成为现实。
理论要掌握,实操不能落!以上关于《6000 字详解华为盘古大模型:能否撑起世界 AI 另一极?》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
345 收藏
-
480 收藏
-
448 收藏
-
438 收藏
-
375 收藏
-
231 收藏
-
340 收藏
-
420 收藏
-
213 收藏
-
267 收藏
-
467 收藏
-
204 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习