爆火的生成式AI,能让智能音箱起死回生吗?
来源:搜狐
时间:2023-06-16 19:11:35 349浏览 收藏
学习科技周边要努力,但是不要急!今天的这篇文章《爆火的生成式AI,能让智能音箱起死回生吗?》将会介绍到等等知识点,如果你想深入学习科技周边,可以关注我!我会持续更新相关文章的,希望对大家都能有所帮助!
智能音箱这类如今几乎已经被大量消费者遗忘的产品,在此前经历了2017年、2018年的“疯狂”之后,早已不再是大多数消费者关注的对象。就在大家以为智能音箱会昙花一现时,ChatGPT的横空出世似乎让智能音箱有了焕发第二春的可能,也给了这个在走下坡路的行业一个新的机遇。那么,智能音箱与如今爆红的生成式AI能擦出火花吗?
生成式AI之于智能音箱行业,或许就是久旱逢甘霖。根据相关市场调查数据显示,2023年第一季度,受产品同质化严重和消费者需求下降等因素的叠加影响,国内智能音箱在线上的监测零售量为157万台、再次下跌40.6%,而在整个2022年,智能音箱国内全渠道销量为2631万台、同比下降了28%。
为什么曾经被各大巨头寄予厚望、甚至被视为可能是智能家庭入口的智能音箱,会在近年来滑入深渊呢?原因其实只有一个,那就是智能音箱真的不够智能。
在智能音箱这一概念火热的2017年,业界曾有关于智能音箱的重心到底应该在“智能”、还是“音质”上的讨论。最终,腾讯听听、苹果HomePod等一系列注重音质的产品,用它们的惨烈失败证明智能音箱的卖点只有可能是智能化。
然而遗憾的是,绝大多数智能音箱的智能化程度只能用“捉襟见肘”来形容,而各大厂商对于ASR(语音识别)、NLP自然语义处理、远场拾音等人工智能和声学技术的进步,又实在有些过于乐观。其实智能音箱从技术层面来说很简单,它的工作模式就是收集用户的声音,然后将音频发到服务器上、再计算并产出结果,最终将结果发送到智能音箱上变成具体的行为,比如打开某个应用或是回复用户的提问。
虽然通常被称为智能音箱,但实际上它们本身与人工智能没有直接关联,小爱同学、小度和天猫精灵的核心技术都储存在相应的服务器上。这一切也导致了决定智能音箱使用体验的关键是远场拾音技术,也就是在复杂的声学环境下准确捕捉用户语音指令的能力,毕竟总不能出现用户说“讲个笑话”,智能音箱听成“放首歌”了吧。
智能音箱的解决方案,则是使用大规模麦克风阵列来收集声音,但其中却有一个痛点一直得不到解决,那就是语音唤醒(keyword spotting)。大家在使用智能音箱时,需要用到诸如“Hi,Siri”、“小爱同学”、“小度小度”这样的唤醒词,让智能音箱知道你在和它说话,这也就意味着智能音箱缺乏主动服务的能力。更为重要的是,由于技术的限制,智能音箱长期以来只能理解简单的指令,比如“音量调大一点/调小一点”、“播放某某人的某某歌”等,再复杂一些的语句识别起来往往就很难。
而ChatGPT、文心一言这类生成式AI之于智能音箱的意义,就是前者可以帮助智能音箱理解更加复杂的语句,并提供更加自然的交流。相信使用过微软Bing Chat、百度文心一言或ChatGPT的朋友应该就知道,在与这类生成式AI对话时,并不需要用诸如“Hi,ChatGPT”这样的开场白,直接输入内容即可开始对话进程。
由于生成式AI是在基于大规模语言模型(LLM,Large Language Model)的基础上,加入了人工标注数据和从人类反馈中进行强化学习技术,再辅以知识图谱技术,即一种将知识写成结构化三元组(包含实体、概念和关系)的多关系图,让AI得以理解人类指令的含义,并最终从庞大的信息数据库中选择内容进行回答。
相较于Siri和小爱同学,ChatGPT最大的变革就在于它具有多轮对话的能力。相比Siri几乎是“鱼的记忆”,ChatGPT则可以一直与用户对话,再加上对于情绪更清晰的感知,让用户以为真的是在与活生生的人对话。对于一个消费级产品而言,用户显然并不在乎背后的技术原理有多么高深,而是关注它能否解决问题或是满足需求。
生成式AI的魅力就在于它的能力上限很高,其中典型的例子就是微软的Microsoft Copilot,同时它还能在一定程度上满足用户的社交需求,如今在海外已有创作者借助ChatGPT,推出了以自己为模型的“虚拟伴侣”,并收获了超过1000名用户。总的来说,将生成式AI与智能音箱结合几乎能补足后者的短板,使得其在消费级赛道拥有了可堪一用的智能化水平。
事实上,部分智能音箱厂商已经行动起来了。例如今年2月,百度在预热文心一言时,小度就已宣布将融合文心一言,打造针对智能设备场景的AI模型“小度灵机”;4月天猫精灵接入“鸟鸟分鸟”模型打造的“AI嘴替”,同时宣布接入阿里巴巴的通义千问。
但需要指出的是,生成式AI并非“万能灵药”。目前来看,所有生成式AI都不可避免地面临算力资源短缺的问题。最近生成式AI天花板GPT-4“变笨”的消息引发了诸多关注,相比于刚刚发布时的状态,如今GPT-4的文本代码质量全方位下降已然成为了用户的共识。
没错,其实不仅是GPT-4,诸如ChatGPT、文心一言等面向公众的这类产品都出现了类似的情况,用户量的增加导致了大模型性能的下降。
现在生成式AI领域面临的核心问题,就是算力资源紧张、无法应对汹涌而来的用户,而为了确保用户体验,这类产品就只能降低大模型的性能、减少生成内容的时间来给服务器“减负”。鉴于智能音箱的存量市场规模更大,因此在接入生成式人工智能后,类似问题几乎不可避免。
未来很有可能会出现的情况,是智能音箱的智能化水平呈现出一条抛物线,初期用户体验会跨越式提升,但随着用户规模的不断增加,智能化表现反而可能会“退化”回数年前的水平。
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
265 收藏
-
361 收藏
-
272 收藏
-
248 收藏
-
335 收藏
-
480 收藏
-
135 收藏
-
406 收藏
-
454 收藏
-
284 收藏
-
226 收藏
-
447 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习