首页 > 科技周边 > 人工智能

微软展示Project Rumi：利用多模方式提升AI理解能力

来源：51CTO.COM

时间：2023-08-15 16:41:21 388浏览收藏

大家好，我们又见面了啊~本文《微软展示Project Rumi：利用多模方式提升AI理解能力》的内容中将会涉及到等等。如果你正在学习科技周边相关知识，欢迎关注我，以后会给大家带来更多科技周边相关文章，希望我们能一起进步！下面就开始本文的正式内容~

在数字时代的新兴技术中，大型语言模型(LLM)已经成为一种强大的工具，彻底改变了人类社会和文化的多个方面，重新定义了我们与计算机互动的方式。然而，仍然存在一个重要挑战需要克服。LLM的局限性显而易见，它揭示了在无法理解对话上下文和微小差异，以及依赖于提示的质量和具体性方面存在的差距

然而，LLM主要依赖于文本输入输出，而忽略了人类在自然交流中的语调、面部表情、手势和肢体语言等线索，因此在理解方面可能存在偏差

微软的Project Rumi旨在通过解决理解非语言线索和上下文微妙差异的局限性，将这些线索统称为副语言，以增强LLM的能力。该项目将副语言输入与LLM的提示互动相结合，以提高沟通质量。研究人员使用音频和视频模型实时检测数据流中的非语言线索。音频模型包括韵律音调和屈折，语义模型则从语音中提取信息。视频模型使用视觉变换器对帧进行编码，并识别面部表情。最终，副语言信息被整合到基于文本的提示中。这种多模式方法旨在提升用户对情绪和意图的理解，从而将人类与人工智能的交互推向新的高度

在这项研究中，研究人员仅对副语言学在传达与用户意图相关的关键信息方面进行了简要探讨。未来，他们计划进行建模以提高模型的效果和效率。此外，他们还计划增加更多细节，如从标准视频、认知和环境感知中获取的心率变异性。所有这些都是为了在与人工智能互动的下一阶段中更加努力地增加隐含意义和意图的一部分

今天关于《微软展示Project Rumi：利用多模方式提升AI理解能力》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于微软,大语言模型的内容请关注golang学习网公众号！

微软大语言模型

声明：本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除