首页 > 科技周边 > 人工智能

AI见闻日报：大模型并非鹦鹉学舌，“它”能理解语义 |见智研究

来源：搜狐

时间：2023-05-26 11:58:13 386浏览收藏

科技周边小白一枚，正在不断学习积累知识，现将学习到的知识记录一下，也是将我的所得分享给大家！而今天这篇文章《AI见闻日报：大模型并非鹦鹉学舌，“它”能理解语义 |见智研究》带大家来了解一下##content_title##，希望对大家的知识积累有所帮助，从而弥补自己的不足，助力实战开发！

即日起华尔街见闻·见智研究新推出AI见闻日报栏目，每周一到周四晚八点更新。内容覆盖本日AI热点，分为见闻视角和AI快报两部分。

我们也非常欢迎大家留言和探讨关于内容和观点方面的问题，以帮助我们更好地优化栏目。未来我们会持续给大家带来有意思，并且有价值的内容。

见闻视角

1、大模型从此有了“安全道德”数据库

如何从聊天机器人中剔除对人类有害的言论一直是备受关注的问题。

ChatGPT、Bard这类聊天机器人是如何做到尽量给出对人类友善的、诚实且有帮助的答案？

封闭大模型主要采用人工标注的方式，对大语言模型的回答内容进行打分，然后用强化学习方法从人类的反馈中学习（RLHF），但是由于打分伴有人类主观偏好，所以数据集仍存在潜在的安全隐患。

为解决上述难题，北京大学首次公开了开源PKU-Beaver（河狸）大模型RLHF（利用强化学习方法从人类反馈中学习的技术）的数据集（开源迄今为止最大的多轮 RLHF 数据集，规模达到 100 万条）、训练和验证代码。这些数据集包括侮辱、歧视、犯罪、心理伤害、悲观情绪、色情、隐私等十余种维度的约束。

见智研究认为：PKU-Beaver（河狸）大模型RLHF数据集等内容的开源，能够让更多开源大模型进行安全有效的训练，极大的解决了大模型的数据集安全性的问题。

值得关注的是：在一系列安全性问题的测试上，PKU-Beaver具有远高于知名开源项目Alpaca的领先性优势。

AI见闻日报：大模型并非鹦鹉学舌，“它”能理解语义 |见智研究

河狸采用的SafeRLHF支持主流的预训练模型如 LLaMA、OPT等模型的训练；支持Reward Model 和 Cost Model 训练；参数定制化的 RLHF 和数据集定制接口；并且提供安全约束满足的多种验证方式。也就是说，未来开源大模型有了“安全数据库”，开源地址为：https://github.com/PKU-Alignment/safe-rlhf

2、机器学习再升级-推理能力提高1750%

机器学习又卷出了新高度。

来自普林斯顿大学和Google DeepMind研究人员提出了一种全新的语言模型推理框架「思维树」简称ToT，并表示TOT能让大模型的推理能力提高1750%。

TOT方法可以让大语言模型进行反复思考，特别是在推理问题的时候，会进行多种方案的评估，从而选择表现最优的方案。

见智研究认为：相比于模型原来采用的推理方案，TOT 的出现，让大模型似乎是有了思想，可以更自主、更智能的做出决策。

AI见闻日报：大模型并非鹦鹉学舌，“它”能理解语义 |见智研究