碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face
来源:51CTO.COM
时间:2023-06-07 20:11:55 302浏览 收藏
欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!
大模型时代,什么最重要?
LeCun曾经给出的答案是:开源。
当Meta的LLaMA的代码在GitHub上被泄露时,全球的开发者们都可以访问这个第一个达到GPT水平的LLM。
接下来,各种各样的LLM给AI模型开源赋予了各种各样的角度。
LLaMA给斯坦福的Alpac和Vicuna等模型铺设了道路,搭好了舞台,让他们成为了开源的领头羊。
而就在此时,猎鹰「Falcon」又杀出了重围。
Falcon 猎鹰
「Falcon」由阿联酋阿布扎比的技术创新研究所(TII)开发,从性能上看,Falcon比LLaMA的表现更好。
目前,「Falcon」有三个版本——1B、7B和40B。
TII表示,Falcon迄今为止最强大的开源语言模型。其最大的版本,Falcon 40B,拥有400亿参数,相对于拥有650亿参数的LLaMA来说,规模上还是小了一点。
规模虽小,性能能打。
先进技术研究委员会(ATRC)秘书长Faisal Al Bannai认为,「Falcon」的发布将打破LLM的获取方式,并让研究人员和创业者能够以此提出最具创新性的使用案例。
FalconLM的两个版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前两名,而Meta的LLaMA位于第三。
值得一提的是,Hugging Face是通过四个当前比较流形的基准——AI2 Reasoning Challenge,HellaSwag,MMLU和TruthfulQA对这些模型进行评估的。
尽管「Falcon」的论文目前还没公开发布,但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。
研究人员透露,「Falcon」在训练过程非常重视在大规模数据上实现高性能的重要性。
我们都知道的是,LLM对训练数据的质量非常敏感,这就是为什么研究人员会花大量的精力构建一个能够在数万个CPU核心上进行高效处理的数据管道。
目的就是,在过滤和去重的基础上从网络中提取高质量的内容。
目前,TII已经发布了精炼的网络数据集,这是一个经过精心过滤和去重的数据集。实践证明,非常有效。
仅用这个数据集训练的模型可以和其它LLM打个平手,甚至在性能上超过他们。这展示出了「Falcon」卓越的质量和影响力。
此外,Falcon模型也具有多语言的能力。
它理解英语、德语、西班牙语和法语,并且在荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语等一些欧洲小语种上也懂得不少。
Falcon 40B还是继H2O.ai模型发布后,第二个真正开源的模型。然而,由于H2O.ai并未在此排行榜上与其他模型进行基准对比,所以这两个模型还没上过擂台。
而回过头看LLaMA,尽管它的代码在GitHub上可以获取,但它的权重(weights)从未开源。
这意味着该模型的商业使用受到了一定程度的限制。
而且,LLaMA的所有版本都依赖于原始的LLaMA许可证,这就使得LLaMA不适合小规模的商业应用。
在这一点上,「Falcon」又拔得了头筹。
唯一免费的商用大模型!
Falcon是目前唯一的可以免费商用的开源模型。
在早期,TII要求,商业用途使用Falcon,如果产生了超过100万美元以上的可归因收入,将会收取10%的「使用税」。
可是财大气粗的中东土豪们没过多长时间就取消了这个限制。
至少到目前为止,所有对Falcon的商业化使用和微调都不会收取任何费用。
土豪们表示,现在暂时不需要通过这个模型挣钱。
而且,TII还在全球征集商用化方案。
对于有潜力的科研和商业化方案,他们还会提供更多的「训练算力支持」,或者提供进一步的商业化机会。
项目提交邮箱:Submissions.falconllm@tii.ae
这简直就是在说:只要项目好,模型免费用!算力管够!钱不够我们还能给你凑!
对于初创企业来说,这简直就是来自中东土豪的「AI大模型创业一站式解决方案」。
高质量的训练数据
根据开发团队称,FalconLM 竞争优势的一个重要方面是训练数据的选择。
研究团队开发了一个从公共爬网数据集中提取高质量数据并删除重复数据的流程。
在彻底清理多余重复内容后,保留了 5 万亿的token——足以训练强大的语言模型。
40B的Falcon LM使用1万亿个token进行训练, 7B版本的模型训练token达到 1.5 万亿。
(研究团队的目标是使用RefinedWeb数据集从Common Crawl中仅过滤出质量最高的原始数据)
更加可控的训练成本
TII称,与GPT-3相比,Falcon在只使用75%的训练计算预算的情况下,就实现了显著的性能提升。
而且在推断(Inference)时只需要只需要20%的计算时间。
Falcon的训练成本,只相当于Chinchilla的40%和PaLM-62B的80% 。
成功实现了计算资源的高效利用。
今天关于《碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于开源,AI的内容请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
247 收藏
-
312 收藏
-
132 收藏
-
304 收藏
-
328 收藏
-
345 收藏
-
480 收藏
-
448 收藏
-
438 收藏
-
375 收藏
-
231 收藏
-
340 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习
-
- 天真的玉米
- 这篇博文真及时,很详细,太给力了,码住,关注作者了!希望作者能多写科技周边相关的文章。
- 2023-06-16 19:52:26
-
- 顺利的方盒
- 太详细了,已收藏,感谢师傅的这篇技术文章,我会继续支持!
- 2023-06-11 05:07:03
-
- 个性的电源
- 这篇文章真及时,太全面了,感谢大佬分享,已加入收藏夹了,关注师傅了!希望师傅能多写科技周边相关的文章。
- 2023-06-10 20:16:04
-
- 阳光的小海豚
- 太给力了,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢作者大大分享技术文章!
- 2023-06-10 13:49:32
-
- 彩色的花生
- 太给力了,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,看完之后很有帮助,总算是懂了,感谢老哥分享文章!
- 2023-06-10 08:20:52