Mistral与微软合作为"小语言模型"带来革命,Mistral中杯代码能力超越GPT-4,成本降低2/3
来源:51CTO.COM
时间:2023-12-17 20:26:42 459浏览 收藏
目前golang学习网上已经有很多关于科技周边的文章了,自己在初次阅读这些文章中,也见识到了很多学习思路;那么本文《Mistral与微软合作为"小语言模型"带来革命,Mistral中杯代码能力超越GPT-4,成本降低2/3》,也希望能帮助到大家,如果阅读完后真的对你学习科技周边有帮助,欢迎动动手指,评论留言并分享~
近来,"小语言模型"突然成为热门话题
本周一,刚刚完成4.15亿美元融资的法国AI初创公司Mistral,发布了Mixtral 8x7B模型。
这个开源模型尽管尺寸不大,小到足以在一台内存100GB以上的电脑上运行,然而在某些基准测试中却能和GPT-3.5打平,因此迅速在开发者中赢得了一片称赞。
之所以叫Mixtral 8x7B,是因为它结合了为处理特定任务而训练的各种较小模型,从而提高了运行效率。
这种「稀疏专家混合」模型并不容易实现,据说OpenAI在今年早些时候因为无法让MoE模型正常运行,而不得不放弃了模型的开发。
紧接着,就在第二天,微软又发布了全新版本的Phi-2小模型。
Phi-2的规模只有27亿参数,比Mistral的规模小得多,仅足以在手机上运行。而与之相比,GPT-4的参数规模高达一万亿
Phi-2在精心挑选的数据集上进行了训练,数据集的质量足够高,因此即使手机的计算能力有限,也能确保模型生成准确的结果。
虽然还不清楚微软或其他软件制造商将如何使用小型模型,但最明显的好处,就是降低了大规模运行AI应用的成本,并且极大地拓宽了生成式AI技术的应用范围。
这是一个重要的事件
Mistral-medium代码生成完胜GPT-4
最近,Mistral-medium已经开始进行内测
有博主对比了开源的Mistral-medium和GPT-4的代码生成能力,结果显示,Mistral-medium比GPT-4的代码能力更强,然而成本却只需GPT-4的3成!
总价来说就是:
Mistral工作效率高,且完成工作的质量也很高
2)不会将token浪费在冗长的解释性输出上
3)给出的建议非常具体
首先,要编写用于生成斐波那契素数的PyTorch数据集的cuda优化代码
Mistral-Medium生成的代码严肃、完整。
GPT-4生成的代码,勉勉强强还可以
浪费了很多token,却没有输出有用的信息。
然后,GPT-4只给出了骨架代码,并没有具体的相关代码。
第二道题是:编写高效的Python代码,将大约10亿个大型Apache HTTP访问文件导入SqlLite数据库,然后使用它来生成对sales.html和product.html的访问直方图
Mistral的输出非常出色,尽管log文件不是CSV格式的,但是修改起来很简单
GPT-4依旧拉跨。
此前,这位博主测试过多个代码生成模型,GPT-4一直稳居第一。
目前,强大的竞争对手Mistral-medium终于出现,将其从宝座上推下
虽然只发布了两个例子,但博主测试了多个问题,结果都差不多。
他提出建议:考虑到Mistral-medium在代码生成质量方面提供更好的体验,应该将其整合到各地的代码助手中
有人按照每1000token算出了输入和输出的成本,发现Mistral-medium比起GPT-4直接降低了70%!
确实,节省了70%的令牌费用,这是一件大事。此外,通过简洁的输出,还可以进一步降低成本
以上就是《Mistral与微软合作为"小语言模型"带来革命,Mistral中杯代码能力超越GPT-4,成本降低2/3》的详细内容,更多关于微软,模型的资料请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
259 收藏
-
320 收藏
-
207 收藏
-
317 收藏
-
365 收藏
-
333 收藏
-
131 收藏
-
437 收藏
-
169 收藏
-
472 收藏
-
434 收藏
-
223 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习