首页 > 科技周边 > 人工智能

支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估

来源：机器之心

时间：2024-03-13 23:36:26 213浏览收藏

大家好，我们又见面了啊~本文《支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估》的内容中将会涉及到等等。如果你正在学习科技周边相关知识，欢迎关注我，以后会给大家带来更多科技周边相关文章，希望我们能一起进步！下面就开始本文的正式内容~

编辑 | X

大语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM，但将通用 LLM 应用于医学领域仍存在重大挑战。

最近，法国阿维尼翁大学（Avignon Université）、南特大学（Nantes Université）和 Zenidoc 的研究小组推出了 BioMistral，这是一个专为生物医学领域量身定制的开源 LLM。BioMistral基于 Mistral 模型开发，通过在 PubMed Central 进行进一步的预训练，为生物医学研究提供了更强大的工具。

研究人员对 BioMistral 进行了全面评估，评估基于包括 10 项既定的英语医学问答 (QA) 任务在内的基准。此外，他们进一步研究了通过采用量化和模型合并方法获得的轻量级模型。

结果证明了 BioMistral 与现有开源医疗模型相比具有卓越的性能，并且与专有模型相比具有竞争优势。

为了解决医学 LLM 在面临英语以外数据较少的挑战时的问题，我们将其基准进行了翻译，并在其他七种语言中进行了评估。这一举措代表了医学领域 LLM 首次进行大规模多语言评估的重要里程碑。

相关研究以「BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains」为题，发布在预印平台 arXiv 上。

首次大规模多语言评估，支持7种语言，生物医学领域7B开源LLM

论文链接：https://arxiv.org/abs/2402.10373

研究人员将实验中获得的数据集、多语言评估基准、脚本和所有模型都免费发布。

首次大规模多语言评估，支持7种语言，生物医学领域7B开源LLM

开源地址：https://huggingface.co/BioMistral/BioMistral-7B

BLOOM 和 LLaMA 等开源 LLM，促进了其在医学等专业领域的创新使用。

然而，将 LLM 融入医疗保健和医学带来了独特的挑战和机遇。

开源医疗模型的采用受到限制，主要是由于缺乏允许商业使用，且性能可与大型或专有模型相媲美的轻量级模型。为了解决这一差距，需要开发基于开源基础模型的专用模型，例如 GPT-Neo、LLaMa 2 或 Mistra，并在保持性能的同时优化它们，以便在消费级设备上使用。

在此，研究团队提出了 BioMistral 7B，这是一种专为生物医学领域量身定制的专业 LLM，源自 Mistral 7B Instruct v0.1，并在 PubMed Central 上进一步进行了预训练。

研究贡献包括：

BioMistral 7B 的构建，这是生物医学领域第一个基于 Mistral 的开源模型，包括对不同评估策略的分析，例如少样本上下文学习和监督微调。
一项原创研究，引入了 10 项英语医学问答 (QA) 任务的基准，自动翻译成其他 7 种语言（西班牙语、德语、葡萄牙语、俄语、法语、阿拉伯语和中文），促进对现有最先进的开源医学 LLM 的评估，并揭示了其在不同语言背景下的多语言潜力和稳健性。
对模型在多语言环境下的真实性和校准性进行大量深入的定量分析。
对通过各种有效量化方法导出的一套轻量级模型进行严格评估。
探索 Mistral 7B Instruct 和 BioMistral 7B 模型之间的新颖模型合并技术，允许利用专业和通用 LLM 的常识推理技能。

BioMistral 7B 结合了量化和合并的模型变体，与其他开源 7B 模型相比，在多语言医学评估基准上展示了最先进的性能。

首次大规模多语言评估，支持7种语言，生物医学领域7B开源LLM

图 1：3 次情境学习的性能。分数代表准确性 (↑)，并且是 3 个随机种子的平均值。BioMistral 7B Ensemble、DARE、TIES 和 SLERP 是结合了 BioMistral 7B 和 Mistral 7B Instruct 的模型合并策略。最佳模型用粗体显示，次佳模型用下划线显示。（来源：论文）

首次大规模多语言评估，支持7种语言，生物医学领域7B开源LLM

图 2：BioMistral 7B 模型与基线相比的监督微调 (SFT) 性能。*GPT-3.5 Turbo 性能是根据图 1 中的几次测试结果报告的。（来源：论文）

首次大规模多语言评估，支持7种语言，生物医学领域7B开源LLM

图 3：量化 BioMistral 7B 在 3-shot 场景中的性能。最后一列表示相对于原始模型的平均性能增益/损失。（来源：论文）

研究人员表示：「我们未来的研究旨在通过人工评估来评估 BioMistral 7B 的生成质量。此外，我们计划在前人进行的实验的基础上，使用监督微调和直接偏好优化技术来增强其多语言和聊天功能。最后，我们打算通过在进一步的预训练过程中整合 Jeffrey 散度或 Platt 缩放等技术来提高模型的校准和可靠性。」

理论要掌握，实操不能落！以上关于《支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

语言模型理论基准

声明：本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除