当前位置:首页 > 创业科技 > 正文

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

编辑|X

大语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM,但将通用 LLM 应用于医学领域仍存在重大挑战。

近日,法国阿维尼翁大学(Avignon Université )、南特大学(Nantes Université)和 Zenidoc 的研究团队开发了 BioMistral,一个专为生物医学领域量身定制的开源 LLM,利用 Mistral 作为其基础模型,并在 PubMed Central 上进行了进一步的预训练。

研究人员根据由 10 项既定的英语医学问答 (QA) 任务组成的基准对 BioMistral 进行了全面评估。还探索通过量化和模型合并 *** 获得的轻量级模型。

结果证明了 BioMistral 与现有开源医疗模型相比具有卓越的性能,并且与专有模型相比具有竞争优势。

最后,为了解决英语以外的数据有限的问题,并评估医学 LLM 的多语言泛化能力,自动将该基准翻译和评估为 7 种其他语言。这标志着医学领域 LLM 的首次大规模多语言评估。

相关研究以「BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains」为题,发布在预印平台arXiv 上。

论文链接:https://arxiv.org/abs/2402.10373

研究人员将实验中获得的数据集、多语言评估基准、脚本和所有模型都免费发布。

开源地址:https://huggingface.co/BioMistral/BioMistral-7B

BLOOM 和LLaMA 等开源 LLM,促进了其在医学等专业领域的创新使用。

然而,将 LLM 融入医疗保健和医学带来了独特的挑战和机遇。

开源医疗模型的采用受到限制,主要是由于缺乏允许商业使用,且性能可与大型或专有模型相媲美的轻量级模型。为了解决这一差距,需要开发基于开源基础模型的专用模型,例如 GPT-Neo、LLaMa 2 或 Mistra,并在保持性能的同时优化它们,以便在消费级设备上使用。

在此,研究团队提出了 BioMistral 7B,这是一种专为生物医学领域量身定制的专业 LLM,源自 Mistral 7B Instruct v0.1,并在 PubMed Central 上进一步进行了预训练。

研究贡献包括:

BioMistral 7B 的构建,这是生物医学领域之一个基于 Mistral 的开源模型,包括对不同评估策略的分析,例如少样本上下文学习和监督微调。

一项原创研究,引入了 10 项英语医学问答 (QA) 任务的基准,自动翻译成其他 7 种语言(西班牙语、德语、葡萄牙语、俄语、法语、 *** 语和中文),促进对现有更先进的开源医学 LLM 的评估,并揭示了其在不同语言背景下的多语言潜力和稳健性。

对模型在多语言环境下的真实性和校准性进行大量深入的定量分析。

对通过各种有效量化 *** 导出的一套轻量级模型进行严格评估。

探索 Mistral 7B Instruct 和 BioMistral 7B 模型之间的新颖模型合并技术,允许利用专业和通用 LLM 的常识推理技能。

BioMistral 7B 结合了量化和合并的模型变体,与其他开源 7B 模型相比,在多语言医学评估基准上展示了更先进的性能。

图 1:3 次情境学习的性能。分数代表准确性 (↑),并且是 3 个随机种子的平均值。BioMistral 7B Ensemble、DARE、TIES 和 SLERP 是结合了 BioMistral 7B 和 Mistral 7B Instruct 的模型合并策略。更佳模型用粗体显示,次佳模型用下划线显示。(来源:论文)

图 2:BioMistral 7B 模型与基线相比的监督微调 (SFT) 性能。*GPT-3.5 Turbo 性能是根据图 1 中的几次测试结果报告的。(来源:论文)

图 3:量化 BioMistral 7B 在 3-shot 场景中的性能。最后一列表示相对于原始模型的平均性能增益/损失。(来源:论文)

研究人员表示:「我们未来的研究旨在通过人工评估来评估 BioMistral 7B 的生成质量。此外,我们计划在前人进行的实验的基础上,使用监督微调和直接偏好优化技术来增强其多语言和聊天功能。最后,我们打算通过在进一步的预训练过程中整合 Jeffrey 散度或 Platt 缩放等技术来提高模型的校准和可靠性。」