首页 > 科技周边 > 人工智能

交大O1医疗探索：延长AI思考时间，解锁复杂推理诊断

时间：2025-01-23 17:16:44 353浏览收藏

今天golang学习网给大家带来了《交大O1医疗探索：延长AI思考时间，解锁复杂推理诊断》，其中涉及到的知识点包括等等，无论你是小白还是老手，都适合看一看哦~有好的建议也欢迎大家在评论留言，若是看完有所收获，也希望大家能多多点赞支持呀！一起加油学习~

上海交大最新研究：延长AI推理时间，显著提升医疗诊断准确率

编辑 | ScienceAI

医生诊断复杂病例时，需要反复思考，权衡多种可能性。AI也能做到类似的“深思熟虑”。上海交通大学最新研究表明，增加AI的推理时间，能显著提高其医疗诊断准确率，使其更接近专业医生的水平。

该研究由SPIRAL实验室与生成式AI研究实验室（GAIR）联合完成，是O1复现项目系列研究的第三部分。研究发现，延长AI推理时间，仅需500个样本训练，就能将模型在医疗诊断准确率上提升6%-11%。改进后的AI系统能像医生一样，系统分析症状、评估证据，逐步缩小诊断范围。

项目负责人表示，这如同让AI学会了医生的思维方式，不再仅仅依赖快速匹配，而是进行更深入的分析和推理。该方法在JAMA临床挑战等真实医疗场景测试中取得了显著效果。

研究还发现，医疗问题越复杂，AI所需的推理链越长，这与人类医生的诊断过程相似。该研究团队已将所有代码和数据集在GitHub上开源。

研究方法

研究团队分析发现，问题难度越高，推理时间通常也越长，需要更多推理步骤。在医学领域，医生需要处理来自多种来源的数据，因此更长的推理时间至关重要。

为验证这一点，研究选择了JAMA临床挑战、Medbullets和MedQA三个基准数据集。这些数据集包含复杂真实的临床案例和不同难度的医学执业考试题目。

由于鉴别诊断任务过于复杂，研究简化了任务，采用多项选择数据集，通过预定义的潜在诊断来指导模型生成假设。

研究团队在之前的O1-Journey研究中验证了长思维链数据对复杂推理的重要性，并构建了两种类型的长思维链数据：

研究团队使用Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct和LLama3.1-70B-Instruct作为基础模型进行实验。

结果表明，更长的推理时间带来更好的性能。例如，Qwen2.5-72B模型在利用Journey Learning数据微调后，输出token长度延长至约1000，性能改进约为10%。

主要发现

多数表决法的作用：多数表决法能提高性能，但对于缺乏深度思考的中间步骤，效果有限。Journey Learning策略能更好地利用多数表决法。
LongStep与LongMonolog的比较：LongMonolog在Medbullets和MedQA数据集上表现更好，但在JAMA数据集上并非如此。
任务难度与推理时间：更难的任务需要更长的思考和更长的推理时间。
推理时扩展与模型大小的关系：参数较少的模型从推理时扩展中获得的收益较小。