原创 GlobalMD 全球医生组织:大语言模型 LLM 辅助疾病诊断是否可靠?
原创 全球医生组织
自从问世两年来,很多医疗机构和AI初创企业希望借助大语言模型LLM开发辅助医生和患者自我诊断病症的聊天机器人。经过各种真实场景案例测试,最新研究论文的结论是:目前利用大语言模型LLM辅助疾病诊断是不负责的。关注详情。
阅读文摘
慕尼黑工业大学研究人员发表一项最新研究结果,发现目前使用大型语言模型(LLM)进行临床疾病诊断是不负责任的。
尽管-AI能够通过医生资质考试,但在临床疾病诊断中,常常“不遵循”指南建议,甚至可能危及患者生命。
该研究团队测试了开源大型语言模型Llama 2在疾病诊断中的表现,结果显示这些LLM模型在常见疾病诊断的准确性和稳定性方面,均存在显著不足。
研究人员还使用了美国一家诊所的匿名患者诊疗数据,包括个人病史、临床化验数据和影像检查数据等。
研究发现,LLM模型对信息的顺序和语言细微差别敏感,但诊断结果不稳定。相比之下,四位医生的临床诊断正确率为89%,而最好的LLM模型仅为73%。
研究人员认为,此项目研究不是否定LLM的超级潜力,而是建议-AI聊天机器人发展成为一种可以帮助医生和患者辅助诊断的医疗级聊天机器人,其方法仍需要反复验证,特别是可靠性和精准性。
目前培训和测试LLM模式的医疗数据,多数是开源数据和软件代码,但医疗数据的透明性和患者安全,仍是制约不断完善的最大障碍。
业界人士评论-AI等LLM模式,最终会成为医生的辅助工具,但仍需要关注其局限性和特殊性,并在真实环境中加以规范化应用。