这份论文通过对300多篇论文的调研,全面的分析了医学LLM的进展、应用和挑战。这里简要总结一下论文在应用和挑战以及未来发展方向的结论。

医学LLM的主要应用方向:
医学诊断:将LLMs纳入医学诊断流程将提高专业医疗保健的可及性。LLM作为医学诊断的唯一工具存在明显局限性,完全依赖患者的主观输入。
由于LLM主要基于文本,缺乏分析医学诊断图像的固有能力。鉴于客观医学诊断经常依赖视觉图像,LLM通常无法直接进行诊断评估,因为缺乏具体的视觉证据支持疾病诊断。然而,它们可以作为逻辑推理工具帮助改进其他基于视觉的模型的准确性。
格式化和ICD编码:LLM可以通过从临床记录中分离医学术语并为其分配相应的ICD编码来帮助自动化ICD编码。PLM-ICD是一个经过微调的LLM,用于自动ICD编码。
它被微调为多类分类模型。任何LLM中潜在的偏见和幻觉都是至关重要的。此外,鉴于它们的算法显示出改进的空间,正如从它们的AUC分数所表明的那样,建立一种机制来检测和纠正这些错误,以防它们进入患者的电子健康记录(EHRs)变得至关重要。
临床报告生成:LLM在临床报告生成中的直观方式是作为一个总结工具。给定一个诊断作为输入,它可以利用其文本总结能力,如前面讨论的那样,给出一个清晰简洁的最终结论。
尽管使用LLMs进行临床报告生成或总结已被证明比人类同行更完整和更准确van2023clinical,但仍存在幻觉的担忧,以及倾向于以字面意义而非人类医生常采用的基于假设的观点来处理输入的趋势。
医学教育:Karabacak等人提出了将LLM纳入医学教育系统的几个好处,特别是为了为医学生准备医学考试以及随后在现实世界中的情景。他们建议,通过LLM生成情景、问题和相应的答案,可以增强医学教育。
在医学教育中使用LLM可能存在一些潜在的缺点,比如目前缺乏伦理培训以及训练数据集可能带来的偏见,导致某些群体代表不足。
医疗机器人:基于图的机器人指令分解器ni2023grid被提出作为利用LLMs进行路径规划的一种方法。该方案使用场景图而不是图像识别来获取环境信息,并在每个阶段为指令规划任务。它还可以预测即将到来的任务,并在场景图中规划预定义的机器人动作。然后,LLMs将以文本形式输出计划好的路线,将指令、场景图和机器人图作为输入。
实施医疗机器人技术面临的一些挑战与实施协作机器人(协作机器人)时的挑战非常相似,因为两种情况都涉及机器人与人类一起操作,这需要对机器人始终做正确的事情的信任。
医学语言翻译:语言往往是全球合作的一大障碍,LLM的帮助可以大大减少这一障碍。机器翻译已被证明比传统服务准确率高出7%
使用LLM进行翻译的一个道德考虑是可能会无意中插入歧视性措辞。由于管道的性质,这很难捕捉,可能导致误解甚至法律后果。
心理健康支持:由LLMs驱动的聊天机器人可以大幅提高心理健康治疗资源的可及性。心理咨询和随后的治疗对许多人来说成本高昂,而聊天机器人作为对话伙伴和陪伴者的能力将显著降低具有财务或身体限制的患者的准入门槛。
短期内仅依靠LLMs可能难以克服的一个挑战是书面和口头沟通技巧之间的差异。Hill等人发现,被调查者在被要求书面回答问题时与口头表达答案时的回答方式不同。这可能是LLMs需要突破的障碍,以更高程度地模仿治疗师。

医学LLM应用的主要挑战:
幻觉:内在幻觉是指生成的输出在逻辑上与事实信息相矛盾,比如LLM生成错误的数学公式计算。外在幻觉发生在生成的输出无法验证的情况下,典型例子包括LLM“伪造”不存在的引用或“回避”问题。将LLM整合到医学领域时,流利但非事实的LLM幻觉可能导致不正确的医学信息传播,从而导致误诊、不当治疗和对患者的有害教育。
缺乏评估基准和度量标准:随着通用LLM的出现,当前的基准和度量标准无法评估LLM的整体能力,特别是在医学领域。目前的基准,如MedQA(USMLE)medqa和MedMCQA medmcqa,在问题回答任务上提供了广泛的覆盖,但未能评估重要的LLM特定度量标准,如可信度、忠实度、帮助性和可解释性。
领域数据限制:目前医学领域的数据集相对较小,与用于训练通用LLM的数据集相比。医学知识领域广阔;现有数据集有限,无法涵盖整个领域。这导致LLM在具有广泛数据覆盖范围的开放基准测试中表现出非凡的性能,但在差异诊断和个性化治疗规划等现实任务中表现不佳。
新知识适应:LLM在大量数据上进行训练以学习知识。一旦LLM被训练,通过重新训练注入新知识是昂贵且低效的。当需要更新知识时(例如,药物的新不良反应或新疾病),会出现两个问题:第一个问题是如何使LLM“忘记”旧知识 - 从训练数据中删除所有“旧知识”几乎是不可能的,新旧知识之间的差异可能导致意外的关联和偏见。第二个问题是及时添加知识 - 我们如何确保模型实时更新?
行为对齐:行为一致性是指确保LLM的行为与其任务目标一致的过程。尽管努力将LLM与人类行为保持一致,但一般人类与医疗专业人员之间的行为差异仍然是医疗领域采用LLM所面临的挑战。
道德、法律和安全问题:一些作品提出了在医学领域使用像ChatGPT这样的LLM存在的问题。大多数关注伦理、问责和安全性。例如,科学界因伦理问题而不赞成在撰写生物医学研究论文时使用ChatGPT。此外,将LLM用作医学助手的问责性也具有挑战性。

医学LLM未来发展方向:
引入新的基准:需要研究和建立新的LLM能力,如从可信的医学参考资料中获取信息,理解医学共识的不断发展,并清楚地向用户传达不确定性medpalm。此外,考虑到医学领域的安全关键性,有必要设计评估公平性、公正性、道德和其他在医学中至关重要的微妙考虑的基准。
跨学科合作:医学界主要使用技术公司提供的LLM,而没有对它们的数据训练提出质疑。鉴于这种次优情况,鼓励医学专业人员积极参与创建和部署医疗LLM,提供相关的训练数据,定义LLM的期望益处,并在真实场景中进行测试以评估这些益处。
多模态LLM集成了时间序列、视觉和音频数据:多模式LLM(MLLM)是基于LLM的模型,旨在执行多模式任务yin2023survey。虽然LLM主要解决NLP任务,但MLLM支持更广泛的任务,例如理解模因的潜在含义和从图像生成网站代码。这种多功能性表明MLLM在医学中有着广泛的应用前景。
医学较不成熟领域的LLMS:目前关于在医学中应用LLMs的研究主要集中在一般医学领域,部分原因是该领域有更全面的数据可用。鉴于这种集中,研究人员有机会策划新的数据集,并研究LLMs在非传统但同样重要的医学领域,如“康复治疗”和“运动医学”的应用。

论文地址:arxiv.org

https://web.okjike.com/originalPost/6578867c79cb2b9f35187b0b