OpenAI o1 医学初步研究：AI 医生是否更近了？月报分享期待中

aixo 2024-09-26 08:06:46

2024-09-26 08:06:46

ps：我们日常会分享日报、周报，后续每月也会出一期月报，敬请期待～

o1医学初步研究：我们离AI医生更近了吗？

大语言模型（LLM）在各个领域和任务中都表现出了非凡的能力，推动了我们在学习和认知方面的知识发展。最新的模型是的 o1 模型，它是首个使用强化学习策略的内化思维链技术的大语言模型。虽然它在各种通用语言任务中表现出了令人惊讶的强大能力，但在医学等专业领域的表现却仍是未知数。

为此，来自加州大学圣克鲁斯分校的研究团队及其合作者对 o1 在不同医疗场景中的表现进行了全面探索，考察了三个关键方面：理解、推理和多语言性。具体来说，他们使用 37 个医学数据集的数据对 6 个任务进行了评估，其中包括两个基于《新英格兰医学杂志》（NEJM）和《柳叶刀》（the ）的专业医学问答而新构建的更具挑战性的问答（QA）任务。与 MedQA 等标准医学问答基准相比，这些数据集具有更强的临床相关性，能更有效地转化为现实世界中的临床实用性。他们对 o1 的分析表明，LLM 增强的推理能力可能（显著）有利于他们理解各种医疗指示和推理复杂临床场景的能力。

值得注意的是，在 19 个数据集和两个新创建的复杂 QA 情景中，o1 的准确率分别比 GPT-4 平均高出 6.2% 和 6.6%。但与此同时，他们也发现了模型能力和现有评估协议中的几个弱点，包括幻觉、多语言能力不一致以及评估指标不一致。

论文链接：

项目地址：

上海交大推出训练、验证糖尿病专用LLM框架

糖尿病是一种对全球健康造成重大负担的慢性疾病，优化糖尿病管理需要多方合作。大语言模型（LLM）在各种医疗保健场景中都显示出了良好的前景，但其在各种糖尿病任务中的有效性仍未得到证实。

在本研究中，来自上海交通大学的研究团队及其合作者提出了一个训练和验证糖尿病专用 LLM 的框架，他们首先开发了一个全面的数据处理管道，其中包括数据收集、过滤、增强和完善。这种方法有助于创建一个高质量的糖尿病专用数据集，并完全从零开始创建几个评估基准。利用收集到的训练数据集，他们对糖尿病专用 LLM 系列进行了微调，与其他 LLM 相比，该系列在理解和处理各种糖尿病任务方面表现出了SOTA。此外，临床研究显示了他们的模型在糖尿病护理中的潜在应用，包括提供个性化医疗保健、辅助医学教育和简化临床任务。

他们的研究提出了开发和评估糖尿病专用 LLM 系列的框架，并强调了其在面对不同终端用户时增强临床实践和提供个性化、数据驱动的糖尿病支持的潜力。

论文链接：

地址：

清华、MIT团队：大语言模型是自动驾驶的“灵丹妙药”吗？

人工智能（AI）在自动驾驶（AD）研究中发挥着至关重要的作用，推动着 AD 向智能化和高效化方向发展。目前，AD 技术的发展主要遵循两条技术路线：模块化和端到端。

模块化将驾驶任务分解为感知、预测、规划和控制等模块，并分别进行训练。由于模块之间的训练目标不一致，综合效果存在偏差。端到端试图通过利用单一模型将传感器数据直接映射到控制信号来解决这一问题。这种方法在综合特征集方面的学习能力有限，难以处理不可预测的长尾问题和复杂的城市交通场景。面对这两种途径所遇到的挑战，许多研究人员认为，具有强大推理能力和广泛知识理解能力的大语言模型（LLM）可能是一种解决方案，并期望 LLM 能够为 AD 系统提供更深层次的理解和决策能力。

为了解 LLM 是否能增强 AD，来自清华大学和麻省理工学院的研究团队对 LLM 在自动驾驶系统中的潜在应用进行了深入分析，包括探讨其在模块化和端到端方法中的优化策略，尤其关注 LLM 如何解决当前解决方案中存在的问题和挑战。此外，他们还讨论了一个重要问题：基于 LLM 的通用人工智能（AGI）能否成为实现高级 AD 的关键？他们进一步分析了 LLM 在促进 AD 技术发展方面可能遇到的限制和挑战。

论文链接：

清华团队推出多模态科学推理能力评估基准

多模态大语言模型（MLLMs）通过整合文本和视觉信息来实现复杂场景下的视觉理解，在各种任务中展现了良好的能力。尽管目前已有多个旨在评估从视觉问答（QA）到复杂问题解决等任务中的多模态大语言模型的基准，但大多数基准主要侧重于数学或一般视觉理解任务。这揭示了当前基准的一个重要缺陷，即这些基准往往忽略了物理和化学等其他关键科学学科。

为了弥补这一不足，来自清华大学、北京航空航天大学和智谱的研究团队提出了综合基准，用于评估数学、物理和化学三大学科的多模态科学推理能力。该基准由 3000 个问题组成，这些问题来自 K12 教育（从小学到高中），平均分布在三个学科中，每个学科有 1000 个问题。中的问题涵盖 21 个不同的学科，分为五个难度级别，为每个学科提供了广泛的主题。通过，他们对 25 种具有代表性的 MLLM 在科学推理中的表现进行了详细评估。

实验结果表明，闭源 MLLM 通常优于开源模型。观察到的最佳性能包括：.5- 在数学中 53.4% 的准确率，GPT-4o 在物理中 38.2% 的准确率，以及 -1.5-Pro 在化学中 47.0% 的准确率。

这些结果凸显了 MLLM 的优势和局限性，提出了未来需要改进的地方，并强调了开发能有效处理多模态科学推理的各种需求的模型的重要性。

论文链接：

清华团队推出-：用多模态大语言模型解决数学问题

大语言模型（LLMs）在数学推理，尤其是基于文本的数学问题的推理中表现出了强大的能力。然而，目前的多模态大语言模型（MLLMs），尤其是数学专业模型，往往主要侧重于解决几何问题，却忽视了数学其他领域的视觉信息多样性。此外，这些专业数学 MLLM 的几何信息来自若干公共数据集，但多样性和复杂性通常都很有限。

为了解决这些局限性，来自清华大学、北京航空航天大学及智谱的研究团队推出了一个微调数据集——，并通过在上使用各种参数规模的骨干模型进行监督微调（SFT）来开发一系列专业数学 MLLM——-。为了广泛评估 - 的有效性，他们在多个公共基准和由 2000 个问题组成的测试中进行了实验。

实验结果表明，与一些现有模型（包括骨干模型和开源数学 MLLM）相比，- 实现了显著的改进。这些研究结果表明了多样性数据集在提高 MLLM 的数学推理能力方面的重要性。

论文链接：

在科学文献任务中，语言模型超越领域专家

众所周知，语言模型会产生不正确的信息，而它们在科学研究中的准确性和可靠性仍然存疑。团队提出了一种详细的人机比较方法，来评估真实世界文献检索任务（包括信息检索、总结和矛盾检测）中的语言模型。

研究结果表明，是一种专注于提高事实准确性的高级语言模型，它在三个现实文献检索任务中的表现与主题专家不相上下，甚至优于主题专家，而且对人类参与者没有任何限制（完全的互联网接入、搜索工具和时间）。可以生成维基百科式的科学主题引文摘要，其准确性大大高于目前人工编写的维基百科条目。

此外，还能识别科学文献中的矛盾之处，这对人类来说是一项具有挑战性的任务。在生物学论文的随机样本中，它平均在每篇论文中发现 2.34 +/- 1.99 个矛盾点，其中 70% 的矛盾点得到了人类专家的验证。

这些结果表明，在重要的科学文献任务中，语言模型现在可以超越领域专家。

论文链接：

Video-XL：用于小时级视频理解的超长视觉语言模型

尽管目前的多模态大语言模型（MLLM）在视频理解方面取得了可喜的成果，但处理超长视频仍然是一个持续的挑战。通常情况下，MLLMs 难以处理超过 LLMs 最大上下文长度的数千个 token，并且由于 token 聚合而降低了视觉清晰度。另一个挑战是大量视频 token 带来的高计算成本。

为了解决这些问题，来自上海交通大学、北京智源人工智能研究院和中国人民大学的研究团队及其合作者推出了一个超长视觉语言模型——Video-XL，其专为高效的小时级视频理解而设计。具体来说，他们认为 LLM 可被用作有效的视觉压缩器，并引入了视觉上下文潜在总结（），将视觉上下文压缩为高度紧凑的形式。

广泛的实验证明，尽管他们的模型是在有限的图像数据上训练出来的，但在流行的长视频理解基准测试中取得了可喜的成绩。此外，Video-XL 还在效率和效果之间取得了良好的平衡，可以在单个 80GB GPU 上处理 1024 个帧，同时在 -in-a- 评估中达到近 100% 的准确率。

论文链接：

OpenAI o1 医学初步研究：AI 医生是否更近了？月报分享期待中

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号