ChatGPT 对学术写作影响超疫情？研究团队发布惊人结论

AI世纪 2024-06-28

2024-06-28

出品丨AI 科技大本营（ID：）

近日，来自德国图宾根大学脑健康人工智能研究所、图宾根人工智能中心的研究团、美国西北大学的研究者发布了一篇名为《通过多余词汇探究学术写作中的使用》（ into usage in ）的论文。

论文通过细致的语言分析提出了一个惊人的结论：等大语言模型辅助写作对科学文献产生了的影响，甚至超过了 COVID-19 疫情对学术写作的影响。

论文“AI味”有点浓：2024至少10%的论文使用了LLM

自在2022年11月发布以来，学术文献的写作风格“AI味”变得有点浓，尤其是2024年。

“我们仅分析了出版年份从2010年到2024年的论文，得到了篇摘要供分析。”该论文将分析了图书馆中超过 1400 万篇2010至2024年生物医学摘要的语料库，跟踪了过去十年科学写作的变化。

研究者惊讶地发现，至少10%的2024年发布的研究论文在撰写过程中使用了大型语言模型（如）进行辅助。在某些特定领域和国家，这一比例更是高得惊人。

研究人员首先确定了2024年相比以往年份显著更频繁出现的词汇。这些词汇包括写作风格中典型的许多动词和形容词，比如 “深入挖掘”、“复杂”、“展示” 和 “突出” 等。

上图包含某些单词的摘要的频率。黑线显示从 2021-22 年到 2023-24 年的反事实推断。前六个单词受到的影响；后三个单词与影响科学写作的重大事件有关，并显示出来以供比较。（图片摘自原论文）

通过分析词汇使用频率的变化，研究人员注意到，自发布以来，许多特定的风格词汇，如“（钻研）”“（展示）”“（强调）”等词汇的使用频率显著增加，这反映出科学家们在撰写论文时，越来越多地借助来润色和修改文本。

论文采集了3个真实的 2023 年摘要的示例，来说明了这种风格的摘要语言表达方式：

根据这些具备AI生成色彩的标志词，研究人员估计在2024年，AI 文本生成器影响了至少10% 的所有摘要。

有趣的是，论文中研究者以新冠病毒等词汇对学术论文的影响对AI生成的影响做了对比。

发现在某些情况下，等AI生成工具给学术文献写作带来的影响，甚至超过了 “Covid”、“流行病” 或 “埃博拉” 等词汇在其所处时期的影响。

研究者对2013 年至 2023 年的所有年份进行了相同的分析，发现诸如“冠状病毒”、“封锁”和“大流行”等词汇的使用量非常大，这与新冠疫情对生物医学出版产生前所未有的影响的观察结果一致。

研究者将2013至2024年的所有774个独特多余词注释为内容词（如mask或）和风格词（如或）。新冠疫情期间的多余词汇几乎完全由内容词组成（例如、等），而 2024 年的多余词汇几乎完全由风格词组成。在 2024 年的所有 280 个多余风格词中，66% 是动词，18% 是形容词。相比之下，前几年的大多数多余词都是名词。如下图所示，的多余词使用量，远高于新冠等流行病毒的数量。

新冠疫情期间的多余词汇几乎完全由内容词组成（例如、等），而 2024 年的多余词汇几乎完全由风格词组成。在 2024 年的所有 280 个多余风格词中，66% 是动词，18% 是形容词。相比之下，前几年的大多数多余词都是名词。（图片摘自原论文）

IT 期刊里中国作者对LLM的使用比例高达35%

“我们估计，不同学术领域、所属国家和期刊的 LLM 使用率下限从 5% 以下到 30% 以上不等。这种差异可能与 LLM 采用率的实际差异相对应。例如，计算领域的 LLM 使用率下限较高（20%）可能是因为计算机科学研究人员更熟悉并愿意采用 LLM 技术。在非英语国家，LLM 可能确实可以帮助非母语人士编辑英语文本，这可以证明其广泛使用是合理的。最后，在审查流程加快和/或简化的期刊上发表文章的作者可能会争取 LLM 来撰写省力文章。”研究者在论文中写道。

在计算机科学和生物信息学等领域，大语言模型的使用率最高，其次为环境、医学、生物信息学、材料学。

LLM

ChatGPT 对学术写作影响超疫情？研究团队发布惊人结论

Meta新旗舰AI模型Llama 4 Maverick测试成绩遭质疑

对于游戏科技外溢和AI的冲击，腾讯和网易等公司的技术负责人如何看？

机器之心编辑部以后数据分析的活，也被包了

AI月之暗面创始人杨植麟现身上海创新创业青年论坛

OpenAI惊天内幕曝光！高管怒斥遭打压，7100亿AI巨头内外交困｜钛媒体AGI

AI模型可以用于追踪转移性癌症的源头