ChatGPT 对统计学发展的影响及在统计分析中的应用
我局官微“上海统计”已开设专栏“理论应用”,内容聚焦前沿理论、立足全球视野,以传播现代统计方法、实践和成功案例为主,助推统计人科研水平提高和统计事业的改革发展,欢迎大家及时关注分享。
本期推送“对统计学发展的影响”。作为大模型的一种应用,可以处理非结构化的文本数据,从中提取有用的信息,展现了其在文本数据分析中的强大能力。本文简要介绍了的迭代历程、主要特征和功能,说明了其在统计学分析中的应用场景。总的来说,不仅可以实现定性分析与定量分析的相互结合,还可以作为辅助工具,帮助统计学工作者在编程、文献综述和报告撰写等方面提高工作效率,是一个强大的助手。
是一个典型的大模型。其第一个版本GPT-1,其参数数量为1.17亿,这已经是非常庞大的数量了。在GPT-2版本中,参数数量上升到15亿。在GPT-3版本中,参数数量达到1750亿。2022年11月,正式推出了,即GPT-3的强化学习版本GPT-3.5。其主要方式是通过人机对话,当机器产生一定的输出时,人类告诉它哪些是正确的,哪些是错误的,以此反馈信息给机器进行修正,极大改进了的学习效果。2023年4月,进一步推出GPT-4,其重要突破是训练数据从单一模态的文本数据变成多模态的文本与图像数据,相应的参数维数也显著增加。
的训练之所以成为可能,是计算机科学特别是算力与算法快速发展的结果。
具有几个显著的特征。首先是智能性。目前全世界都在使用并为其提供免费训练,因此改进、迭代与完善的速度非常快,将逐渐接近人类的智能水平,并在许多方面超越人类。
其次是相关性。是一种生成式人工智能技术,其所生成的文字内容是大模型根据互联网大数据中单词词组同时出现的概率来预测生成,这本质上是一种推测归纳的方法,而并不是因果推断,或者说进行的是人工智能的因果推断。
最后是通用性。使用的信息是互联网公开信息,可以执行各种任务,包括生成结构化知识、提供解决问题的方案以及进行逻辑推理等,帮助提升人类的决策能力与决策水平。的这些重要特征都是基于互联网海量大数据与大语言模型而实现的。
作为大语言模型的代表,展示了其在处理文本数据方面的强大能力。它通过深度学习算法,能够对海量的文本数据进行训练和分析,并生成高质量的自然语言输出。对于统计学工作者而言,这种能力为文本数据的定量分析提供了全新的工具。
能够从非结构化的文本数据中提取出有价值的信息,这在传统的统计分析中是难以实现的。通过自然语言处理技术,可以识别文本中的语义关系、情感倾向等,从而为统计分析提供更多的维度。这对于需要分析大量文本数据的领域(如舆情分析、市场研究等)尤其重要。这种多维度的信息可以更好的刻画模型中的异质性,从而使模型具有更好的泛化能力。例如,如果在一个文本数据中,一半的人是悲观情绪,另一半的人是乐观情绪,则基于关键词加总而得到的情绪指数可能在整体上既不表示悲观也不表示乐观,原有的异质性情绪消失了,而可用于构建微观层面(如每个消费者、投资者)的心理变量,避免由于加总而导致异质性心理信息的损失。
在统计学的实际工作中,可以在多个方面发挥作用。例如,在数据处理阶段,统计学工作者通常需要清理、整理和预处理大量的数据。可以通过自然语言处理技术,帮助工作者更快、更准确地处理非结构化数据。还可以用于生成统计报告、撰写研究论文等任务。统计学工作者可以利用生成初步的文本内容,并在此基础上进行修改和完善。这不仅提高了工作效率,还减少了重复性劳动,使统计学家能够将更多时间和精力投入到复杂的分析工作中。
的一个显著特点是其在定性分析与定量分析之间的桥梁作用。传统的统计学分析通常集中在定量数据的处理和分析上,而定性数据往往被忽略或仅作辅助分析。然而,能够将定性数据转化为定量分析的输入,从而实现定性与定量分析的统一。
例如,在市场研究中,传统的定量分析可能只关注销售数据、消费者行为数据等结构化数据,而忽视了消费者评论、社交媒体讨论等非结构化文本数据中的信息。能够从这些文本数据中提取出消费者情绪、偏好等信息,并将其量化,从而为市场分析提供更加全面的视角。
通过这种方式,使得统计学分析不再局限于传统的定量数据,而是能够结合定性数据,提供更加丰富和多维的分析结果。这种能力对于需要综合多种数据来源的研究尤其重要,如社会科学研究、政策分析等领域。
还可以成为统计学工作者的一个强大的助手。对于统计学工作者而言,编程是日常工作中不可或缺的一部分。无论是数据处理、模型构建,还是结果分析,都需要依赖编程来实现。可以在这一过程中提供重要的帮助。例如,当工作者在编写代码时遇到困难,可以提供代码示例、错误调试建议,甚至是整段代码的生成。
此外,在进行文献综述时,可以快速梳理和总结相关领域的研究进展。这不仅能够节省大量的时间和精力,还可以帮助统计学工作者更快地把握研究热点和趋势,从而在撰写论文时更加得心应手。
资料来源:《 与大模型将对经济学研究范式产生什么影响?》,计量经济学报,2024年第1期,作者:洪永淼,汪寿阳
编撰:上海社会科学院 马博然
供稿:市统计学会