生成式人工智能的数据合规风险和运算阶段的算法
以为代表的生成式人工智能在创造社会福利的同时,也带来了诸多风险。因此,当务之急是结合我国生成式人工智能发展状况,厘清其应用价值与潜在风险之间的关系,以便在不影响应用发展的前提下有效化解风险。
生成式人工智能的运行机理主要分为三个阶段,也就是机器学习和人工标记的准备阶段、运用算法对数据进行处理以求出处理后结果的运算阶段、数据运算产出成品向社会输出并产生影响的生成阶段。当前,生成式人工智能最突出的风险就是在准备阶段的数据合规风险、运算阶段的算法偏见风险以及生成阶段的知识产权风险。
准备阶段的数据合规风险。我国当前的数据合规体系是建立在《网络安全法》《数据安全法》《个人信息保护法》之上的,要求数据处理者在处理过程中采取必要措施以保障基本的数据安全、网络安全和个人信息安全。基于我国的法律框架,生成式人工智能的数据合规风险主要体现在三个方面:数据来源合规风险、数据使用合规风险、数据的准确性风险。首先是数据来源合规风险。以 为代表的生成式人工智能,初始阶段往往要采集大量数据以供其训练。基于此,可能会面临如下问题:一是收集个人信息用户是否同意;二是收集使用已公开的信息是否在“合理范围”;三是收集的样本受到版权保护,进行训练时可否被认定为“合理使用”。其次是数据使用合规风险。一方面是数据泄露风险。用户会将个人信息、商业信息甚至商业机密等传输给。分析运行机理不难发现,在迭代训练中,它也会使用用户输入的信息和交互信息。因此,如何保证这些数据的安全是一个很大的难题。另一方面是用户行使个人信息删除权比较困难。虽然 的隐私协议中规定了用户对其个人信息享有相关的权利,但是鉴于要求生成式人工智能系统删除数据的复杂特性,开发者能否实现对个人信息的真实删除,从而达到符合法规的要求还存在较大的不确定性。最后是数据的准确性风险。因为在 训练的早期,被投入到数据中的内容是由开发人员从网络中获得和选择的,因此就有可能出现因为数据的缺失或错误等情况而致使所生成内容的不准确。
运行阶段的算法偏见风险。以“人工标注”为辅助的“机器学习”,通过二者的结合,提高了生成式人工智能的智能化与精确性。但是,这也使得算法偏见的概率急剧增加。这种结合方法比传统的机器学习方法更能体现人的主观判断和偏好,这是由于人们将自己的偏好信息加入到机器学习的模型中,从而增加了人们的偏见,并且这种偏见很难被追踪和防范。在对 的运作方式进行分析后发现,算法偏见主要表现为两方面:其一,由于接收到的数据需要人工标注,因此在理解过程中存在着一定的误差。其二,对数据进行加工,当 对数据进行加工得出结论后,由于原始结果与大众期望不一致,需要对之进行修正,但这一过程同样会产生一定程度的算法偏见。
生成阶段的知识产权风险。生成式人工智能的兴起,对众多产业提出了新的挑战,而最具冲击之处,在于在生成阶段对知识产权领域所构成的挑战。因为生成式人工智能具有高度的智能化,所以在运算过程中,与之前的人工智能系统相比,其知识产权的归属发生了颠覆性的变化。是一种生成式人工智能,它在处理和分析数据方面远远强于分析式人工智能,其内容生成过程主要包括内容自动化编纂、智能化修整加工、多模态转换、创意生成等,直接影响着出版的内容生产模式和内容供应模式。尽管的创造者中包含一些自然人的创作因素,从某种意义上来说,更符合作品的构成要件,但这种由生成式人工智能所创造的作品能否被赋权,仍然存在争论,并且具体的赋权认定标准研究还处于空白状态。因此,知识产权风险成为生成式人工智能无法规避的第三大风险。
针对上述生成式人工智能三个方面的风险,建议采取以下三种应对策略来化解风险。
强化生成式人工智能企业的数据合规建设。生成式人工智能的发展不能只重能力和效率而忽视安全,相关企业应当利用良好的数据合规体系来保障数据安全。企业数据合规建设可以通过三个措施强化。其一,确立数据合规原则。其原则主要有四点,分别是合法合规原则、告知同意原则、正当目的原则、最小必要原则。其二,建立数据合规的多元技术机制。首先是宏观层面的行业标准要统一。各行业的主管部门,应该带头建立一个数据版本的“新华辞典”,让数据编码、制式等保持一致,确保数据的来源、内容和处理逻辑能够被“反事实验证”。其次是中观层面的内外审查体系。在内部设立数据合规专门机构,负责企业日常的数据合规处理,在外部引入第三方审查机制,对企业数据合规进行审计和伦理审查。最后是微观层面的伦理规范。将伦理规范与原则以法律形式嵌入到技术应用的行为逻辑中去,使之能够因势而为。其三,完善数据合规相关法律。首先是完善立法,在立法层面加快出台数据、人工智能方面的基本法,以作为企业数据合规法律方面的顶层指导。其次是执法完善,尽快明确各部门的执法权限,避免“多头治理”产生“九龙治水”的局面。最后是完善司法,完善电子证据制度,保障权利人的相关诉权。
技管结合矫正生成式人工智能的算法偏见。这主要包含两个措施。其一,针对生成式人工智能机器学习过程中所出现的先天性算法偏见,应当调整相关算法模型的学习路径,遵守相关规范和技术标准,在生成式人工智能投入市场前应当进行实质审查。鉴于生成式人工智能的特征,可将其纠偏工作分为两个方面:一方面,采用算法程序编译预防机器学习中可能存在的先天偏见;另一方面,设置人工标注的标准,提高从业人员的执业水平以应对人工标注的算法偏见。其二,针对生成式人工智能的自我学习而得出的后天性算法偏见,应当通过建立敏捷化、自动化、全流程的监管体系来消除偏见。首先,实现对算法技术的自动化监管。针对机器学习和人工标注实现自动化监管,每当出现算法偏见时暂停输出结果,返回查找问题根源。其次,建立多元主体监管模式。行政主体、平台、行业协会、企业自身多方主体参与监管。最后,落实全流程敏捷的监管机制。对生成式人工智能产出结论的全过程进行监管,切实降低由于算法偏见导致错误结论的概率,有效推进可信算法体系的构建。
采用有限保护模式,以防范生成式人工智能作品在知识产权方面的风险。相较于传统的人工智能技术,生成式人工智能的创新之处在于其拥有一定程度的自我认知,并且参与了输出结果的加工和创造。如果基于其自我认知,而将其所有成果都进行保护,那么未来可能会出现生成式人工智能公司手握“创作霸权”的局面。但从商业角度而言,生成式人工智能公司耗费大量金钱和技术资本打造高度智能的人工智能程序,如果对该程序衍生的“作品”完全不予保护,也有违公平。因此,对于生成物的知识产权属性,现阶段应该根据其技术运行模式、参与程度、创新程度等进行综合评判,对其产品的知识产权采用有所区分的有限保护模式。等到未来生成式人工智能发展到一定阶段,深入了解其运行机制时,再确定具体的知识产权保护模式。
以为代表的生成式人工智能方兴未艾,它所带来的法律风险,很多都应在既有法律框架内妥善应对。面对风险和问题,不能因为产业有风险和理论有争议,就限制生成式人工智能发展。这需要采取“法律+技术”的融合治理来营造一个好的市场环境,保障生成式人工智能市场茁壮成长。
(本文系国家社科基金一般项目“个人信息的竞争法保护疑难问题研究”()阶段性成果)
(作者单位:西南政法大学经济法学院)