数字化转型背景下,证券行业如何借助大数据及 AI 技术构建一站式数据安全管理机制

aixo 2024-08-31 19:03:29
大模型 2024-08-31 19:03:29

【课题研究机构】第一创业()证券股份有限公司

【摘要】在数字化经济迅猛发展的背景下,企业正加速其数字化转型,数据资源成为国家数字经济的核心要素。数据的安全性是发挥数据价值的前提和基础,尤其是数据成为证券行业内新的关键要素资源后,其安全性更关乎国计民生,上升到国家战略层面。本课题借助大数据及AI技术构建了一套以数据安全中台为核心策略、以数据智能分类分级结果为管控驱动、以各项数据安全管控能力为抓手、以数据应用场景为切入点的一站式数据安全管理机制,包括但不限于数据安全策略、数据分类分级管理、数据监测管理、数据存储管理、数据传输管理、数据使用管理等方面的策略与技术能力。课题完成了数据智能分类分级模型构建及模型训练,准确率达到设定目标(80%以上),完成数据流转链路监测、用户异常行为监测、数据库加密、数据库静态脱敏、应用系统动态脱敏、日志脱敏、数据访问时限管理、数据访问黑名单管理等数据安全管控能力开发及验证。搭建数据安全治理平台实现数据智能分类分级及各项数据安全能力集中配置及管理,为第一创业证券股份有限公司(以下简称第一创业)后续数据安全体系完善及数据安全管理奠定夯实的基础。

01

建设背景及目标

数据资产作为证券行业的关键资产和创新驱动力,其在行业内的应用广度与深度持续扩大,对数据安全风险的管理和防范提出了更高要求。近年来,证券行业内的数据安全事件频发,对于客户的个人信息财产安全、企业自身口碑甚至行业秩序稳定都造成了不同程度的影响。数据安全治理的重要性以及必要性成为证券行业不可忽视的一环。数据资产的安全性是发挥数据价值的前提和基础,尤其是数据成为证券行业内新的关键要素资源后,其安全性更关乎国计民生,上升到国家战略层面。

本次课题以“平台化、智能化、集中化”作为数据安全管理的核心理念,尝试以更为开放、包容、精细的管理策略,致力于打造一套基于证券行业数据智能分类分级以及数据应用场景的数据安全管控机制,在证券行业应具备一定的普适性、代表性、先进性及可推广性。

02

数据安全中台整体技术架构

为深化数据安全管理的精细化实践,本课题在数据治理的元数据、数据标准及数据分类分级等领域的成果基础上,进一步优化了数据分类分级策略及分类分级过程,同时探索数据安全中台的技术能力,并将安全管控机制与数据分类分级、公司内部的数据使用场景相结合,探索在不同应用场景下的数据存储、数据展示、数据传输、数据使用等方面的技术管控能力及管理策略,继而探索以数据安全中台为核心的数据安全管理体系,为第一创业全面建设数据安全管理体系及技术体系奠定基础。

bertha英文名怎么读_BERT_bert英文名寓意

图1 数据安全中台架构及主要功能示例

03

基于的元数据信息完善技术

元数据信息的完整性与准确性是数据管理以及分类分级的重要基础,由于历史原因,第一创业已上线的信息系统存在元数据信息缺失或不准确的情况。在本课题研究过程中,第一创业借助大模型对10多万数据项元数据信息中的中文注释进行补充和完善,为数据智能分类分级奠定基础。

bertha英文名怎么读_BERT_bert英文名寓意

图2 基于的元数据信息补充过程示例

04

数据智能分类分级模型

随着第一创业自身业务的不断拓展,公司的数据资产也越来越丰富,数据分类分级面临的最大挑战是传统的数据分类分级工具已经满足不了快速增长的数据量的需求。本课题研究的一项关键工作是构建智能分类分级模型,实现数据智能化的数据分类分级,减少人工参与的工作量,提升数据分类分级准确率。结合《证券期货业数据分类分级指引》和公司业务发展需求及内外部数据消费场景,第一创业对自身的数据分类分级框架及制度进行了更加细致的研究,创设性地运用大数据技术和数据挖掘的学习能力,构建出一套智能的分类分级算法,相较于以人工和正则为主的传统分类分级,此智能分类分级识别效率高、可扩展性强,可以有效应对快速增长的数据量。

4.1

分类分级策略完善

在本次课题研究中,结合公司业务发展需求及内外部数据消费场景,对自身的数据分类分级体系框架进行了进一步完善与拓展,构建出一套适用于第一创业自身的分类分级规则。本次分类分级规则完善主要以已构建数据标准项为基础,对标《证券期货业数据分类分级指引》,重新调整各项数据标准项对应的数据分类及数据安全分级。数据分类分级的实现过程是将当前各类系统元数据信息映射到数据标准,从而映射到所对应的数据分类及分级。

BERT_bertha英文名怎么读_bert英文名寓意

图3 第一创业数据分类分级体系示例

4.2

智能分类分级模型训练

基于完善后的数据分类分级策略,选择BERT( from )模型作为本次智能分类分级的主要实现模型,进行了数据智能分类分级技术的研究与开发。BERT模型工作原理是利用架构来学习双向的语言表示,在训练阶段,BERT模型可以通过阅读大量的文本数据来学习单词和句子之间的关系,从而获得丰富的语言表示。与传统的单向语言模型不同,BERT能够同时考虑一个单词左右两侧的上下文信息,因此能够更好地理解句子的语境和含义,可以用于各种自然语言处理任务,比较经典的应用就是诸如文本分类、命名实体识别、语义理解等,因此BERT模型与本次数据智能分类分级的需求较为契合。

BERT模型虽然有许多优点,但它的使用成本也是很大的,模型参数较多,需要进行耐心的调试,最主要的是它需要较多的训练样本来避免模型出现过拟合现象。样本数据的数量、样本数据对整体数据的覆盖率是影响数据智能分类分级准确率的重要因素,本次课题过程中,第一创业先后三次通过人工方式分别标注了4千、2万以及1.5万条数据作为智能分类分级模型的训练样本,每次样本数据的覆盖率也在逐次增加,从第一批4千条样本覆盖率20%,到第二批2万条数据覆盖率100%,而第三批1.5万条数据则是根据模型训练过程中识别准确性较低的数据类型,针对性增加样本。通过对元数据和表数据内容信息的梳理与归纳,衍生出40余个数据特征,加入模型进行智能分类分级模型的训练。

bert英文名寓意_BERT_bertha英文名怎么读

图4 BERT模型训练内容示意

通过不断努力,智能模型的有效数据识别率逐步实现了从69.1%、到74.2%再到83.1%的递增,达到了课题建设规划中智能识别有效性80%以上的目标。截至本课题报告编写时,数据样本以及语料库特征依然在不断地持续增加、迭代优化之中,相信在不久的未来,智能识别的有效性依然存在较大的上升空间。此外通过分析模型预测得分,发现对于得分大于0.5的预测项,单项预测准确率都在80%以上,整体准确率达到90%以上,这类得分的样本累计占比高达总样本的81%;而对于预测得分小于0.5的预测项,模型效果下降速度较快,后续可以进行人工干预。通过这样的策略,可以有效地保证分类分级结果的可用性。

05

数据流转测绘及异常行为监测

数据流转是指数据在不同系统、组织或个人之间的传递和交换过程,在公司的运营过程中,数据流转已成为各种业务活动、管理活动中不可或缺的一部分,随之而来的则是数据安全风险的不断增加,因此全面掌握数据流转的情况以及内容,并基于此开展组织的数据安全评估和管理工作尤为重要。

为了全面清晰地梳理网络环境中的数据流转情况,同时尽可能降低对原始网络环境的改造与影响,第一创业采用“网络流量旁路监控”的方式,通过网络探针对交换机或路由器等网络设备的镜像端口进行监测,基于的数据包捕获机制,定期解析镜像端口拷贝过来的数据,绘制敏感数据流转地图并进行监测分析。在此过程中,主要由网络分接口( Tap)和数据过滤器( ) 两部分组成,每当需要解析数据时,由网络分接口从网络设备驱动程序中收集数据拷贝,再利用BSD (BPF)算法对网卡接收到的链路层数据包进行过滤,最后根据用户定义的规则将所需数据包的内容数据交给数据安全中台。

bert英文名寓意_BERT_bertha英文名怎么读

图5 旁路数据包的数据解析过程

通过对数据流转过程的梳理,可以帮助第一创业更为全面地梳理组织内部的数据应用场景,评估潜在的数据安全隐患,更合理地制定数据安全管控策略,降低数据安全事件的发生概率。基于网络旁路流量的监测,除了可以用于数据流转展示之外,也可用于用户异常行为的监控及告警。

bertha英文名怎么读_bert英文名寓意_BERT

图6 数据流转展示地图

06

数据应用安全管控

在具备数据智能分类分级以及数据安全标签中台能力后,需要进一步抽象和提取关键业务与数据使用场景,并对抽象后的场景建立“数据安全等级—数据场景管控要求”的二维矩阵,将数据安全能力应用到数据安全场景上。在本课题中,第一创业从数据应用场景出发,提炼出公司在日常运营过程中必不可少的数据安全管控环节,并在此基础上开展落地研究实践工作,包括数据存储加密、数据静态脱敏、数据动态脱敏、日志脱敏、数据访问控制、黑名单管理等功能。

6.1

数据存储安全

通常情况下,数据库中的数据是以明文形式进行存储和使用的,一旦面对数据文件或备份磁带丢失、拖库攻击等威胁,可能引发严重的数据泄露风险。因此,本次课题研究中,采用数据库加密与静态脱敏相结合的方式,开展数据存储管理,有效避免以上风险的发生。

数据存储加密:在本次课题实践中,第一创业证券通过数据安全中台的TDE插件,具备了在数据存储时对敏感数据进行透明加密的能力,并且支持任何通过MySQL//等协议的应用访问。

bert英文名寓意_bertha英文名怎么读_BERT

图7 TDE插件部署示意图

数据库静态脱敏:本课题借助数据安全中台的数据分类分级智能识别能力,可以针对特定的数据库、文本文件等对象,开展数据扫描及敏感数据识别,并对识别出的敏感字段依照数据安全中台中提前预设定好的脱敏规则实施静态脱敏,并将脱敏后的内容单独传递到目的地址,以便开展后续的各类业务活动。

BERT_bertha英文名怎么读_bert英文名寓意

图8 数据静态脱敏示意图

6.2

数据动态脱敏

在传统的网络安全管理机制中,数据的使用权往往与数据的访问权保持高度的一致性,“能访问即可用”变成了一种思维定式。然而在数据安全的体系之中,有关数据使用的控制则需要进行更为细化的延伸,基于数据字段级的使用管控才是数据安全的管理目标。本课题通过研发数据安全网关,将其串联到各种系统或终端的网络链路之中, 使其能够快速解析网络通道中各种数据信息,结合数据安全中台中不同数据分类分级结果的访问策略,以实现对响应数据进行实时动态脱敏的目标。通过此种方式,确保凡是流经数据安全网关的敏感数据,将借助数据安全中台的数据识别、数据智能分类分级能力以及脱敏策略,实现实时自动的数据动态脱敏过程。

bertha英文名怎么读_BERT_bert英文名寓意

图9 数据安全网关部署示例

6.3

日志脱敏

本次课题研究借助SFTP文件传输技术,结合数据安全中台中配置的数据分类分级结果以及脱敏策略,实现了对于应用日志的脱敏管理。

6.4

数据应用访问控制

数据的访问控制管理是保护数据免受未经授权的访问和修改的一项基本安全管理策略,在传统的网络安全体系之中就已被普遍应用。然而,传统的访问控制更多围绕用户控制的角度开展,多以系统用户权限控制及访问形式控制为主,而非细化到数据字段层级,因此对于数据的访问控制策略相对粗放。第一创业通过打造数据安全中台,搭建数据安全网关,将传统的系统用户权限与网关、数据访问相结合,让数据安全中台既具备了基于组织、用户、角色、IP等加以阻断的黑名单能力,又具备了基于数据对象、数据安全等级、数据访问需求时限的统一控制能力,实现了数据访问一键集中管控的目标,大大降低了数据安全的运营成本。

07

总结与展望

本课题研究借助大数据和人工智能技术,完善了第一创业的数据安全管理机制和管控策略,显著提升了数据安全管理的效率和效果。在第一创业落地了数据安全治理平台,实现数据资产发现、数据分类分级策略管理、数据智能分类分级功能、各类数据安全管控策略配置等数据安全能力的集中化、线上化管理。

本次课题研究的数据安全管控策略及技术架构对于证券公司而言,既需其数据安全团队具备建设数据安全中台的技术能力,同时又需要其构建较为完善的数据安全管理机制,这对公司数据安全管理团队人员的业务及技术储备都有一定的要求,这是目前开展全面数据安全管理的难点之一。另外,在本课题研究过程中,我们发现,随着数字化时代的发展,数据的存储、流转、使用等环节的场景越来越复杂,呈现形式逐渐多样化。如何快速理清公司内部错综复杂的数据流转及应用场景,是做好数据安全管控的关键,也是目前数据安全管理的难点之一。

未来,第一创业证券将持续健全数据安全体系,完善数据安全管理团队,梳理各类数据使用场景,强化数据安全能力建设,深化科技创新成果应用,助力证券行业的科技进步和发展。