高质量数据要素供给体系的构建:激活源头、畅通渠道、发挥标杆作用
■曾庆铎赵超
数据要素作为数字经济时代的核心要素,在提高生产要素的配置效率、推动生产要素创新性配置方面发挥着重要作用。目前,高质量中文数据库稀缺,高质量数据清洗成本高,高质量训练数据集匮乏。同时,数据标准不统一,数据交易规则不一致,降低了数据要素交易活跃度,数据共享不充分,催生“数据孤岛”,制约了高质量数据生成和供给。高质量数据要素的迫切需要与不平衡不充分的数据要素供给之间的矛盾日益突出。高质量数据要素供给体系的构建,核心在于激活高质量数据要素源头,关键在于畅通高质量数据要素流通渠道,着力点在于发挥数据标注领军企业的标杆作用,激发市场活力。
归集高质量训练数据集,打造高质量中文语料数据库。一是政企牵引,扩大高质量数据要素源头。发挥政府机关、科研院所、企事业单位丰富的数据资源优势,支持各类经营主体通过数据流通交易平台提供高质量数据集。二是平台赋能,建立高质量数据配套服务机构。搭建高质量的文字、图片、音频、视频等多模态大模型预训练语料库,支持在依法设立的数据交易机构开展数据流通、交易融合应用,探索建设行业性高质量数据交易配套服务平台。三是基地支撑,打造高质量数据产业集群。鼓励开展大模型研发、训练和应用,重点支持在通用大模型的基础上开发适用于垂直行业的专用大模型,优先提供高质量数据集推广示范、低成本算力保障等综合支持。建立人工智能产业数据资源清单,建设“产业数链”,打造以数据为核心的虚拟产业集群。四是人才驱动,创建新型高质量数据行业队伍。推动数据与行业知识深度融合,开发数据产品,满足算法设计、模型训练、产品验证、场景应用等需求,逐步建立和完善复合型数字经济人才队伍。积极培育大数据企业,完善大数据产业服务支撑体系,夯实数据要素市场产业基础,催生创造数据标注师、分析师、数据资产评估师等一批新型职业岗位。
加强公共数据高质量供给,推动公共数据定向开放。一是加大公共数据开放共享力度,推动公共数据和社会数据定向有条件开放和及时更新。二是优化公共数据开放目录,进一步完善数据治理和审核机制。三是健全公共数据开放评价体系,持续开展公共数据开放水平动态评估,对出现异常的指标及时回溯分析,以评促改推动公共数据质量提高。四是强化公共数据治理能力,加强公共数据全生命周期管理,充分利用政务信息化项目管理抓手,将数据治理要求贯穿项目管理始终。五是完善数据基础体系,以监管促进各级各部门提升公共数据开放的种类、数量和质量。
培育数据标注领军企业,构建数据产业服务生态。一是建设数据精细化标注平台,开发智能云数据管理服务系统,研究平台和服务系统激励机制,鼓励企业研究互联网数据全量实时更新技术、多源异构数据整合和分类方法,研发数据清洗、标注、分类、注释和内容审查等算法及工具。二是培育本土数据标注领军企业,积极探索建立一批数据标注产业基地、园区,推动数据的采、存、洗、标、训等业务全面发展。三是制定数据标注行业发展规划,逐步完善数据采集标注行业的规范和标准,建立智能语音、计算机视觉、自然语言处理、数据集交换共享、数据集安全隐私等方面的行业应用标准,形成数据标注行业的标准化体系,推动基础数据服务产业健康有序发展。
培育数据交易市场生态,盘活高质量数据资产池。一是打造数据要素市场和市场化配置改革先行区。加强政策支持和引导,明确试点目标和定位。建立跨部门协调机制,推动数据共享和流通。二是畅通数据交易渠道。鼓励各类经营主体通过数据交易场所开展数据交易活动,推动区域性、行业性数据流通,鼓励公共数据加工形成的数据产品和服务进场交易。三是探索多样化数据定价模式。推动用于数字化发展的公共数据按政府指导定价有偿使用,鼓励企业与个人信息数据由市场自主定价,促进数据要素价格形成。四是拓宽行业数据空间。支持各行业主管部门引导本行业龙头企业、数据经纪人打造行业数据空间,对符合条件的数据产业给予相应的补贴或税收优惠,在智能制造、节能降碳、绿色建造、新能源、智慧城市等重点领域,大力培育贴近业务需求的行业性、产业化数据商,助力广东打造数字经济创新引领型城市。
作者单位分别系广东工业大学经济学院和中共广东省委党校校刊编辑部
本文系国家社会科学基金课题()、党的二十大精神研究专项课题()阶段性成果