海口打造大模型时代AI数据服务矩阵
数据标注是人工智能算法得以有效运行的关键环节,数据标注师则像人工智能(AI)的眼睛,带它看世界,理解世界,快速成长。5月26日上午,走进海口数字科技创新平台的百度智能云(海口)人工智能基础数据产业基地(下称“海口基地”),上千名大模型数据标注师正忙着为人工智能领域提供强大的数据支持。
去年8月,我市与百度开展政企合作,在秀英区建设海口基地。今年5月24日,国家数据局公布了首批7家全国数据标注试点基地名单,海口成为我省唯一入选城市。
打造大模型时代AI数据服务矩阵
“它很聪明,给的建议非常实用。”当天上午,在海口基地“文心一言”产品展示区,一幕幕人机对话的场景,引得现场体验者连连称赞。
被大家点赞的“文心一言”,是海口基地在全国率先探索大语言模型标注能力的典型应用场景,为我市数字经济产业发展注入了强大动力。据百度统计,“文心一言”用户规模已达2亿,日均调用量也达到了2亿,高效满足了用户工作、生活和学习需求。
“高速发展的大模型产业为数据标注带来了新的机遇,这就需要一支庞大且专业的团队。”海口数字科技创新平台运营经理何静介绍,海口基地主要承接自然语言处理等大语言模型相关业务,这也是百度首家专攻大模型的数据标注基地。“未来基地将持续培养AI训练师、模型精调师、指令工程师等,形成大模型时代AI数据服务矩阵。”何静说。
“基地落地运营以来,有力推动了我市数据服务产业集聚和数据人才培育。”秀英区科工信局相关负责人表示,下一步将继续加强数据标注产业的培育和发展,计划在未来3到5年围绕基地打造数字园区,打造人工智能“新基建”数据底座,推动数据标注产业向更高层次、更广领域发展。
先行先试促进人工智能产业发展
“我的工作主要是结合用户提出的问题,为大模型生成的文本回答进行打分,从而提高大模型的‘智商’。”当天,在海口基地办公室里,“00后”数据标注师陈泽哲正在显示器前熟练操作。
百度智能云服务商海南拓明云海科技有限公司项目负责人莫志恒介绍,海口基地的数据标注师具备通识性、专业领域知识能力,可高质量承接SFT、RM、评估等多类标注任务。截至今年5月,海口基地总建设规模达11400平方米,入驻本地数据标注企业9家,现场从业人员达1000余人,基地年产值有望突破5000万元。
大力发展数据服务产业,必须不断夯实数字基础设施。当天,记者在位于海口江东新区的中国移动(海南海口)自贸港IDC项目现场看到,施工人员正在仔细检查电缆安装情况、测试各项指标,该项目计划今年6月竣工验收。而中国电信海南(海口)国际信息园已于去年底投产试运营。2个项目正式投产运营后,将开展智算、游戏出海、智慧医疗、数字保税等多项业务。今年1月海口入选国家“千兆城市”。在数据安全有序方面,全省通过国家网信办数据出境安全评估的2家企业均为我市注册企业。
市科工信局相关负责人表示,我市将以试点为契机,在数据标注产业的生态构建、能力提升和场景应用等方面先行先试,进一步集聚龙头企业,为促进人工智能产业生态发展提供有力支撑。