大模型时代,DataOps 助力 EtLT 架构成为数据处理主流
大模型对数据的实时性要求极高,通过自动化的数据集成和处理流程,能够快速响应数据变化,为大模型提供即时的数据支持,从而实现实时分析和决策。在这个场景下,EtLT数据处理架构逐步替代ETL和ELT架构成为主流。
在数据仓库时代,ETL(提取、转换、加载)架构是数据处理的主流模式。然而,随着大数据的兴起,ELT(提取、加载、转换)架构开始受到重视,它允许数据首先被加载到数据仓库中,然后再进行转换,这在处理大数据量时更为高效。
但随着数据湖和实时数据仓库的流行,ELT架构的局限性开始显现。为了解决这些问题,EtLT(提取、轻量转换、加载、转换)架构应运而生。EtLT架构在提取阶段增加了实时数据获取和非结构化数据的能力,在转换阶段增加了轻量级的数据清洗和转换,以适应实时数据处理的需求,同时目标端的加载也增加了对于大模型、数据湖和实时数据仓库等新一代数据环境的支持。
总之,EtLT架构,能够支持复杂结构化(数据库,日志,文件)和非结构化(视频、二进制文本、语音)实时数据抽取和转换,快速响应市场变化,为企业提供即时的业务洞察。
●复杂数据源的支持
随着大模型和实时大数据的普及,现代企业的数据源日益多样化,从大模型、云服务、SaaS应用、本地数据库到传统SAP、CRM系统实时API等等。这就要求在新时代需要具备强大的数据源兼容性,以实现数据的无缝集成,目前在全球范围里,美国的和、源自中国开源的 以及其白鲸开源的商业版,都是支持100-200种以上数据源的实时获取和批量获取。而且,支持获取非结构数据,例如图片、语音对话,或者是数据库的,而数据集成的目标,也不是过去的数据库,而是复杂的混合云(阿里、华为、本地K8s、AWS),加上大模型API,向量数据库等新时代软件产品。因此,要支持好这些数据源,一定也是新一代产品的基本要求。
的价值
在大模型时代,的价值越来越凸显,无论是在技术架构上,还是在成本和灵活性上,都会帮助企业快速实现新一代的逻辑数据湖或者大模型数据准备工作。
●成本效益与灵活性
在上述架构当中,通过减少数据的重复存储和不必要的转换,降低了存储和计算成本。同时,它允许数据在加载后进行二次转换,提供了更高的灵活性和可扩展性。
通过减少数据的重复存储和不必要的数据转换,降低存储和计算成本。同时,类似像白鲸开源的这样的工具,可以利用SQL-Like的脚本和可视化工具进行数据转换,降低了人员上手难度和人员成本。
同时,支持数据在加载到数据湖或数据仓库之前进行初步转换,然后在需要时进行更深入的分析和二次转换,提供了更高的灵活性和可扩展性。
●数据质量和治理
大模型时代的更加注重数据的质量和治理,通过在数据集成过程中进行初步清洗和转换,提高数据质量,并在数据存储后进行进一步的数据治理,确保大模型训练和推理的数据准确性和可靠性。
类似像开源免费的 在大数据调度和大模型训练过程中就可以统计相关数据质量,并可以快速控制下一步的相关工作,避免浪费大模型算力和生成错误的大模型。
●的自动化与智能化
自动化是的另一大特点。通过自动化的数据集成流程,企业可以减少人工干预,降低错误率,提高数据处理的效率。
同时,智能化的工具和平台,如机器学习和人工智能算法,可以进一步优化流程,实现更高级的数据管理和分析。
●多云与跨平台集成
在多云和混合云环境日益普及的今天,需要支持跨云平台的数据集成。这不仅要求工具具备高度的灵活性和可扩展性,还要求它们能够适应不同云平台的特性和接口。
多云和混合云是未来企业使用的趋势,固定业务使用IDC机房降低成本,快速增长业务使用云来进行弹性支撑,加上大模型的云上API或者私有API的支持,必须既支持云还支持私有化,这点在开源免费的 支持的120种数据接口中就可以看到,1/4的接口是云接口,1/5接口是大模型和SaaS接口,其它的是大数据和非结构化接口。
当然在中国跨平台还有一个特殊性,那就是信创环境的支持,这点上白鲸开源的支持得更好一些。
的挑战与机遇
挑战
1. 技术复杂性
EtLT架构的实施需要更多的技术知识和专业技能。企业需要投入相应的资源进行技术团队的培训和建设,以应对技术复杂性的挑战。
2. 依赖目标系统的处理能力
EtLT架构依赖于目标系统的处理能力,对性能和稳定性有较高要求。企业需要选择合适的数据平台和工具,确保系统的高性能和稳定性。
3. 管理和监控挑战
的多阶段处理需要更复杂的管理和监控工具。企业应采用先进的监控和报警系统,确保数据流程的稳定性和可靠性。
4. 数据变更管理复杂性提高
EtLT架构中数据转换的分离增加了数据变更管理的复杂性。企业需要建立有效的数据变更管理机制,以应对源系统变化带来的挑战。
5. 对工具和平台的依赖
EtLT架构的实施通常依赖于先进的数据处理工具和平台,如 、 Spark、 Flink等。企业需要进行额外的投资和集成工作,以实现的自动化和智能化。
机遇
1. 数据处理能力的增强
大模型的引入,要求能够处理更大规模、更复杂的数据集,以支持模型的训练和推理。
2. 自动化治理的兴起
随着数据源和实时数据的增加,传统的数据治理流程已经无法满足需求,自动化治理成为必然趋势。
3. 多云集成与ETL一体化
多云集成能力和ETL一体化设计,是适应大模型时代下数据集成需求的关键。
4. 与数据虚拟化
和数据虚拟化技术,为提供了新的解决方案,尽管目前仍处于发展阶段,但未来潜力巨大。
未来大模型与的结合
1. 数据集成与大模型的对接
选择支持EtLT架构的数据集成工具,确保能够处理实时数据和复杂数据源,直接为大模型提供所需数据。工具应具备良好的扩展性和灵活性,以适应大模型不断变化的数据处理需求。
2. 数据治理与大模型的协同
建立严格的数据治理框架,确保数据的质量和一致性,为大模型提供准确可靠的数据输入。通过自动化的数据质量检查和反馈机制,及时发现并纠正数据问题,优化大模型的输出结果。
3. 构建以大模型为核心的协作机制
打破部门壁垒,建立以大模型为核心的数据共享和协作的文化。通过平台,实现数据科学家、工程师和业务分析师之间的无缝协作,共同推动大模型的创新和应用。
4. 大模型的持续集成和持续部署(CI/CD)
将数据集成流程纳入CI/CD管道,实现数据流程的快速迭代和部署。这有助于快速响应业务需求变化,加速大模型的创新和应用。
5. 大模型性能优化和成本控制
通过性能优化,确保数据处理的速度和效率,满足大模型对数据实时性的需求。同时,通过合理的资源分配和成本控制,实现经济效益的最大化,支持大模型的可持续发展。
结语
随着技术的不断进步,将继续演化,以适应新的数据处理挑战。多云集成、自动化治理、大模型支持等新兴趋势,将进一步推动的发展。同时,新技术如、、数据虚拟化等,虽然在某些方面提供了替代方案,但在可预见的未来,仍将是企业数智化升级的核心驱动力,特别是在大模型的助力下,将更加智能化、自动化,成为企业数字化转型的重要支撑。
在大模型时代,不仅是企业数智化升级的重要驱动力,也是企业保持竞争力的关键。企业需要不断优化和升级实践,以适应不断变化的技术环境和业务需求。通过,企业可以更高效地处理和分析数据,从而实现数据驱动的决策制定,推动企业的持续创新和发展。随着技术的不断进步,也将继续演化,以满足企业在大模型时代下的数智化需求。
·申报人“郭炜”简介:
郭炜,人称“郭大侠”,白鲸开源CEO, 基金会成员, PMC , , 中国开源社区发起人和首席布道师。
郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国软件行业协会智能应用服务分会副主任委员,全球中小企业创业联合会副会长,TGO鲲鹏会北京分会会长, Asia 论坛主席,全球中小企业创业联合会副会长,人民大学大数据商业分析研究中心客座研究员。
郭炜曾作为演讲嘉宾出席波兰峰会、北美Big Data Day,并被评为虎啸十年 杰出数字技术人物,中国开源社区最佳33人,中国2021年开源杰出人物。郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,, ,Hbase等,是国内开源社区领军人物。
白鲸开源
白鲸开源是一家开源原生的 公司,主要运营2个 顶级开源项目(和),提供相应的商业版本解决企业多数据源、多云及信创环境的数据集成、调度开发和生产运维等问题。
★以上由郭炜投递申报的观点性文章,最终将会角逐由数据猿与上海大数据联盟联合推出的《2024中国数智化转型升级先锋人物》榜单/奖项。
该榜单最终将于7月24日北京举办的“2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场