引言
(资料图片)
数据治理的核心领域包括哪些?这些领域的发展现状与落地挑战是什么?未来数据治理有哪些发展趋势?
就这些问题,DataFun 与 虎兴龙、王慧祥、刘天鸢 等三位数据治理专家进行了访谈,专家们提出了以下值得注意的观点:
1. 元数据一开始是治理工具,如今也成为治理的目标;
2. 数据血缘庞大而复杂,难以全面覆盖,并兼顾准确性和可扩展性 ;
3. 数据质量将往内容质量、智能化的方向发展;
4. 数据安全的发展参差不齐,尚未形成可量化的评估指标;
虎兴龙: 腾讯 PCG 平台与内容事业群数据工程专家、研发组长 ,2011 年大数据领域从业经验,擅长大数据平台技术架构、数据治理与分析平台建设,先后在百度、VIVO、腾讯负责大数据平台、数据治理平台研发工作,目前担任腾讯数据工程专家、研发组长,负责腾讯欧拉数据治理平台的技术工作。
王慧祥: 字节跳动火山引擎 DataLeap 资深大数据工程师,负责字节跳动数据质量、资源优化等大数据领域的数据治理平台的研发工作,在海量数据场景下的存储资源治理、任务资源治理、数据 SLA 保障、离线及流式数据监控等场景上拥有较多的平台化、系统化解决经验。
刘天鸢: 阿里云大数据平台 DataWorks 产品经理,负责公共云商业化与数据安全能力建设。
DataFun社区|出品
数据智能专家访谈 第16期|来源
▼
01.
治理流程
虎兴龙:
数据治理的基本流程是:第一步,定义一个治理周期内的治理目标,最好是简单可量化的;第二步,基于目标搭建治理人员组织,治理是需要推动、协作的,也需要领导与业务支持的,治理的组织设计也很重要;第三步,确定治理的路径、方案;第四步,周期性迭代推进落地。
王慧祥:
数据治理一般开始于事后,即出现了问题再治理,通过对问题做归因,总结梳理出标准治理规则,定义治理的实施指标,并在组织内宣贯实施,定期复盘结果,即数据治理以组织驱动实施。
在全域数据治理的各个流程中, 目前来说对于数据建模和应用的规范性治理是业界关注但比较难达到统一的阶段 ,原因在于合理性的数据规范有多套,每种规范在不同的业务场景中都有起应用价值,如果一刀切地做一套规范性要求,可能对于业务来说会影响起发展效率,背离了治理的初衷。
对此,字节提出的“分布式自治”数据治理更好地避免了大规模组织建立规范实施“一刀切”式的治理,“分布式治理”更好地发挥了业务单元优势,以提效治理、服务业务为核心目标,针对各个业务不同阶段的不同痛点来进行有目标的治理。
▼
02.
核心领域
1. 元数据
虎兴龙:
数据治理的方方面面都需要元数据,对于治理数据的人,要弄清数据哪里有问题,就需要分析和监控元数据;对于应用数据的人,要找到数据、理解数据的含义,也需要通过完善、规整的元数据;对于管理者,要知道数据治理的结果如何,也需要通过元数据汇集一些评价指标来观测。举个比较形象的例子:对于图书馆的书籍治理,书的内容需要治理,书的目录、分门别类地正确摆放也是必须。
元数据管理从元模型开始,元模型可以简单理解为是数据一系列规则、规范的定义。例如:定义数仓分层标准、定义数据之间的引用规则,定义指标模型的规则等。在数据治理领域,元模型的主要意义在于拉齐各业务、团队的数据标准。
可观测离不开完善、及时的元数据,实现可观测才可以评价及发现问题,进而才可以有效治理。
王慧祥:
数据治理的工作离不开元数据,从元数据中描述的数据信息能够对数据进行较精准的描述,因此数据治理必须要通过元数据进行。
在元数据治理方面,元数据准确性和血缘准确性一直是大家关注的目标 ,也是需要一致投入精力去做的;而基于元数据的各种指标体系,资产应用等等均是元数据治理之上的场景孵化,是业界比较热的方向,利用好元数据,能够更好地发挥数据的价值。
元数据治理是目前比较前瞻性的方向,随着数据的海量增长,元数据本身也成为了一个“大数据”,对元数据本身的治理及其应用,越来越成为业界焦点,现在比较多讨论的关于“主动元数据”(active metadata)就是一种元数据的应用表现。
2. 数据血缘
虎兴龙:
数据血缘最大的挑战是全链路、全场景数据血缘的串联 ,因为数据流转涉及的系统、路径都比较多,且随着对数据价值挖掘的深入还会增加,导致血缘很难 100% 覆盖所有常见的数据流转。
王慧祥:
数据血缘的主要挑战是血缘准确性 ,主要难点在 2 个方面:
(1)如何定义准确性
准确性,通常通过血缘准确率来定义,分母是理论上血缘正确的资产量,分子是实际做到的血缘正确资产量;这里又要定义正确,也就是怎么判断血缘是正确的。在实践中,通常做如下定义:
血缘准确率 = 血缘准确资产量 / 资产量
其中,资产量是针对特定可枚举的资产类型的总资产类型量,比如 Hive 表数量、ClickHouse 表数量等。血缘准确资产,是指其上游、下游依赖正确,没有缺失、没有多余。这一点要如何验证,是相对困难的,常用的一种方式是 抽样验证。
(2)如何扩展血缘能力
造成血缘不够准确的问题是多方面的,如任务解析异常、非标准化任务建设等。所以另一个挑战问题是如何扩展血缘能力,举个例子,比如 Hive 表的血缘,假设所有 Hive 表的产出均以 SQL 99 标准任务产出,针对 SQL 99 的统一解析大概率能保障血缘。
但是,SQL 方言多,实际在业务支持中,由于业务特性需要的资产类型也很多,为了支持多种多样的资产类型,资产选型会很多,比如 Hive、Hbase、ClickHouse、ES、Doris、Redis、Kafka 等等,这些引擎通常很难做到开发语言统一,即 SQL 统一,这就给解析带来了难度。所以,血缘不准确的根本原因是资产类型的扩展导致的。
3. 指标体系
虎兴龙:
指标是最直接的数据应用,最常见的问题就是指标口径不一致、指标数据延迟等,现在 metric store 的概念也比较热,其希望构建统一指标服务来收敛指标口径。
指标体系目前的构建缺少系统化、平台化的解决方案 ,如果要收敛指标口径、保障指标 SLA,大部分还是深度依赖数仓开发人员的人工保障。未来的方案可能是从数仓建模、指标标准化定义、统一指标服务三个角度去用平台化的手段解决这个问题。
总结来讲,数据血缘、指标体系、数据质量三者是数据治理最核心的部分,是互相促进的关系,单独放弃一块,也不能把另一块做好。
4. 数据质量
虎兴龙:
互联网发展过了野蛮增值的阶段,大家都需要通过数据驱动深挖增长点。过去只看几个大数(DAU、新增、留存)就够了,现在需要非常详细的数据分析,数据需求多了之后发现效率、质量是个大问题,自然数据质量就成了人人都关注的热点。
数据质量从广义方面讲,包含数据内容的准确性、数据产出的及时性,数据的价值密度。 数据质量的监控、质量管理平台也分为从埋点质量、数仓质量、指标质量、报表质量。目前大部分解决方案比较局限。
王慧祥:
在主数据的治理部分,目前最受关注的领域还是数据质量,其中及时性是质量领域的基本要求,做数据质量治理的第一步就是要把及时性做到满足要求,之后再从另外的五个维度来进行主数据的治理。
数据质量的话题越来越转向了数据内容的质量 ,在质量衡量的六个维度中对于及时性的治理已比较成熟,其他几个维度描述的内容质量越来越对业务产生影响,所以核心原因还是数据内容质量的好坏直接影响业务。指标体系也是一样的逻辑。
整体而言,数据质量目前处于较为成熟的阶段,对数据的异常值、空值、波动等各方面的监控体系已较成熟,下一阶段可能是对质量问题的事后归因提效和基于质量历史事件的质量问题预防。
数据质量的核心任务围绕数据质量的 6 个维度,即 及时性、完备性、准确性、合规性、一致性、重复性来建设。
及时性方面以数据交付的 SLA 来衡量,由于大数据领域任务链路长、流量业务属性强、数据量大,如何保障数据及时产出一直存在较大挑战,这里涉及一整条数据链路的编排、调度、任务优化等措施。
关于完备性、准确性、一致性、重复性这几个维度,主要关注的是数据内容的质量问题,即需要读取数据的内容部分,来对其质量做判断,主要的挑战在海量数据规模下如何高效发现问题,具体来说是海量数据的处理能力和质量定义问题。
前者是一个工程问题,一般考虑的是如何加速计算,如使用 OLAP 引擎加速、使用预聚合方式加速、使用抽样策略加速、有效利用元数据属性来加速等;后者是一个策略问题,如何准确的定义质量问题,需要结合大量的经验、历史数据分析、业务要求等方面综合定义,现在的一个热门发展趋势是利用机器学习能力分析、训练、发现、告警,将质量问题交给 AI 来处理。
合规性方面, 是近期安全领域比较热的话题,主要受政策驱动,以敏感信息为基准,难点是如何在海量数据下确认是否包含敏感、非合规信息,现在这一问题也逐渐在考虑以机器学习的方式来解决。
可观测性 是设计数据生命周期全环节的整体能力表现,它是事后数据质量治理的扩展,通过对历史数据的加工分析,对数据内容、质量等方面做出预测,更直观的观察、预测数据。
总的来说, 数据质量问题正逐渐往智能化方向发展,这是一个必然趋势,也是一个挑战。
5. 数据安全
刘天鸢:
数据安全主要包括数据识别(数据分类分级)、数据审计(包括 API 层面)、数据防护、数据共享、身份认证、加密等子方向。
这些子方向常用的技术方法:
① 数据识别:自然语言处理(NLP)、图像识别、知识图谱(KG)等。
② 数据审计:用户异常行为分析(UEBA)、全链路分析。
③ 数据防护:脱敏算法、水印算法、网络 DLP、终端 DLP、隐私计算。
④ 身份认证:IAM、零信任、堡垒机。
⑤ 加密:透明加密、公钥基础设施 PKI。
常用的技术选型:
① 数据识别:ip+ 端口主动扫描,拆词归类。
② 数据审计:agent 流量解析、网络流量解析。
③ 数据防护:脱敏(遮盖、替换、加密、hash 等)、水印(伪行、伪列、空格)、网络 DLP(解析 SMTP、HTTP、FTP、SMB 等)。
④ 身份认证:临时口令、多因素认证等。
⑤ 加密:密钥管理服务、数字认证服务、密码计算服务、时间戳服务、硬件安全服务。
核心技术环节:
① 高效率的数据分类分级,谓词切分与语义识别技术。
② 全链路测绘+风险监测。
③ 同态加密、多方计算、联邦学习、隐私求交等。
核心性能指标:
数据安全还没有到拼性能指标的时候了,也没有特别强的要求。
核心挑战:
数据是流动的,挑战就是要解决数据流动和数据安全天然存在的矛盾。这个和网络安全里常用的暴露面收敛的思路是完全不一样的。
常见的应用场景:
DSMM 成熟度模型里定义的采集、传输、存储、处理、交换、销毁都涉及。数据安全治理优先解决数据采集、数据存储、数据处理场景下的安全。
前沿趋势:
① 数据分类分级和数据血缘的关联。
② 全链路数据分析,有两个难点:如何将端、应用、数据资产三个层面的信息进行关联分析;如何测绘出数据流转,并从数据流转中发现风险。
③ 隐私计算。
▼
03.
智能化与自动化
王慧祥:
DataOPs、AIOPs 是数据治理的进阶流程化表示形式,将数据治理要解决的问题进行模块化拆解,并以流程做串联,在各个模块的部分,通过规则或者 AI 的方式来分析、预测数据治理问题。
虎兴龙:
当前 DataOps 的概念比较受关注,DataOPs 是平台的建设理念和方法,是数据治理的手段。DataOps 和数据治理都比较强调要加强元数据管理,完善元数据。
同时国外也有比较热的词叫 Data Fabrics,从数据最终价值输出上,构建一个高效的数据知识网络(Data Fabrics)可能才是数据治理的目标,DataOps 是手段。
- End -
访谈人: 虎兴龙 腾讯PCG平台与内容事业群数据工程专家、研发组长
访谈人: 王慧祥 字节跳动火山引擎DataLeap资深大数据工程师
与谈人: 刘晓坤 DataFun
撰文: 刘晓坤 DataFun
▌专家介绍
虎兴龙
公司 :腾讯
职位 :PCG 平台与内容事业群数据工程专家、研发组长
个人介绍 :11 年大数据领域从业经验,擅长大数据平台技术架构、数据治理与分析平台建设,先后在百度、vivo、腾讯负责大数据平台、数据治理平台研发工作,目前担任腾讯数据工程专家、研发组长,负责腾讯欧拉数据治理平台的技术工作。
王慧祥
公司 :字节跳动
职位 :火山引擎 DataLeap 资深大数据工程师
个人介绍 :负责字节跳动数据质量、资源优化等大数据领域的数据治理平台的研发工作,在海量数据场景下的存储资源治理、任务资源治理、数据 SLA 保障、离线及流式数据监控等场景上拥有较多的平台化、系统化解决经验。
刘天鸢
公司 :阿里
职位 :阿里云大数据平台 DataWorks 产品经理
个人介绍 :负责公共云商业化与数据安全能力建设。
▌数据智能专家访谈
“数据智能专家访谈”是 DataFun 新推出的内容系列,本系列旨在访谈不同公司的核心技术人员,得到专家在不同领域的洞察,包括但不限于行业重点、热点、难点,增加读者对行业技术的了解。
Copyright @ 2015-2022 新科技版权所有 关于我们 备案号: 沪ICP备2022005074号-4 联系邮箱:58 55 97 3@qq.com