发布于:2024-06-26 15:31:35 来源:产品展示 点击量:14次
当前,国内企业正处在数字化转型关键时期,随着数据处理和分析技术的创新发展,数据需求日趋多元,对于大多数企业来说,正面临着数据总量爆发式增长、数据质量堪忧、数据安全隐私等挑战。如何高效实现数据管理和数据运营,怎么样提高数据质量和确保数据安全,做好基本的数据治理工作很重要。这也是作者撰写这本书的初衷。本书凝聚了国内工业公司数据管理专业技术人员的集体智慧,是一本数据从业者都需要的工作指南
数据治理(Data Governance)是一个正在持续不断的发展的新兴学科,与众多新兴学科一样,目前数据治理存在多种定义。
狭义数据治理:是对数据资产管理行使权力和控制的活动集合,主要包含规划、监控和执行等,指导其他数据管理职能的整体执行,在高层次上执行数据管理制度。因为此时的数据治理仅指数据管理的组织、制度、流程、绩效和标准等,称其为相对“狭义”。
(1)内部风险管控的需要,应对包括、商业数据涉密、财经数据作假、数据质量低下影响管理决策等。
(2)为满足外部监管和合规的需要,比如国资委企业受到国资委监管的监管、金融企业受到中国银行保险监督管理委员会的监管等。
广义数据治理:是围绕将数据作为企业资产而展开的一系列的具体化工作,数据治理是保证数据的可信可靠可用,满足业务对数据质量和数据安全的期待的一系列举措。主要包含组织为实现数据资产价值最大化所开展的一系列持续工作过程,诸如明确数据相关方的责权、协调数据相关方达成数据利益一致、促进数据相关方采取联合数据行动。具体包含数据战略、数据管理(数据架构、时序数据管理、主数据管理、指标数据管理、元数据管理、数据质量管理、数据安全管理)、数据运营(数据确权、数据需求、数据服务、数据评估审计等)、数据流通(数据产品、数据交易、数据价值等)等一系列数据管理活动的集合。
根据数据治理的对象不同,数据治理可大致分为面向业务系统的数据治理和面向分析系统的数据治理。
(1)面向业务系统的数据治理:主数据管理就是典型的面向业务系统的数据治理,它核心要解决的问题是跨业务、跨系统和跨流程的企业核心数据的一致性、正确性和权威性的问题。其以主数据为核心,目标是确保业务应用及其集成与交互的顺畅,提高数据质量,降低业务风险。
l 从数据流向看,主数据的识别、定义、建模应先于业务应用(实际情况有所差别)。
l 业务应用在主数据的支持下才能顺畅运行,分析域的数据湖、数据仓库、分析应用等,以及对应的元数据治理则要在更后面一些。
l 在信息化时代,主数据是ERP系统实现全企业集中管控的核心技术基础;在数字化时代,主数据治理对于克服以微服务为代表的碎片化企业应用架构带来的企业整体管控困难的问题仍然具有核心基础意义。
l 主数据仍旧能用元数据来进行描述,所以它也有自己的元数据,可以纳入元数据管理。
面向分析系统的数据治理,重点主要是元数据治理。元数据治理解决“数据4问”:我是谁?我在哪里?我从哪里来?我往何处去?其以元数据为核心,目标是理顺数据分析建模过程,提高数据质量,为构建分析型数据应用提供保障,主要解决的是在数据分析过程中,指标数据计算的口径一致性,数据质量,标准规范、成本优化及安全管控问题。因为数据本身还是来源于业务系统,所以面向业务的数据治理是面向分析的数据治理的前提,如果业务系统的数据治理没做好,分析系统的数据治理就很难从根本上解决。
建立秩序(组织、制度、认责、标准、规范、考核) +提供工具(数据仓一体化数据平台+数据治理工具) 、营造生态(数据管理+日常数据运营)+创造价值(共享、开放和变现)
数据治理的管理者视图可以概括为“五域模型”,分为“管控域”、“过程域”、“职能域”、“技术域”、“价值域”。
管控域:在数据治理战略指导下制订企业数据治理组织,明确组织的责、权、利,岗位编制及技能要求。一般在中大规模的公司会设立由高层领导及相关专家组成的数据治理委员会,审批数据治理相关的重大决策,并制定数据治理的相关制度、流程,建立数据认责及绩效考核机制,以支撑数据治理的活动。
职能域:是数据治理的主体,明确数据治理的对象和目标。依据数据资产的构成,又分为主数据治理、交易数据治理和指标数据治理,包含数据标准体系、数据模型管理、数据质量管理、数据安全管理和数据治理组件。
技术域:是数据治理的支撑手段。数据治理的支撑手段,提供数据治理所需的数据架构、数据治理平台,包括元数据管理、主数据管理、数据指标管理、时序数据管理、数据质量管理、数据安全管理等功能模块。
过程域:是数据治理的方法论。数据治理过程包括评估与分析、规划与设计、实施的PDCA循环。在评估与分析阶段,要评价现有数据治理的成熟度、风险及合规性,业务对数据治理的需求。在规划和设计阶段,要明确数据治理的目标和任务,制定数据治理的相关制度和流程,设计数据标准、数据模型、数据架构,及数据治理的实施路径。在实施阶段,要制订数据治理的相关制度、流程细节,选择正真适合的数据治理工具并通过定制化开发满足数据治理要求。
价值域:数据治理的目标是通过对数据资产的管控挖掘数据资产的价值,并通过数据的流动、共享、交易变现数据资产。具体包括三个方面:
(2)数据共享:通过实现信息整合和分发机制,支持跨业务、跨部门,跨行业、跨企业的信息流通和共享。
数据治理框架主要由数据资产全生命周期的管理职能活动和支撑保障共两部分构成,其中,管理职能活动体现了数据治理管理体系各环节需要开展的具体工作,包括数据战略、数据治理、数据运营、数据流通4个模块23项管理职能,通过界定各项职能活动的定位和内在联系,相对完整的覆盖了企业数据治理管理工作方向;支撑保障模块则定义了确保职能活动有效开展所应具备的前提和支撑能力,包括组织保障和技术支撑共两个领域六项支撑手段,具备较好的系统性、协同性、开放性和扩展性,通过跟管理职能活动相结合,针对性提出各种细化管理要求,确保执行过程准确到位,实现制造业转变发展方式与经济转型目标。
(2)数据管理模块是所有数据治理业务的基础,与数据运营模块是数据流通模块发挥作用的必要前提。
(3)数据运营模块是在数据管理基础上,对数据应用与服务能力的建设与打造,既包括对内共享支撑,也包括对外数据服务。
(4)数据流通模块是数据管理模块和数据运营模块职能健全优化的驱动力和动能。
(5)组织保障是制造企业开展数据治理的重要保障,为组织实施各项职能活动提供制度规范、管理机制和人才团队等基础资源,是数据资产管理得以开展的重要基石。组织保障包括组织架构、制度规范、管理机制和人才教育培训等内容。
(6)技术支撑是保障数据治理框架职能活动有效执行及配合组织管理机制正常运作的工具基础,它需要出示技术先进、功能完善、运行高效和安全可靠的支撑能力。技术支撑保障体系包括了平台工具和技术创新两方面内容。
(1)结合DCMM及行业标杆企业的最佳实践经验,形成了具有行业特色的工业公司数据治理体系。
(2)完整的数据治理包括战略、组织、制度、流程、绩效、标准、工具及数据运营、数据流通及价值变现。
本体系架构以数据管控为核心,通过数据管控统领数据治理的10大职能领域,包含数据战略、数据架构、主数据管理、元数据管理、数据指标管理、时序数据管理、数据质量管理、数据安全管理、数据交换与服务、数据开放与共享。
数据如同企业中的其他资产一样,也具有生命周期。工业公司在进行大数据治理时需要管理数据资产,也就是要管理数据的生命周期。
数据生命周期包括数据的规划、创建、传输、存储、加工、发布、使用、归档和销毁9个环节。
马斯洛需求层次理论,是由美国心理学家马斯洛于1943年在《人类动机理论》中所提出的该理论将人类的需求像阶梯一样从低到高分为5个层次。
同样的,数据治理贯穿数字化不同阶段,企业不同的角色和不同阶段时期,对数据治理的核心关注和需求是不同的,做好需求管理,更好的满足不一样的角色对数据治理需求。数据治理是一个长期的过程,不是一蹴而就,应全方位治,通过源头、过程、应用治理逐渐形成数据全生命周期治理体系。为了更好地确保数据治理项目能有条不紊地进行,少走弯路,不走弯路,一步一个脚印实现每一个具体目标,一定要做好数据治理需求管理。
(1) 时效性需求:保障数据及时性等方面的需求,业务部门数据产出和报表的日常及时性需求。
(2)质量需求:保障数据质量方面的需求,数据质量有保障、准确、完整、有效。
(3)便捷需求:包括查找和加工便捷性需求;数据好找、好看、好用,实现数据资可复用,有好的用户体验需求。解决了企业数据资产查找难,应用难,管理难等问题。
(4)安全运营需求:包括数据安全合规保证、成本优化和控制等需求,实现数据资产“可见、可懂、可用、可运营”通过持续的数据运营,数据将大规模应用于各业务环节、场景中,更好地赋能业务,在实现“提质增效、降本增利”发挥关键作用。
(5)价值实现:实现资产化、数据资本化需求。数据资产流通,开放共享(跨层级、跨地域、跨系统、跨部门、跨企业、跨业务)、实现企业数据价值挖掘及数据资产变现升值。
前3个属于数据自理低层次需求,通过外部条件就能够完全满足;后两个属于高层次需求,通过内部因素才能满足,且需求是无止境的。低层次的需要基本得到满足以后,激励作用就会降低,高层次的需要会取代它成为推动行为的主要原因。
企业数据管理主要包含:数据资产目录、数据模型管理、数据标准管理、数据指标管理、主数据管理、元数据管理、时序数据管理、文件和内容管理、数据质量、数据安全等内容。
由于受篇幅限制,本文重点介绍企业数据管理最重要的内容,主要包含:主数据管理、指标数据管理、时序数据管理、数据安全管理。
主数据是指企业满足跨部门业务协同需要的核心业务实体数据。是长期存在且应用于多个系统,描述整体业务数据的对象;例如:客户、物料、供应商、设备。主数据相对交易数据而言,属性相对来说比较稳定,准确度要求更高,且唯一识别。主数据管理是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。通过对主数据值来控制,使得公司能够跨系统的使用一致的和共享的主数据,提供来自权威数据源的协调一致的高质量主数据,减少相关成本和复杂度,从而支撑跨部门、跨系统数据融合应用。
主数据管理的主要内容有“两体系、一工具”,即主数据管理标准体系、主数据管理保障体系和主数据管理工具。其中,主数据管理标准体系是主数据管理工作的重中之重,主数据管理保障体系为主数据管理保驾护航,主数据管理工具确保主数据管理有效落地。
指标数据是企业在战略发展、业务运营和管理支持各领域业务分析过程中衡量某一个目标或事物的数据。一般是由指标名称、时间、指标数值等组成。指标数据管理指组织对内部经营分析所需要的指标数据来进行统一规范化定义、采集和应用,用于提升统计分析的数据质量。
l找指标:确定指标梳理范围,自上而下展开指标,自下而上提炼指标;确定指标的数据源头,整理形成指标字典清单。
l理指标:对指标分类,确定指标所在主题域,梳理指标维度、属性,建立贴合业务的指标体系。
l管指标:制定指标管理办法、制度流程,进行指标认责,落实指标责任到岗,建立企业常态化管理机制。
l用指标:规划并建立指标体系在数字化中的应用。通过从多源异构系统中采集指标数据,经加工处理后形成主题域的数据集市,提供指标服务、指标分析,进行绩效考评,并加以持续改进。
时序数据是指时间序列数据。是按时间顺序记录的数据列,在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以时点数。时序数据管理主要是通过对时序数据的采集、处理和分析,帮企业实时监控企业的生产与经营过程。
工业企业具有海量的数据和丰富的场景,例如为了监测设备、生产线以及总系统的运作时的状态,在各个关键点都配有传感器、采集各种数据。这一些数据是周期或准周期产生的,有的采集频率高,有的采集频率低,这些采集的数据一般会发送至服务器,进行汇总并实时处理,对系统的运行做出实时监测或预警。
从企业实际痛点出发,围绕数据的“采、规、治、用”,着重关注时序数据专项治理工作。
数据安全管理是指在企业数据安全战略的指导下,为确保数据处于有效保护和合法利用的状态,多个部门协作实施的一系列活动集合。包括建立组织数据安全治理团队,制定数据安全相关制度规范,构建数据安全技术体系,建设数据安全人才梯队等。
构建完整的工业互联网安全体系,是实施数据安全管理的重要保障。根据行业特点和管理要求,这里将工业互联网安全体系架构分为工业互联网合规保障体系、组织建设、数据安全管控、工业互联网云平台、人员能力、技术工具。
数据安全体系框架通过3个维度构建而成,包括政策法规、技术层面和安全组织人员。数据安全治理体系框架在符合政策法规及标准规范的同时,需要在技术上实现对数据的实时监管,并配合经过规范培训的安全组织人员,构成了数据安全治理整体架构的建设。
数据安全管理贯穿数据采集/产生、传输、存储、处理、交换、销毁各个阶段,不同阶段所面临不同程度的风险,同时也描述了事后审计工作的内容。
数据运营是数据治理从专项工作转变为企业日常经营管理体系的推进过程和实施策略,指数据的所有者通过对于数据的分析挖掘,把隐藏在海量数据中的信息、规律和知识加工成数据服务、数据产品,以合规化的形式发布出去,供数据的消费者使用,并在数据使用的过程中产生更多价值。
数据运营是通过管理数据资产的配置、使用和维护,从而改善内部响应效率,提升数据资产效益的重要手段。
数据运营管理包括两个重要方面,一是数据运营的核心活动职能,二是确保这些活动职能能够落地实施的保障措施。数据运营处于价值创造实现的核心地位。基于大数据平台的技术支撑,及依托平台实现数据全生命周期的管理,为数据运营价值实现铺平道路。
数据运营管理框架包含6个活动职能(数据需求、数据服务、数据开发运维、数据确权、数据应用管理、评估与审计)和2个保障措施(运营组织和制度体系)。活动职能是指落实数据运营管理的一系列具体行为,保障措施是为了支持活动职能实现的一些辅助的组织架构和制度体系。
1)数据确权:是指对各级组织机构(权利主体)所拥有的数据权进行确认的过程。数据确权是数据运营的前提,只有厘清依附在数据上各项数据权利所对应的归属主体,才可以更好的激励经营主体的积极性。
2)建立需求管理体系:快速响应业务需求。高效的需求管理:实现需求的统一管理和项目信息的共享,通过部门间的整合,充分提升信息化项目实施所带来的效益。高效的问题管理:建立符合平台管控要求的问题管理机制,优化问题管理过程,提高问题处理的速度,提升服务质量和服务水平。在数据需求管理方面,建立需求承接流程、数据加工流程和应用保障流程,以有效应对各个部门产生的频繁的数据采集和数据使用需求。
3)数据开发运维:在数据平台或有关数据服务上,对数据采集、数据处理、数据存储、数据开发等过程的日程运行及维护,建立开发管理规范与管理机制,开发过程和质量进行监控与管控、监管数据平台或有关数据服务的正常运行,提供持续可用的数据内容等管理活动。数据资产全生命周期的运维管理,日常运维,监控,事件和问题管理,统计分析和优化,应急管理及预案等内容。
4)数据服务:主要是指按照使用上的要求,对数据来进行加工处理,形成标准化的数据提供途径,从而面向消费端提供数据支撑的过程。数据服务管理则是对服务内容、服务过程、服务质量、服务效率等要素进行管理的过程。数据服务通常可以分为8类,包括数据集、API接口、数据报表、数据报告、数据标签、数据订阅、数据组件、数据应用等。通过数据服务的开发,能够提前封装满足使用需要的结构内容,支持规模化发展,更好更快的响应数据使用需求。
5)数据应用:指的是对数据的使用,使其发挥价值,通过对组织数据进行统一的管理、加工和应用,对内支持科研管理、市场营销、供应链流程优化、智能制造、生产运营等活动,对外支持数据开放共享、数据服务等一系列活动从而提升数据在组织运营管理过程中的支撑辅助作用。
6)评估与审计包含:数据效益评估、数据运营评估、数据管理成熟评估、绩效评估及数据审计等内容。数据效益评估主要指对数据运营活动的工作质量、成效水平、应用范围和成熟程度等予以具体的、客观的、恰当的评价。数据运营评估是对数据在运营期间效果的整体评价。绩效评估是用来评估、评价数据治理相关责任人职责履行情况的,可以作为数据治理工作的执行情况的参考。数据审计保障数据交换、交易过程中一手数据、增值服务数据的真实性、可用性、合法合规性,以及质量健康度,维护数据消费者的合法权益。
数据资产化需要经历原始数据资源化、数据资源资产化、数据资产资本化的过程,最终实现数据价值释放和价值变现。
数据流通是实现数据社会化利用和实现数据资源价值的必然路径,数据流通的目的在于实现数据的分析价值(使用价值),但是数据流通环节体现的是数据的交换价值。数据交换价值的基础是数据关联性、准确性和可用性(数据质量)。
数据资产化是指使数据符合资产标准定义的过程,涵盖数据治理、登记确权、质量评价、价值评估、资产入表、数据产品开发、挂牌交易等全链条,涉及面广,体系庞大而复杂。
数据运营管理框架包含4个活动职能(数据产品、价值评估与定价、数据开放共享、数据交易管理)和2个保障措施(平台支撑和制度体系)。
1)数据产品管理:以数据价值发现为目标,根据特定的业务需求和场景,对数据按照一定的逻辑来加工处理,最终形成多种形式的程序、结果数据或根据数据产品形成的结果性文件等。数据产品管理是为了管理这些数据产品本身而进行的活动。规划数据产品体系、开展数据产品全生命周期管理、数据产品的赋能创新。
2)数据价值评估与定价:是指通过构建价值评估体系,计量数据的经济效益、业务效益、投入成本等活动。数据价值评估是数据资产管理的关键环节,是数据资产化的价值基线。目前,国内外相关标准化组织、财会领域组织、技术咨询服务企业均从多个视角开展积极探索研究
3)数据开放共享管理:是收集数据获取需求,授予数据访问权限及对数据共享开放工作进行管控的管理活动。企业明确数据共享开放的范围、要求、安全责任、协议的签订、禁止事项、数据共享开放的合作模式,制定数据共享开放目录、共享开放级别、脱敏规则,更新维护数据共享开放目录,收集数据贡献开放需求,对共享开放提出申请、审批、执行、稽核管理。
数据共享是指打通组织各部门间的数据壁垒,建立统一的数据共享机制,加速数据资源在组织内部流动。数据开放是指向社会公众提供易于获取和理解的数据,对于政府而言,数据开放主要是指公共数据资源开放,对于企业而言,数据开放主要是指披露企业运行情况、推动数据融合等。明确数据共享开放的范围、要求、安全责任、协议的签订、禁止事项、数据共享开放的合作模式,制定数据共享开放目录、共享开放级别、脱敏规则,更新维护数据共享开放目录,收集数据贡献开放需求,对共享开放提出申请、审批、执行、稽核管理。
4)数据交易管理:以拓展对外数据实际使用量为目标,利用营销推广等手段,将数据产品的权属转让给数据产品需求方的管理活动。
湖仓一体数据平台是实现企业业务数据资产化和数据资产价值化提供数据管理、使用、运营、合规的基础平台,成为数据生产要素市场化的有力支撑。
企业需要一套数据工具软件来支撑数据治理组织的日常工作机制,落实数据标准,管理数据全生命周期的流程,从源头数据的采集、到数据汇聚、到数据加工、到数据应用,使数据使用者和数据供应者对数据有个一致性的理解,促进用数据进行运营、用数据来管理。数据治理工具对数据治理进行支撑是必不可少的。
数据治理系列工具可以实现对数据治理组织、数据标准、主数据、指标数据的有效管理。
工业大数据治理需要多种数据治理工具软件的支撑,包括以主数据为核心的套装软件、以数据资产目录为核心的数据资源管理工具、以元数据和数据模型为核心的数据中台,此外,数据交换与服务平台属于中间件,IT技术人员要熟练驾驭。时序数据记录了工业过程,支撑工艺与质量控制等。这些工具互有侧重,需要根据实际需求予以剪裁。
湖仓一体大数据平台是近几年出现的一种数据架构,它把面向企业的数据仓库技术与数据湖存储技术相结合,同时吸收了数据仓库和数据湖的优势,使数据分析师和数据科学家可以在同一个数据存储中对数据来进行操作,同时,它也为公司进行数据治理带来更多的便利性,为企业提供一个统一的、可共享的数据底座。
l 数据治理平台是企业数据规划、数据标准落地的载体,实现数据治理统一标准、统一规则的支撑。
l 数据治理平台是有效实施主数据、元数据、数据指标管理,提供规范统一的数据服务的平台。
企业数据治理工具一般包含数据治理门户、主数据管理、数据指标管理工具、元数据管理工具、时序数据管理工具、数据模型工具、数据交换与服务工具、数据资产运营工具、数据质量管理工具、数据安全管理工具等部分。
工业数据治理门户是工业企业数据治理组织的工作平台,用于定义数据治理组织的工作流程和工作标准,包括组织架构、制度规范;发布各类数据标准,包括主数据、数据指标等;评估数据治理组织绩效和数据质量;查询基于知识工程的知识库。
数据资产运营工具包含数据资产目录工具和数据资产价值评估工具。数据资产目录,也被称为数据资产地图,支持用户按照自己的业务需求和企业标准,构建企业级数据资产目录,实现对海量数据来进行梳理和归类和数据资产的全面盘点,为用户提供完整的数据资产视图,并提供数据资产展示、交换和共享。数据价值管理主要通过对数据内在价值的评估、数据成本和收益的管理来实现。
在工业领域,通过数据资产目录工具,可以让数据拥有者直观、清晰地掌握所拥有的信息资源;数据使用者也可以通过数据资产目录发现自己所需要的数据现状,并发出需求申请。通过对数据资源的梳理与编目,为数据的挖掘分析和开发运用提供了准确、全面的数据支撑。数据资产目录在数据治理解决方案中属于非必选项,但在数据资产管理解决方案中属于必选项。
数据模型管理工具是企业数据模型的管理、比对、分析、展示的技术支撑,用于提供统一、多系统、基于多团队并行协作的数据模型管理,解决企业数据模型管理分散、无统一的企业数据模型视图、数据模型无有效的管控过程、数据模型标准设计无法有效落地、数据模型设计与系统实现出现偏差等多种问题。在工业领域,企业架构与数据架构往往在一起构建,核心业务流程、业务对象、业务活动定义先在数据架构中逐步落地,然后映射到数据的逻辑模型,之后落地到物理模型。
数据指标管理工具用于管理数据指标标准,包含数据指标信息维护、数据指标治理及指标应用等功能,用以打通指标、元数据、数据质量、数据标准各子模块的关系,确保数据接入规范、标准统一,数据质量可控、数据可用。
主数据管理工具用于定义、管理和共享企业的主数据信息,可通过数据整合工具或专门的主数据管理工具来实施主数据管理。主数据管理工具具备企业级主数据存储、整合、清洗、监管及分发5大功能,并保证这些主数据在各个信息系统中的准确性、一致性、完整性。
通过元数据管理工具可以了解数据分布及产生过程。该工具是针对元数据管理职能而开发的。元数据管理已经深入数据的物理模型。工业数据领域的元数据管理组件往往根据具体项目来进行定义。
时序数据管理工具用于物联网、车联网、工业互联网领域中的过程数据采集、过程控制,并与过程管理建立一个数据链路,属于工业数据治理的新兴领域。从工具维度看,时序数据管理工具与传统时序数据库差异很大,后者局限于车间级的可编程逻辑控制器,而非企业级。
数据质量管理工具从数据使用角度监控、管理数据资产的质量,是针对数据质量管理职能而开发的,以实现数据全生命周期的质量管理。其能根据标准规则配置数据质量检查策略,通过调度中心实现数据质量的检查,发现问题数据,以及将问题数据分派给相关人员修正,并能根据需要形成数据质量评估报告和问题处理报告等。
数据集成交换工具是一系列数据技术工具的集合,涉及采集、汇聚、加工、共享等多个环节,是支撑其他数据治理工具的中间件,被广泛应用于源系统的数据采集、系统之间的数据交换、多源头数据的汇聚与加工等,属于PaaS层中的一系列组件。数据交换与服务工具的搭建,除要考虑技术外,还要考虑到工业数据治理的长远战略。
数据安全管理工具是结合信息安全的技术手段,保证数据资产在使用和交换共享过程中的安全。其中包括数据采集管理、数据传输管理、数据存储管理、数据处理管理、数据交换和共享管理、数据销毁管理6类工具。
由于湖仓一体大数据平台承载了越来越多的目标功能与价值期待,其所包括的功能模块也越来越复杂、多变,我们将湖仓一体大数据平台通常所包括的功能以及基本的层次关系简要地利用下图来概括,并对主要功能模块做简要描述。但在实际实施过程中,很多模块并非如图所示的泾渭分明,往往是相互交织渗透,牵一发而动全身。
湖仓一体大数据平台通过对企业内、外部多源异构的数据采集、存储、计算、分析挖掘、数据服务、应用与可视化、作业调度、治理及集成开发环境门户等,使数据在企业内部可以优化管理,在企业外部可以释放数据合作价值,是企业数据资产管理和服务的中枢。
湖仓一体大数据平台技术起源于B2C互联网平台的应用。在数字化转型的大趋势下,湖仓一体大数据平台在工业领域中的应用迅猛发展,本篇把湖仓一体大数据平台解读为工业数据的应用平台,是数据治理平台服务的对象,因为数据从采集到处理的整个过程中都会产生成本,只有被应用才会创造出价值。
以上对大数据平台的主要功能模块进行了简要概述,每种功能的实现,既可以由组织自行开发,也可以从现有成熟技术、商用或开源工具中选择,目前常见的工具简要归纳如图,但由于技术的快速迭代发展,图中的信息也在不断更新中,仅作为参考。
数据平台的概念几经变化、沉淀,经历了理想阶段、理论阶段,现在基本进入了理性的发展与落地阶段。大数据平台一方面在数字化转型的趋势下迎来快速成熟发展、大显神通的时代,另一方面也面临着技术变化、经济环境发展、监管力度加大、管理要求提升、人才紧缺的各种挑战。数字经济的到来已势不可挡,大数据平台的建设也在机遇和挑战中成为众多机构、组织、企业必须完成的任务。我们所需要的就是明确自己的方向,选择一条路径,以开放创新、不断学习的开拓者心态和严谨缜密、笃定务实的工匠精神来建设适合自己的大数据平台。
数据治理知识体系涉及管理和技术等多个学科领域,是一个非常复杂的系统工程,如何全面而系统地构建较为完整的数据治理体系,是企业实施数据治理的关键。企业数字化转型当前工作重心应是充分发挥数据要素驱动作用。
这本书既具有国际性理论高度,也具备面向中国工业公司的实操性,涵盖了企业数字化转型过程中所需要的数据治理基本概念、实施路径和参考案例,不仅包含业界数据治理热点和难点,还包含笔者多年的数据项目实战经验总结,同时包括作者对数据治理的理解和思考及在项目实践中的落地实施方法。对于高层管理者,本书是一本推动企业数据治理的方法论;对于中层管理者,本书是一本配合企业数据治理的纲领性指南;对于数据管理人员,本书是开展数据治理项目的数据治理中各种技术方案和工具的手册,可以轻松又有效指导企业全方位开展高质量的数据治理。