用“标签”来作为数据资产的最小单元组织载体,用“标签类目体系”作为数据资产目录的整体组织结构载体。
插图

标签类目体系
《标签类目体系:面向业务的数据资产设计方法论》
最近工作上需要配合公司业务,构建标签体系,为了避免陷入一个个标签的具体逻辑上,而是先形成自己的一个对于标签认知的整体框架,再基于这个框架开展各项工作,在这个背景下,花了一周的时间,好好的学习了这本书,不得不说,确实对于自己补齐知识体系,搭建完整的标签相关的方法论框架起到了很好的帮助。而且梳理针对各个场景、关系、对象的标签有丰富的示例维度,是一本数据人可以一直放手边的工具书。
数据资产之所以称为资产,必须从价值出发,整理、管理、优化对业务真正有帮助、能给企业带来效益的数据资源。 把数据资源封装成业务人员能理解的形态,是后续资产价值化的必要前提. 因此迫切需要一种新的思路来研究面向业务侧的数据资产建设方法。目前越来越多的数据人开始谈论标签,他与传统的数仓建模有什么区别?标签的价值体现在哪里?应用标签对于企业来讲,什么方式算得上是最佳实践?本书系统的向我回答了我这一系列对标签建设的疑问。
为什么需要标签,而非传统的数仓建模?
为什么需要标签,而非传统的数仓建模?对于每一个企业,具体是标签合适、还是传统数仓模型合适,还是简单的excel数据管理,要结合企业当下具体所处的现状来分析,本书是从数据管理的视角,面向已经具备一定数据驱动的业务模式,这一大前提背景下,来探讨为什么是标签,而非传统的数仓模型,我觉得可以从以下几个视角细细去体会理解。
首先,体现在数据资产的可复用上面,数据资产化的最终目的就是让业务人员也能阅读、理解、方便的使用数据,因此将数据资产转化为可阅读、易理解的载体就是把数据资源标签化。虽然很多企业没有提出“标签化”概念,但也在努力让数据资产往业务方向靠,其实也是在做标签化的趋同动作。
其次,主要体现在面向业务可理解,近几年,随着大数据实践转向成熟期,关注点从数据同步、数据开发逐步转移到数据资产管理和治理,业内当前的主流方案,如DAMA数据管理知识体系、数仓建模理论等,都偏向于底层技术实现,而非上层业务应用角度对资产进行的统一管理。业务视角下,需要更具价值的数据资产,需要更易于阅读和理解的数据资产。
另外,重点还体现在数据价值的可衡量上面。数据已成为五大生产要素之一,未来它必然像土地、劳动力、资本、技术等生产要素一样,是可交易,有回报的,数据不再是躲在业务背后的支持力量,它已经走到前台,本身具有商业价值。标签将是数据商品化后最合适的颗粒度。
标签方法论与数仓建模的异同
标签方法论与数仓建模既有联系也有差异。它们都探究如何对数据资源进行提炼、操作、加工,都是数据资产构建方法,但是标签方法论更关注企业全局数据的整体梳理、类目化组织、面向业务端的资产复用,而数仓建模则偏重数据治理、数据规范、按领域建模,通过领域建模看到的是某个业务场景已有数据的切片,解决当前数据问题。
标签方法论与数仓建模的差异主要体现在建设思路和建模角度上。建设思路上,数仓建模(主数据建模)是基于现有业务流程的,是在现有的业务流程的信息化建设基础上整理出的核心数据。但在大数据时代,企业的新业务模式层出不穷,数据使用形态变化多端,数仓建设越来越呈现出疲软的态势。问题从来都不是导致这种问题的思维方式上能解决的。与传统数仓先有业务流程或数据需求再建设数据体系的思路相反,标签类目体系的建设思路是先构建标签资产,再构建数据服务化能力,组合式地满足业务端快速变化的场景化需求。建模角度上,数仓建模基于领域建模,标签方法论基于对象建模,描述的是对象本质信息。
标签方法论与数仓建模也是有联系的,并不是非此即彼的关系,它们也可以相互学习和共存。标签方法论中的对象、属性等概念借鉴于数据库、数仓建模。数仓建模分层理论中,可以增加标签层的设计与开发过程,同时数据人员在搭建数仓时,对数据资源的切割处理也可以借鉴标签理论中的面向业务、可复用、良好的组织形式等思路。因此可以在业务层之下搭建标签层,在标签层之下搭建数仓层,数仓层再与原始数据层对接。
附关键术语的定义和解释
- 数据
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态及相互关系等进行记载的物理符号或这些物理符号的组合。“数据”狭义的定义可以认为是企业原始拥有的、未经整理的信息载体。
- 数据资产
由企业拥有或控制的,能够直接为企业带来经济利益的数据资源。通常需要有较好的组织形式,数据资产才可以被编目、被管理、被高效使用。
- 数据中台
数据中台是一套可持续“让企业数据用起来”的机制。数据中台是依据企业特有的业务模式和组织架构,以有形的产品和实施方法论为支撑,构建的一套持续不断把数据变为资产,并服务于业务的机制。
- 标签
标签是指从原数据加工而来,能够直接为业务所用并产生业务价值的数据载体。从本质上来讲,标签本身也是一种数据(或映射指向数据),它是对物理层数据信息项的业务化封装,是数据资产的一种良好的组织形式,是一种概念、逻辑定义,因此标签必须是可阅读,容易理解的。
- 元标签
元标签是标签的标签,即对标签的属性信息(特别是业务化属性信息)梳理。
- 类目体系
类目体系指的是对某一类item(事物)的分类、架构、组织方法。
- 数据类目体系
数据类目体系是将企业原始拥有的数据字段,采用类目体系的方式进行梳理所形成的目录结构。
- 标签类目体系
标签类目体系是将企业业务上所需的标签,采用类目体系的方式进行梳理所形成的目录结构。
- 对象
对象指现实世界中所需要研究的目标。实体(Entity)和关系(Relationship)在标签类目体系方法论中都属于对象。实体对象可以细分为“人”和“物”。
- 人
“人”指会主动发起行为动作的对象。
- 物
“物”指行为动作中的被动对象。
- 关系
“关系”指人和物、人和人、物和物等两个对象间发生的某种连接。
- 场景
“场景”指某环境下,具体对象(人、物、关系)在时空中的表现。
- 后台类目体系
后台类目体系面向数据资产管理人员,是企业数据资产的全集,较为稳定,按照统一的分类方式进行标签的挂载、查看、管理。
- 前台类目体系
业务人员通过后台类目体系选择并获得标签使用权后,可以根据场景需要,将标签按照前台场景组织新类目,形成前台类目体系。