《数据资产论》

场景第一,数据第二,算法第三。

—— 书中摘录

插图

数据资产论


《数据资产论》

随着数据产品的从业时间越来越长,对于数据资产的感知也越来越深,对于数据作为资产,在确权、定价、交易流通等环节也越发产生浓烈的兴趣,便发现了这本王汉生教授所编著的《数据资产论》一书。书中第一至七章是王教授关于统计学、数据分析领域的一些观点,第八至十章是关于“数据要素”在确权、定价、资产化、流通中的逻辑、技术、法律等方面的问题。

本书开篇简明扼要的指出了自己的数据观。什么是数据?电子化的记录都是。什么是资产?按照会计学的定义能够产生预期经济收益的资源都叫资产。从而,不是所有的数据都可以称为资产,只有那些能够产生商业价值的数据才可以称为资产。

数据的不确定性

初从事数据相关行业的人,往往会陷入追求数据维度,以及数据算法等细节里,一直幻想着找寻一个更好的数据维度特征,一个更好的数据算法,将数据结果做的更加精准,并孜孜不倦,乐此不疲的努力着。但遗憾的是,这般努力往往会陷入一种误区。因为他忽略了数据的本质,数据在刻画商业价值里有着本质上的不确定性。本书开篇提到践行数据的商业价值,应该先从认识数据的不确定性开始,本人对于这一观点无比认同。

对于很多从业者而言,极小化,甚至消灭不确定性,是他们努力的方向,而实际上,大千世界,正是有了不确定性,才更加精彩,整个数据科学,正是因为有了不确定性,才有了存在的意义。不确定性产生的两大根本原因,一是无知,二是无奈。无知对应的人类知识范畴,无奈对应人类对应资源稀缺的博弈,这种不确定性永远不可能被绝对消除。理解这个道理对于数据分析意义重大,从此你将不再对于模型预测的精准度抱有不切实际的幻想,应当认识到哪些可为,哪些不可为。

从当前的时间点来看,绝大多数业务问题都不可能抽象为数据可分析问题,因为多数业务跟数据分析没有关系,比如酒店前台给客人办入住手续、搬砖砌房子等都跟数据分析没关系。但是随着物联网技术的发展,很多业务问题就跟数据分析有关系了,比如那时候可能是机器在搬砖,会研究如何搬砖效率最高;同样的办理入住手续我们可能会分析客人的倾向,如何提供更好的服务。因此短期来看,绝大部分业务都跟数据分析没有太大关系,因为根本没有数据支持,但是从长期来看,跟数据分析有关系的业务问题会越来越多。

因此,数据可分析性只有在下面两种情况才会体现出来,一是当数据的量达到一定程度时;二是当这组数据与所预测问题高度相关时。良好的数据可分析性一定是要不断优化,不断接近所预测问题真相的,当然预测精度问题无法得到完美接近,只能是不断接近真相。

数据治理

要改善数据质量,书中认为必须得依靠市场,不大可能通过自律或监管来实现。因为市场会定价,质量不好、对业务没有改善的数据不会有市场。

在数据治理上,书中不太倾向于设立一个统一的数据监管机构,但确实需要统一的关于数据规制方面的法律法规。法律法规可以被看作是社会基础设施平台上的一部分,任何人破坏数据治理的法律法规就会有相关的部门去处理,而不再需要单独的数据监管部门出面,更不需要每个行业数据治理都成立一个监管机构。

数据确权

数据确权存在明显的跨界问题:对律师来讲技术是一个重大挑战,因为他们无法得知数据是如何被采集利用的,哪些人有权限、在什么情况下可以使用等;而对技术人员来讲法律条文又是一个很大的挑战。

另外就是利益问题,平台总是希望尽可能采集更多的数据,消费者总是担心自己的隐私等合法利益得不到保障,因此我们应该找到各方合理利益诉求的平衡点,这需要足够的实践去磨合。

如果这些问题解决好了,数据才会有市场,有了市场就会有数据资产定价,这样数据资产才会真正流通起来。

数据交易

王教授提出:“数据资产交易必须是标品,而数据指数就是这样的标品”。其中“数据指数”是指将原始数据进行加工后得到的数据。对数据进行加工是为了避免不泄露隐私信息,比如具体的业务实践中金融机构需要的信用指数,保险公司需要的健康指数等。因为数据的复制成本几乎为零,所以要求买方不能转卖购买的数据指数。

数据资产定价的基础是交易!在数据资产定价上,除了根据使用场景对数据进行测算定价,书中也提出数据“竞价”也是一种很好的思路,目前从我的从业感知上来讲,“竞价”这种模式,更加适合各地风风火火成立的各色数据交易所。

分享到