《大数据时代》

努力在可以应用、可以拓展的地方,应用它,拓展它;在不能应用,不能拓展的地方,就停下来。

—— 书中摘录

插图

大数据时代


《大数据时代:生活、工作与思维的大变革》

本书是国外大数据系统研究的先河之作,作者维克托•迈尔•舍恩伯格被誉为“大数据时代的预言家”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。

维克托•尔耶•舍恩伯格在《大数据时代:生活、工作与思维的大变革》中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。

大数据是人们获得新的认知,创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。维克托认为,大数据的核心就是预测。这个核心代表着我们分析信息时的三个转变。第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。

原文摘录

大数据时代三个重大思维的改变:首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本;其次,我们乐于接受数据的纷繁复杂,而不再追求精确性;最后,我们的思维发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
—— 引自 第1章

我们需要改变操作方式,收集到所有数据。不在把精确性当成重心,接受混乱和错误的存在。侧重于分析相关关系,不再寻求每个预测背后的原因。 更多:不是随机样本,而是全体数据。

  • 采样分析精确度的提高依赖于样本随机性的提高,而不是样本数量
  • 样本数量达到上限后,从新个体上得到的信息会很少
  • 收集随机样本可以在较低成本的前提下实现高精度
  • 随机采样不能再往下细分,不然会不准确
  • 采样结果只能回答事先设计好的问题,不能从中突然获得其他问题的答案
  • 采样的目的是用最少的数据获得最多的信息。
  • 样本=总体。尽可能收集所有数据。
  • 大数据的“大”不是绝对意义的大。它是指不采用随即分析法,而分析所有数据。
  • 我们会慢慢抛弃样本分析。
    —— 引自 第2章

更杂:不是精确性,而是混杂性

  • 数量庞大的信息让我们放弃严格精确
  • 信息在网络中流动,由于延迟,其到达时可能已经失去了意义
  • 大数据用概率说话,不会确凿无疑
  • 扩大数据规模,拥抱混乱
  • 更多数据比更智能的算法系统更重要
  • 执迷于精确性是信息匮乏和模拟时代的产物
  • 大数据面前,无需担心个别数据对整套分析的不利影响,无需花费高昂代价消除不确定性
  • 大数据使我们无法实现精确性。要接受不精确、不完美
  • 错误不是大数据的特性,它是测量、记录、交流工具的缺陷。可以解决,长期存在
  • 从前,统计学家关心提高样本随机性,而不是数量
  • 数据规模增大几个数量级后,小数据的分类索引将崩溃
  • 清楚的分类被更混乱灵活的机制取代了
  • 精确的系统试图让我们接受世界贫乏而规整的假象,假装世间万物有序排列,然而现实纷繁复杂。一个唯一的真理的存在是不可能的。混乱是一种标准途径
  • 处理海量数据不可避免导致部分信息缺失,但我们可以快速获得想要的结果
  • 宽容错误会给我们带来更多价值
  • 数据量的限制正在逐渐消失
  • 只要我们能够得到一个事物更完整的概念,我们就能接受模糊和不确定的存在
  • 当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。不仅失去了尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。
    —— 引自 第3章

更好,不是因果关系,而是相关关系

  • 相关关系通过识别关联物分析现象,不揭示其内部运行机制
  • 相关关系没有绝对,只有可能性
  • 相关关系可以捕捉现在,预测未来,但不能预知未来,过去先有想法,然后收集数据来测试。如今,我们可以通过大量数据找到相关关系
  • 我们理解世界不再需要建立在假设的基础上
  • 大数据的核心是建立在相关关系分析法基础上的预测
  • 理解解释世界的两种基本方法:快速、虚幻的因果关系;缓慢、有条不紊的因果关系
  • 我们假定因果存在,习惯性因果
  • 两种思维模式:快速思维,不费力,几秒;慢性思维,费力,对特定问题,思考到位
  • 快速思维倾向因果,即使不存在因果,惰性。经常凭直觉的因果关系并不能加深对世界的理解,只会产生已经理解的错觉
  • 相关关系分析取代因果关系起作用,也能指导因果关系
  • 一旦我们完成了相关关系的分析,不再满足于是什么,就可以找出为什么了
  • 理论不会消亡,贯穿大数据的方方面面
    —— 引自 第4章

数据化,一切皆可“量化”

  • 数据化:把现象转化为可制表分析的量化形式的过程
  • 数字化:模拟转数字
  • 数据化和数字化本质并不相同,信息只有被数据化,才能释放巨大的潜在价值。

价值,“取之不尽,用之不竭”的数据创新

  • 数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。大数据时代,数据的 价值从它最基本的用团转变为未来的潜在用途
  • 大数据时代,所有数据都是有价值的
  • 数据的价值不会随着它的使用而减少,而是可以不断地被处理。个人的使用不会妨碍其他人的使用
  • 数据的总和比部分更有价值
  • 大部分的数据价值都是潜在的,需要通过创造性的分析来释放
  • 收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身
    —— 引自 第5章

角色定位,数据、技术与思维的三足鼎立

  • 根据所提供价值的不同来源,分别出现了三种大数据公司:
    (1) 基于数据本身的公司,拥有大量数据或至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能
    (2) 基于技能的公司,咨询公司、技术供应商、分析公司。掌握了专业技能但并不一定拥有数据或提出数据创新性的用途的才能
    (3) 基于思维的公司,具有挖掘数据的新价值的独特方法
  • 如果你想成功,你不应该成为一个普通的、可被遂以替代的人,你应该成为最稀缺的、不可替代的那类人
  • 有着大数据思维的公司和人,他们思考的只有可能,而不考虑所谓的可行
  • 大数据思维是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案
  • 行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。他们的判断建立在相关关系的基础上,没有受到偏见和成见的影响
    —— 引自 第6章

风险,让数据主宰一切的隐忧

  • 大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状
  • 大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成权贵用来镇压民众的工具
  • 大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次应用
  • 很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途
  • 只要有足够的数据,那么无论如何都做不到完全的匿名化
  • 大数据通过给予我们关于个人自身更详尽的数据信息,帮助我们规避了“画像”的缺陷——直接将群体特征强加于个人
  • 大数据成为了集体选择的工具,但也放弃了我们的自由意志
  • 大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果
  • 我们比想象中更容易受到数据的统治,我们可能完全受限于我们的分析结果,即使这个结果理应受到质疑。我们会形成一种对数据的执迷,因而仅仅为了收集数据而收集数据,或者赋予数据根本无权得到的信任
  • 卓越的才华并不依赖于数据
    —— 引自 第7章

掌控,责任与自由并举的信息管理

  • 当一个特定领域变得特别复杂和专门化之后,就会催生出对运用新技术的专门人才的迫切需求
  • 伴随着从核技术到生物工程其他领域的发展,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制
  • 我们的任务是要意识到新技术的风险,促进其发展,然后斩获成果
    —— 引自 第8章

结语:正在发生的未来

  • 大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋
  • 混乱构成了世界的本质,也构成了人脑的本质,而无论是世界的混乱还是人脑的混乱,学会接受和应用它们才能得益
  • 大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,异以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本
  • 预测未来最好的办法就是创造未来
    —— 引自 第9章

《大数据思维》图书链接(提取码: m8cg)

分享到