云计算与大数据发展回顾

2020-09-11

Big Data, Cloud Computing, HighTech, Writing

科技力量前所未有的爆发，以越来越快的速度改变人及人周围的环境，改变人与人之间的交往范围、内涵和方式，改变整个国际经济、政治、社会的原有秩序，科技浪潮成为真正的革命者和领导者。
—— 引言

插图

云计算与大数据

激荡十五载：云计算与大数据发展回顾

回顾起来，05年Hadoop的问世，06年3月AWS云服务的推出，可以算作是大数据与云计算时代开始的标志性事件了，算起来，到今天也仅十五年而已，但就是在这短短的十五年里，其由一个刚出生的婴儿，一路上风雨飘摇、跌跌撞撞的成长了起来，如今来到19年，云计算与大数据已经长成一颗参天大树，势不可挡的闯进了我们学习、工作、生活的方方面面。

有幸作为一个与云计算与大数据行业都相关的IT行业的边缘从业者亲历和感受了其蓬勃发展的十年，之所以说是边缘，因为自己所在的体制内管理部门，并不从事一线的技术开发，而是从需求管理和技术储备的角度去论证和设计，是一个总体架构规划、方案设计的部门，也正是因为这种极佳的边缘视角，让自己有机会去更佳全面的看云计算和大数据的发展。

悄然而出的年代：2005-2008

05年，一栋并不奢华的房子里，一个颇具极客精神的男人，坐在电脑前，噼噼啪啪的敲打着一行行代码，当他敲击完键盘上最后一个字母，脸上漏出了欣喜的笑容，手里开始摆弄着自己儿子的大象玩具，若有所思的看着电脑里自己刚完成的作品，像是自己另一个孩子般。这就是我们的Hadoop之父Doug Cutting，根据Google的《Google File System》和《MapReduce: Simplified Data Processing On Large Clusters》两篇论文，以独自“造轮子”的大无畏精神，写出了后面让整个大数据行业奉为经典的Hadoop原型。

06年，一家以在线购物网站的形象被人所熟知的公司大佬，以一种颇具新颖的商业方案“网上租赁”方式，推出了名叫S3存储、SQS消息队列、EC2虚拟机的基础设施服务，而此时“云计算”的概念还没有正式提出。这便是今天整个云计算领域的行业引领者AWS的CEO Jeff Bezos。同年8月，Google在搜索引擎大会上才正是提出“云计算”的概念。08年，Google推出Google App Engine的预览版本，一个不需要用户开虚拟机装Linux，直接就可以跑代码的App Engine。也是这一年，微软也宣布推出Windows Azure的预览版本，提供线上业务托管服务。也是这一年，国内的一家购物网站也开始筹办和起步自己的云计算公司——阿里云。一时间众位先行者接连涌入，也由此拉开了云计算时代的大幕。

06年，依旧是这一年，Doug Cutting从Architext离职四年后的这年，决定结束自己自由职业者的时光，带着自己的Hadoop项目，加入到Yahoo，借助Yahoo的技术团队去不断的打磨完善Hadoop。有了这支近百人的技术团队的加入，Hadoop也迎来了其飞速的发展，不久之后，Yahoo就宣布其旗下的搜索业务的架构要全部迁移到Hadoop平台上。两年后，一个基于Hadoop的应用项目WebMap横空出世，处理速度是之前的30多倍，表现可谓是十分惊艳，一时间，Hadoop声名大燥。

06年，依旧是这一年，在AWS的一间会议室里，董事们普遍不看好所谓的“云计算”业务，大量的痛斥着其跟自己主营的电子商务没有关系，而且还要面对Google、Microsoft的来势汹汹（此时的AWS的技术，比Google、Microsoft都要落后），更何况此时的AWS的主要电子商务产品图书依旧在亏钱，按照正常的商业逻辑，董事会多半是要否决掉“云计算”这种前途未知的疯狂而又大胆的新产品，一时间AWS的“云计算”道路岌岌可危。正如历史上伟大的转折点上总是有伟大的人，这个时候，Jeff Bezos凭借其在董事会上的极强影响力，以其高瞻远瞩的巨大魄力，力排众议，力挺AWS的“云计算”，并在AWS确立了“云计算”就是要为用户提供近似水电一样的基础设施的战略定位，形成了要更好的服务于用户，用户至上的经营理念。而此时的Google，一方面，其主营业务广告利润非常之高，从商业上来看，并没有太大意愿介入一个新起的看起来不太赚钱的业务，另一方面，其在“云计算”的切入更多是因为这项技术很酷，而其本身早就拥有最先进的容器化、自动化编排技术，不屑于提供基础的IaaS服务，上来就发力PaaS业务，而对于前来寻求合作的一众StartUp，也是一副技术世界第一的架子，一味的让客户接受和使用他们的技术方案，而这对于刚起步的StartUp来说，往往并不具备这种能力。相反，AWS则在积极主动的拥抱这群客户，根据客户的诉求，不断的迭代自己那个当初看起来并不怎么样的产品，不断满足客户的需求，直到极致。而在这两年里，当Google的Erich Schmidt看到很多StartUp团队都在用同一家公司的服务时，说道其才意识到Jeff Bezos在下一盘很大的棋，不得不说，AWS在“云计算”时代脱颖而出，Jeff Bezos可以说是功勋卓著。

这期间，云计算也好，大数据也好，并没有很明确的界限，一方面，他们几乎是在同一时期兴起的前沿技术，另一方面，他们在大规模分布式存储与计算上又有很多的能力重复，当时出版的书籍也经常将两者混在一起。

其实在云计算和大数据悄然萌生的这段时间里，因为自己的后知后觉，对其的关注和感悟是缺失的，彼时我还享受在安逸的大学时光里，修习着计算机和数学相关的专业知识，偶尔还幻想着沉浸在年轻人独有的青涩的感情中。直到11年的时候，看身边的几个同学，拿着几台破旧的台式机，终日在实验室里鼓捣着叫做Hadoop的分布式计算平台。同一期的还有几个同学在拿着天价的GPU，终日鼓捣着属于自己的并行计算（云计算），不时的还嘲笑下隔壁摆弄Hadoop的同学，自己一块GPU就比你丫的一整台机子贵，而且自己的code还有机会在”天河“上面跑，言语间，也是逼格满满了。这期间，自己也在老师的指导下和其他学院的同学一起做了些类似云存储的小项目，但这些都没有唤醒我的后知后觉，可能因为在一些学科比赛中取得了点成绩，还处在兀自洋洋得意中。直到14年，身边的同学开始谈及一个叫做”比特币“、”区块链“的东西，好奇心的趋势下自己开始看起了关于”比特币“和”区块链“的东西，一下子像是接触了新物种，去中心化、p2p的技术架构给了自己无限的遐想空间，从此以后，对于分布式、去中心化的兴趣便一发不可收拾。可以说我对分布式系统的入门是从”比特币“开始的，但是比较奇葩的是并没有顺势将我引向”数字货币“或者”区块链“账本技术中，而是将自己推向了以GFS为代表的传统分布式架构中去，直到后来拥抱上云计算与大数据的相关技术。

质疑中探索成长的年代：2008-2014

08年1月，两位数据库界领军级人物David J. DeWitt以及Michael Stonebraker在DataBaseColumn网站上发文《MapReduce: A Major Step Backwards》檄绞以MapReduce为代表的大数据技术，基本上把大数据派和数据库派之间的争吵推向一个高潮。其指出，以MapReduce为核心的Hadoop这类的大数据处理技术，在大规模数据密集应用编程领域，是一个巨大倒退，首先他缺乏索引，使用蛮力硬算，其次缺乏DBMS所拥有的关系模型、ACID、存储优化、事务处理、SQL查询等诸多数据特性，最后它基本上和现有的DBMS用户所依赖的工具都不兼容。

关于这段时期的争吵，InfoQ上宋词评论恰如其分：

任何一个稍懂数据库以及大数据的相关从业人员，都能够明确看到两者之间的严重分歧。于数据库人员而言：我派祖师爷数十年之心血积累，创建诸如关系模型、SQL 语言、ACID、存储优化等等理论精髓，方才以开山立派流芳百世，尔等小屁孩一登场啥都不懂就把祖师爷数十年积累贬的一文不值，砍得七零八落，你这个不是开历史倒车又是什么？数据库提了大致五点问题，摆出架势准备为数据处理的后生小辈谆谆教导一番：(1)在大规模的数据密集应用的编程领域，它是一个巨大的倒退;(2)它是一个非最优的实现，使用了蛮力而非索引;(3)它一点也不新颖——代表了一种 25 年前已经开发得非常完善的技术;(4)它缺乏当前 DBMS 基本都拥有的大多数特性;(5)它和 DBMS 用户已经依赖的所有工具都不兼容。
笔者认为上面问题将 MapReduce 当前设计实现的弊端描述得恰如其分，一点不冤。看 MapReduce 论文，其核心实现基本上推翻之前数据库几乎所有优秀研究成果，而采用了最原始最简单最暴力的实现方式，将就能用，但实属不雅。在互联网业务之局外人看来，特别在于数据库这帮学院派人士看来，类似处理方式无异于鼠目寸光、饮鸩止渴、开历史之倒车。但身居互联网行业久矣，我深知互联网行事作风：快、糙、猛。互联网做事，能用就行，快速占领市场，管什么狗屁规矩。类似邓小平先生那句名言：不管白猫黑猫，抓住老鼠就是好猫。我管你们数据库之前如何设计精巧，今天要快速搞定我大 Google 大数据，为何不能做 trade-off。
从 MapReduce 之后，紧接着 2006 年 Google 再发大作《Bigtable: A Distributed Storage System for Structured Data》，BigTable 则是完全瞄准在线数据处理领域，讲述了用于存储和管理结构化数据的分布式存储系统，其建立在 GFS、MapReduce 等基础之上。该论文启发了后期的很多的 NoSQL 数据库，包括 Cassandra、HBase 等。如果说 MapReduce 完全专注于离线批量大数据处理 / 计算，则 BigTable 可以说和数据库完全在同一战场。可以想象适时诸多计算机学院派大牛当面对 BigTable 论文时必定摇头叹息：孺子不可教也。

是的，大数据的发展就是显得这么原始与粗暴，它从不停下跟你讨论信、达、雅，而是本着实用主义，快、糙、猛的发展。2011年9月，Strom项目在Github上发布，发布的第一天， Github上的粉丝就超过 1000人， Storm立刻登上了 Hacker News 网站的头条，四天之内，Storm成为了Github上最受关注的 Java，Scala与 Clojure 领域的项目。两周之内，spider.io宣布已将Storm用在了产品中。Storm设计了一个可靠的消息处理机制，这个机制中最重要的一环是设计一个算法来跟踪Storm中处理的数据，确保Storm知道消息是否被完整的处理，像Hadoop批量处理大数据一样，利用Storm可以很容易做到可靠地处理无限的数据流。Storm为大数据生态带来了免费并开源的分布式实时计算系统，也可以说，Storm的到来标志着大数据在大规模流式数据实时计算的开端。

这一时期，国外的云计算发展的还算顺利，虽然免不了在个别方向上走些弯路，但总体而言，云端服务的能力和质量取得了想当大的进步，此时计算和存储分离的思想在业界也得以初步确立，并深刻影响了后续云应用的开发模式。首先IaaS层面，云服务商继续围绕虚拟机稳扎稳打，更大的内存、更强的CPU、更快的SSD不断被引入云厂商的基础设施中，使得其性能攀升，也得到了市场极大的认可。PaaS层面，却显得有些不温不火，虽然从技术上来看PaaS的发展也颇为扎实，Google App Engine已经可以支持Python、Jave、GO等多种语言，也可以与Google其他基础设施无缝链接，但是市场并不领情。国内最先从事PaaS这一领域类似产品的要数新浪，其发布的Sina App Engine集成了当时一片大火的Php语言与MySQL数据库，但也面临一样的叫好不叫座的困境。现在看来，究其原因，恐怕还是因为该类产品具有较强的平台绑定性，使得用户一旦使用了一家的产品，便很难更换到别家产品。这也反映了云计算产品的用户，在享受云带来的平台便利性的同时，也同样有着技术灵活性、可移植性，以及自我安全、独立的需求。以至于后来PaaS类的产品，慢慢的演变成不绑定语言、框架层面的技术，而是提供通用运行平台的方向发展。一些着力于自动扩容、负载监控等增值服务，如AWS的Elastic Beanstalk等。还有一些提供泛数据库类（DBaaS）服务，由于数据库服务较为标准化，又是应用程序不可缺少的部分，所以这类的PaaS发展较为迅速，Amazon RDS、Azure SQL Database等便是这类代表。

相比之下，国内这一时期云计算的发展就显得艰辛起来，08年9月，时任微软亚洲研究院副院长的王坚，被马云挖到阿里巴巴做首席架构师，开展阿里的云计算事业。云计算的研究并没有那么容易，阿里云创立第一年，就花掉阿里10个亿，在当时那个年代，并没有多少人知道云计算是做什么的，更不知道阿里云是干什么的，因此空降的王坚遭到了阿里高管的一众质疑，也被自己的员工在网上骂骗子，团队成员看不到希望也纷纷离职，更有甚者，在阿里内部会议上，直接对马云说，”马总，你别听王坚瞎扯，他就是个骗子“，马云不得不出来发声，”请相信博士，给他一点时间“。但这并没有堵住大家的谩骂，迎来更多的是”想不明白，聪明如马云，怎么会被这个大忽悠骗这么深“。在这种非议中，超过一半的员工离职，阿里云摇摇欲坠，王坚博士一个人咬牙坚持，更是在部门的年度会议上失声痛哭，哽咽着嗓音给自己和仅剩的员工鼓气。正如历史中伟大的转折点上总是有伟大的人，坚持的王坚终于迎来了他的成功，2013年，王坚的团队完成了其云计算的第一个作品，成功的将5000台机器，组成像一台机器一样来使用，这是国内，第一次有一家公司可以实现这样的事情，这一年他拿到了中国电子学会的特等奖。也为如今阿里云能在国内处于领先地位打下了坚定的基础。

就是在这不断的质疑声中，云计算与大数据一路上，摸爬滚打的成长，野蛮又近乎不讲道理的发展着。他不去跟你辩解理论水平高下，而是践行着简单、高效的原则，以互联网人独有的粗暴，不断探索成长。

共识中发展繁荣的年代：2014-2019

随着云计算与大数据在探索中不断成长，开创者们也积累了越来越多的经验，对市场反馈和客户需求有了更清晰的了解与洞察，业务模式与商业运营也驾轻就熟起来，在业界的共识也越来越清晰，也吸引了越来越多的先驱者加入到云计算与大数据的浪潮中来。此时，云计算与大数据的边界也逐渐清晰了起来，云计算已多指提供各类云端服务与组件的软硬件一体化资源平台，大数据则多指提供包括系统架构和算法在内的处理大体量数据的方法和实现的技术体系，两者相互依存，又彼此独立。

Big Data, Big Money

2014年，Spark横空出世，在全面兼容Hadoop的基础上，通过充分利用内存处理，减少磁盘写入环节，提升了系统性能近百倍，终结了大数据处理领域Hadoop一家独大的武林神话。（Spark在2009年由Matei Zaharia在加州大学柏克莱分校AMPLab开创，2010年透过BSD许可协议开源发布。2013年，该项目被捐赠给Apache软件基金会并切换许可协议至Apache2.0。2014年2月，Spark成为Apache的顶级项目。2014年11月，Databricks团队使用Spark 刷新数据排序世界记录。）

2015年，Flink空降大数据舞台，迅速成为大数据实时流式计算的爆款产品。Flink为流式计算而生，就连Batch最终也是转化成了streaming，也就是说Flink的一切都是stream。其具备容错、低延迟、高吞吐、流量控制等特性、支持乱序数据、流式语意，具有强大的计算模型，满足了成熟、商用的实时计算引擎所需要具备的各类典型产品技术特征。

此外，Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Spark SQL 等的出现与完善更是极大的丰富了大数据的技术生态环境。与此同时，大数据的用户生态也在不断拓展，其开源免费的系统软件早已大量的深入到开发者市场、培养了开发者习惯，又筹建了众多知名开发者社区，培养了海量的客户，随时准备收割人头实现营收，就好比一款游戏，大部分可能均是免费玩家，但用户基数达可观规模之时，一定涌现出不少人民币玩家，并通过他们实现整体营收。众多知名公司包括 DataBricks（Spark）、Confluent（Kafka）、Ververica（Flink）携着天量的资金，杀入大数据商业领域，一时间，大数据商业竞争倒也是日趋激烈起来。至此，大数据商业生态也基本完善，大量商业公司基于Hadoop等大数据技术构建产品服务实现营收，云计算公司直接将大数据拉上云，提供大数据云计算服务，软件集成商包装大数据引擎提供大数据处理能力，同一时间，知识机构开始通过培训大数据技术实现利润。

此时的大数据，也已经显得繁荣而强大。在大数据处理领域，愈加清晰的大一统商业目标也终于显现出来。从大数据社区反馈的情况来看，对于大部分大数据处理用户，实际上的大数据处理诉求分类有限，基本上在 Batch（60%+）、Stream（10%+）、Adhoc（10%+）、其他（包括 ML、Graph 等等）。可以说，批处理与流处理可以说是大数据处理领域的两类最典型的应用了，各自领域也有了具备绝对优势的典型产品，可以说提及批处理就会先想到Spark，论及流处理就会言语Flink。但是他们背后的DataBricks和Ververica这两家商业公司，显然不满足这样的现状，他们拥有一个共同的目标，那就是构筑大数据领域一站式全家桶解决方案，制霸整个大数据生态。与此同时，怀揣着相同目的，跃跃欲试的还有技术领域的霸主Google，推出Apache Beam，企图弥补自己在大数据领域“起了个大早，赶了个晚集”的遗憾。

为达成这大一统的商业目标，各位霸主采取了不同的商业打法。Spark从批处理入手，同时提供Spark Streaming、Spark ML，前期靠Spark Batch为整个Spark社区引流，转化为Spark Streaming、Spark ML的客户。Spark正是想通过构建一站式全家桶功能，构建自己的护城河，大量中小用户一旦全功能上了Spark，后续很难因为Spark某个功能点不太满足需求而抛弃使用Spark。类似的，Flink从Stream入手，在构建出Flink Stream强大生态后，也在考虑布局Flink Batch，从Stream 切入Batch战场。然而，Google的打法有些不同，其考虑在包括核心批处理和流处理等系统之上，构建开源社区大数据处理之统一接口。对于Google这个技术大佬，我不敢造次，只能引用一则评论表达看法。

Google此类打法构思只能是技术人员对于大数据社区发展不切实际的梦想，或者是 Google 实在太高估自己的技术影响力，认为只要 Google 技术一出，开源社区绝对俯首称臣，拉下老脸哭着喊着求兼容。但 Google 打错算盘的是，从没有一个市场追赶者角色制定标准来让市场领导者来做适配，市场领导者凭什么鸟你。你区区一个追赶者，制定标准，挖下大坑，让领导者来兼容你的标准绝对是痴人说梦。

人算不如天算，天算就是云计算

与此同时，这一时期，云计算也是迎来了属于自己的高速发展的时代，马云在2017年中国IT领袖峰会上更是说出“人算不如天算，天算就是云计算”的豪言，一时间，将云计算是未来的共识推向高潮。关于这段时期的发展，InfoQ上何恺铎的论述详实细致：

首先，IaaS 方面的继续进步体现在服务的特异性和多样性上，不断推出细分领域和特定场景下适用的虚拟机实例：如基于物理隔离的专属实例、可运行 SAP HANA 等大型负载的超高配实例、采用 CPU 积分制的性能突增实例、适用于机器学习与 AI 的 GPU 实例等。此类细分服务在云端出现的背后，是不少厂商针对性地研发和定制了适用于云的专属配套硬件。这些新一代的服务器不仅是简单的配置升级，而且在设计之初就是为云端负载而生，与云计算产品理念及底层软件技术栈高度融合匹配。另外在虚拟机计费规则方面，除了经典的按使用时长计费方式，各厂商也相继推出更为灵活的计费模式：包年包月、预留实例、竞价实例等，可有效帮助降低使用成本。这些 IaaS 方面的诸多进展，进一步满足了各场景的细分需求，减少了许多客户的上云阻碍。
在存储服务方面，云计算的步伐也在加快，除立足于核心对象存储服务的增强外，开始以一体化方式进攻部分垂直市场，挤占传统厂商的市场空间。最典型的例子莫过于 CDN：阿里云自 2015 年起在 CDN 领域大举扩张，多次主动大幅降价抢占市场，其他云计算厂商也纷纷跟进，这是原本波澜不惊的 CDN 领域的标志性事件。面对云计算厂商的竞争，网宿、蓝汛等老牌 CDN 厂商顿时立感压力，市场份额也开始发生相应变化。在国外，AWS CloudFront 和 Azure CDN 等云服务同样与 Akamai 这样的传统巨头进行着激烈角逐。当然，得益于 CDN 的架构融合特性，传统厂商也可选择与云厂商合作，从上游的基础设施方面作为云的供应商存在，不失为合作共赢之道。但无论如何，事实说明云的参与和挤压是相关市场发展的必然趋势。而且从技术层面来看，服务之间的一体化协同效应是云计算厂商进入 CDN 这样的单一领域的独到优势。例如，云厂商的 CDN 可以与自家的对象存储服务联动，用户只需要轻点鼠标，即可将对象存储中的文件映射至云 CDN 的边缘节点网络来对外服务，免去了搭建传统回源站点的麻烦。
PaaS 方面在这个大发展时代也找到了崛起之道，不再寻求大一统的应用程序框架，而是更多提供标准的可复用中间件，并与其他 IaaS/PaaS 设施进行组合与联动——这一思路迅速得到开发者和架构师们的欢迎，随着特性完善其采用率开始稳步上升。典型的例子包括 API 网关、负载均衡器、消息队列等。更进一步地，这一阶段的 PaaS 服务在与 IaaS 虚拟网络集成方面有了较大进步——这是以往 PaaS 服务常为人诟病的短板，即只提供面向互联网的公开端口，游离于 IaaS 的虚拟网络和架构体系之外——这一现状也通过两种方式得到了相当程度的解决：一种可称之为 PaaS-in-VNet，即允许 PaaS 服务直接部署到现成的虚拟网络之上，例如 Azure 上的 App Service Environment (ASE)，就是将 App Service 部署到私有虚拟网络的服务形式；另一种方式则是所谓 PaaS-to-VNet，为 PaaS 与虚拟网络之间提供私有通道，在不开放公开访问的情况下允许双向网络互通，同样以 Azure App Service 为例，用户可通过开启服务内置的 VNet Integration 特性来配置与私有网络的安全通信。

不仅仅限于此，这一时期，云计算领域可谓是大放异彩，上演了诸如容器编排“圣杯”之战、混合云“阵地”抢夺之战等一系列商业大片，也提出了CaaS（容器即服务）以及FaaS（函数即服务）等众多新范式，更是带火了诸如雾计算、边缘计算、端侧智能等一系列云计算衍生概念。

现代云计算技术可以说是建立在虚拟化、容器化技术之上了。但事实上，容器化技术早就存在了，却一直不温不火。直到2013年，DotCloud创始人Hykes将Docker开源，3月底发布了Docker 0.1版本，此后几乎每个月都有一个新版本产生，2014年6月，Docker第一个里程碑版本1.0发布，到2017年2月，Docker更新到1.13.1，此后又分为了Docker CE社区版和Docker EE商业版。Docker迅速成长为云计算相关领域最受欢迎的开源项目，没有之一，甚至亚马逊、谷歌、IBM、微软、Red Hat 甚至虚拟化巨头 VMware 都表示全力支持 Docker。Docker将“标准容器”的概念想法带给大家，“Build Once，Run Anywhere.”的理念直插人心，包括后续的DevOps、AIOps的火爆理念都与这波容器化浪潮有着不可分割的联系。

这个时候，其他容器编排厂商很快的就发现，虽然Docker 镜像的“集装箱”机制、网络封装机制、镜像制作工具等，极大的方便了复杂的分布式应用的构建和部署，但在容器编排调度上依旧有很大的缺失与不足，当然Docker自己也认识到了。Docker凭借自己的原生优势，在1.12 内置了 Swarm集群管理，1.13 支持了 stack 和 Compose服务编排管理，基本上一个略完备的编排调度系统已经成型，而这个变化，也表明了彻底和其他容器编排调度系统决裂，紧接着就上演了一场声势浩大的容器编排“圣杯”之战。此时，容器生态圈已然割裂，但Swarm 成熟度还不够用在生产环境，导致 Docker 只得以一己之力重塑自己的生态圈，与此同时Google推出Kubernetes容器编排大杀器，Mesosphere公司凭借Mesos在数据中心中集群资源管理的显著优势，以资源管理的视角切入到容器编排大战中去。一时间，Docker Swarm、Kubernetes、Mesos三足鼎力。

此时，Kubernetes在大数据支持方面不如Mesos，也没有Docker Swarm的原生优势，虽然背靠Google这尊超级大佛，但能否最终赢得这场大战，依旧很让人担心和质疑。但在这一次竞争中，Google明显不想再次遗憾，凭借着“广积粮、缓称王”的战略，一开始，谷歌就将 Kubernetes 定位在标准制定，描述能力上，目标不仅仅是一个编排系统，而是提供一个规范，可以让你来描述集群的架构，定义服务的最终状态，它来帮助你的系统达到和维持在这个状态。并没有着急定制具体的实现方案，从而让渡了很大一部分功能给IaaS厂商，Google既不着急推出具体的解决方案，也不着急兼容已有的各种分布式应用，发布两年多还在专心在规范定义以及系统优化上，2017年，才开始迅速迭代自己的产品。终于，2019年，Kubernetes以事实标准，宣告了自己在容器编排领域赢下了这场圣杯之战，彰显了自己作为互联网行业带头大哥的技术实力与商业头脑。

随着云计算的繁荣发展，越来越多的企业开始业务上云，进行数字化转型。混合云架构，以其兼具公有云的弹性扩展，以及私有云隐私保护的特性，很快就得到企业的认可与偏爱。2016年，阿里云在首场云栖大会深圳站上发布基于Apsara Stack专有云的混合云解决方案。2017年，IBM与Red Hat携手通过OpenStack加快混合云的应用和推广，微软宣布Azure Stack支持混合云方案。2018年，AWS宣布推出混合云产品AWS Outposts，VMware与腾讯云携手推出黑石Stack-V混合云解决方案。2019年，华为云宣布推出名为HCS的混合云解决方案。

而且杀入混合云市场的不只是有公有云玩家，传统私有云厂商也不甘寂寞，纷纷将自己的私有云解决方案向混合云进行升级，包括VMware和各种OpenStack服务商也都推出了自己的解决方案。另外一些诸如ZStack的创业公司，也开始杀入这波混合云阵地争夺战，可谓是狼烟四起、大战在即。

当前，在这正愈演愈烈的混合云大战中，本人私以为，公有云厂商凭借其可以无缝对接自己公有云平台具备了先发优势，再凭借其资金优势，大打价格战、消耗战，其他厂商很难与之抗衡，而创业公司，想在这个赛道上完成华丽转身，难度太大，很容易遭受到巨头战车的无差别碾压。相比较，构建于混合云平台之上的一些安全、节能等增值服务，更加适合创业公司进行切入。

无限遐想的年代：2019-未来

回顾云计算与大数据这十五载的峥嵘岁月，从一开始的风雨飘摇，到现在势不可挡，足以让人内心激荡。与此同时，不仅仅是云计算与大数据，如果你拓宽视角，看其周围，就会发现，在这十五年里，包括物联网、人工智能、AR/VR、自动驾驶、智能家居等等在内的，新技术、新模式、新生态就如雨后春笋般不断冒出。科技力量前所未有的爆发，以越来越快的速度改变人及人周围的环境，改变人与人之间的交往范围、内涵和方式，改变整个国际经济、政治、社会的原有秩序，科技浪潮成为真正的革命者和领导者。

其中，Gartner发布的2019 新兴科技成熟度曲线最为人期待（Gartner新兴科技技术成熟度曲线，从两千多种科技技术中凝聚独到的见解，并以简洁明了的曲线方式呈现），它向我们呈现了五大新兴科技趋势：传感与移动（Sensing and Mobility）、人体机能增进（Augmented Human）、后经典计算和通信（Postclassical Compute and Comms）、数字生态系统（Digital Ecosystems）、高级人工智能和分析（Advanced AI and Analytics），这里每一个背后，都有着云计算与大数据的身影。

Gartner Hyper Cycle of 2019

2019，从现在到未来，对于云计算和大数据的未来，人们有了无限的遐想。通过对其发展历史的回顾，自己对行业发展趋势也有了些粗浅判断，在此写下自己关于行业未来5-10年内的发展遐想。

遐想一：云计算与大数据，将与物联网和人工智能等新技术融合的更加彻底，在应用层面上对综合性解决方案需求将更灵活和多样，相对于公有云、基础厂商引领行业的现状，具备一站式服务能力的大型解决方案公司将逐渐成为行业发展的主导者。

今年FirstMark公布的大数据产业全景图中，将往年单独存在的大数据板块与AI合在了一起，发布了AI&Data Landscape 2019，而且近期中国大数据产业联盟发布的产业全景图中，也充分的反映了数据从规模化处理到智能化处理的趋势。而且涉及的行业之多，业务板块之细已经让人很难全面掌握，但市场上的各类多样性需求，肯定要比这多的多。受制于需求的复杂性，以及技术路线的多样性，专注与基础能力研发的公有云厂商很难再覆盖全产业链条，直接面向用户。而具备一站式服务能力的大型解决方案厂商将可以更关注用户和市场需求，从而有更多的机会占领终端用户市场，以致于逐渐成为行业方向的主导者。

AI & Data Landscape of 2019

2019年中国大数据产业全景图

遐想二：云计算与大数据，将重塑包括开源生态在内的软件开发模式，以及软件销售的费用分配模式。

今天，大数据从业者已经深刻的感受到了，昔日“程序=数据+算法”的定义，正逐步转变为“程序=数据+算法+系统架构”。而云计算从业者也清楚的看到，微服务、Serverless函数等编程方式，让程序的开发和运维朝着更加的敏捷化、自动化、智能化的方向发展。模块与模块间将进一步解耦，代码与代码间将进一步复用，加之以开源生态的辅助配合，软件开发模式将从编写代码为主，逐步转变为编写配置文件为主，一些具备智能化的代码编写工具将出现，除了一些顶尖水平的开发大牛外，公司对于紧靠熟练度为生的一般开发者的用工需求将进一步降低。

另一方面，当开源生态下代码间组合打包成商业产品越来越便捷，也会迫使开源生态对开源协议进行大规模修改，以减少这种从开源社区“插管吸血”的做法（MongoDB 近期将开源协议从 AGPL 调整为新推出的 SSPL）。进一步可能出现一些在代码复用追踪上的新技术，从而可能出现一些只开源、不免费的新协议，使得开源社区也可以直接享受商业变现，从而保证开源社区活力。

遐想三：云计算与大数据，将在短期内塑造互联网巨头们强者恒强的局面，但随着时代发展，技术将会更加的去中心化、平等化，消费者将有能力与生产者、销售者、其朋友、家人等直接链接起来，从而降低中介平台的重要性，将权利重新从大企业手中转移到消费者手中。

当今，云计算与大数据已经是互联网巨头们所主导的技术世界，短期内由于行业升级对其依赖性的增强，会塑造出互联网巨头们强者恒强的局面。但随着技术对社会和生活的渗透的不断深入，人们对于隐私、话语权等要求会越来越迫切，以区块链为代表的新技术已经让我们看到人们对科技去中心化、平等化的迫切渴望，未来可能将会出现一些端到端的技术手段，消费者将有能力与生产者、销售者、其朋友、家人等直接链接起来，从而降低中介平台的重要性，将权利重新从大企业手中转移到消费者手中。

Reference:

https://en.wikipedia.org/wiki/Doug_Cutting Doug Cutting Wiki
https://www.huxiu.com/article/295847.html 激荡十年：云计算的过去、现在和未来
https://www.infoq.cn/article/O2WfZkiWfU*LNP3IJXGz 大数据十年回顾：浪潮之巅数英雄
http://databasecolumn.vertica.com/2008/01/mapreduce_a_major_step_back.html MapReduce: A major step backwards
http://nathanmarz.com/blog/history-of-apache-storm-and-lessons-learned.html History of Apache Storm and lessons learned
https://zh.wikipedia.org/wiki/Apache_Spark Apache Spark Wiki

爱读书，爱旅行，爱创作。

Origin