6月3日,第七届中国云计算大会在北京国家会议中心开幕。杭州数梦工场创始人王巍先生进行了“数据梦想与实践”的主题演讲。
以下为演讲实录:
大家好我演讲的题目叫数据梦想与实践。我们公司的孟子叫数梦工场,数是大数据的数,数是现实世界运行的痕迹,既然是现实世界运行的痕迹提取出来,它的数据量就非常的大。因此数据技术的一个方向一定是以超级计算的云,超级计算的数据库,大数据分析和云安全为基础的。梦,因为数只是一个技术工具,不是终极目标,而它要实现的梦想是什么呢?回归到我们中国就是中国梦,具体解读就是用数据技术来助力青山绿水,民生幸福,政治安定和经济繁荣。工我们都是一些工程师,这几个月我们有400人在一起,研发占比65%,我们要用数据技术来圆中国梦地开辟新的战场。场是战场,也可以是牧场,对内是放养,对外是战场。我们公司具备一种能力就是以数据为核心的能力。
在过去十年当中有很多新的技术名词出现了,有云计算,它是一种超级计算是一种公共计算服务,有大数据,有移动互联网,还有很多模式方面的类似于向O2O,C2B,工业4.0,之前我跟阿里的王坚博士也有一个讨论,他认为之前有一个技术就要叫互联网技术,我们看到的所有技术,云也好,大数据也好,都是互联网在数据方面一个整体的某一个部分。以前可能是盲人摸象,只是摸到了互联网某一个地方,类似于应用能力和大数据能力,如果我们聚集到一个整体就是以数据为中心的能力,这种能力不是诞生于传统的IT厂商,而是诞生于具体实践的创新。这种能力可以无边界的信息获取方式可以提供百年的创新引擎,今年的“互联网+”作为百行百业的基础设施创新的承载工具。这个是互联网向外输出,也是“互联网+”向百强的传递。
但是“互联网+”有四个障碍,第一障碍是思维上的障碍,之前王坚之前反复提互联网是一种数据能力和基础设施,但是基础设施这种事项在百行并没有广泛地理解,我曾经到一个大学跟教授讲,现在拿年薪百万都没有真正的实操经验的人,为什么?学校培养不出来,学校没有云和科技基础设施,如果政府都没有,可能百度和阿里随时都能调动百十万台服务器,但是可能要把国家经济运行情况进行运算,拿出50台服务器的计算能力都没有这种设施。有了它才能够实现B2B这样一种跨界,所谓BAT就是以前能力无法实现,所谓行业切割成条块,把复杂的事情缩小去给它做应用开发,今天我们有了庞大的能力,我们可以把全国税务数据集中到税务局去计算,这个就消除以往的条块边界,可以做到洞察真相。
我们还有一个平台选择,之前15年一哄而上,又一一哄而下,商用平台其实并不多。评价云厂商评价100个厂商这是一种笑话。我们现在缺乏一种保障,一个真正云数据平台非常复杂,我们国家尤其是一线城市拥有这样的人才并不多,真正的大数据应用开发并不多,需要数据繁荣。因此整个“互联网+”过程当中推动过程当中面临四大障碍,但四大障碍也面临四大机遇,抛弃传统的局部决策定位来做一次全新的整合式创新。什么叫整合式创新呢?这一轮创新区别于以前不一样的是以前是细分技术、细分场景细分品类的一次创新,天下大事合久必分,分久必合,以前是细分,细分纵向领域,现在是整个趋势逆转过来,要做横向的场景化的细分。
如果有了云和大数据的平台只是像一个桌子一样具备一个基本能力,但是这个桌子上还要放上各种各样的满足于各行各业的菜,这个菜和桌子的应用就是场景化的过程。它要面临哪些场景创新?技术整合,是不是把中国移动中国联通中国电信的环境作为一个基础接入进来,是不是要把浪潮华为等应用整合进来,是不是要把真正的云和大数据整合进来,是不是要把大数据之上的应用开发整合进来?这是大数据开发整合过程。另外一个之前数据是分割的,数据对于机构来讲就是权利,整合数据就是整合权利,整合全力过程如果没有清晰模式和价值导向是推不动的,很多时候是一把手才能够推动的工程。
第三个是整合人才,所有的应用区别于区域和行业,它实际上要做不同场景细分,它需要不同的维护人才到上面全站式一直到逻辑分层是需要很多人才,最近我们发现我们最缺的是统计学能力人,还有相应UI这样的人。第四个还要做资金整合。因为基础设施前期投入大,后期回报也大。这些所有能力不光是输出出来,也要把整个四个能力方面要在具体场景中做大量工作,这就回到了我们认识和愿景,用最简单的文字,我们这个公司成立起来就是要用数据技术圆梦,要做一次“互联网+”,它是+号是双向的,就是BAT阿里核心内容平台,第二就是面向政企,也就是百行百应,第三就是场景开发服务。
4月份我们跟阿里签署了使命级的战略合作伙伴关系,头一次这种词冒出来,以前叫做战略合作伙伴关系,加了一个使命,使命是拿互联网创新能力输出出去拿百行百应的基础设施做创新工具,我们拿阿里云云平台作为我们合作,华为和浪潮硬件设备和软件设备对象,已经有人做了,别人干的我们不干,整合创新是我们做的事情。
所谓梦想必须要具体实践,下面我开始举例子,这个例子是浙江省的政务云,是个省级平台,实现价值一共有三个及第一个价值是成本集约,一个省级平台信息化投入软硬件加在一起一年可能大概5、6个亿,一个省一年大概有60、70个亿,绝大多数设备都是闲着,关键时候顶不住,比如开学的时候千军万马过来都支撑不开了。
大家知道基础云是成本集约,集中起来建,可能原来一半都不到的投入就可以做需求的接入,财政把其他的砍掉,集中来建,这叫集约。还有一种是弱O,弱O不是去掉oracle,因为oracle在高频交易方面不错,但是很多地方不用oracle的,可以换其他的数据库,尤其国产数据库。省钱不是目的,最重要的中国梦要实现两个转型,一个是政务转型,一个是经济转型。政务转型从管理型要走向服务型转型,经济转型从传统经济到信息经济到智慧经济。实体经济加实体经济变成信息经济这样一个路径。
这张图我们把整个过程列了一下,最下面我们要建一个云计算和大数据的基础设施,今年5月1号正式上线,全部金鱼飞天600台服务器,300个TB,这可能是初始,5月23号我们去oracle,之前是沉淀下来,不是云计算,说白了还是虚拟化,把传统应用虚拟化了一下。把数据用云计算构建,这是真正的大数据。现在我们每个礼拜去几个。
第二个就是以前政府的所有数据是分散在各个部门的,这些部门实际上是貌合神离的状态,现在这些数据打通就形成很多的东西,比如每个区县近十年的水平图画出来,所以大家可以通过盐判断长久的数据可以实现,通过烟酒可以判断消费,正常通过公安人口比对多图层是可以看到区域状况的。因此在这里要进行数据打通,数据打通之后要进行清理,安全可控数据,还要可控提供一个初始化的互联网环境。数据是最宝贵的数据,在不涉及到安全情况下,比如交通数据,气象数据是给万众创新提供很好的数据平台。
第三个我们要形成政府淘宝,什么叫政府?政府提供的就是纳税人纳税之后政府要作为一种公共服务产品,公共服务商品来交易出来。既然是一种公共服务产品,道理上它应该跟淘宝所提供的服务应该是一样的,如果是跟淘宝的逻辑一样的,能不能做政务淘宝呢?这个就是浙江省领导提出来的要做政务淘宝,把所有的政府服务抽象成具体的商品。比如一个政府到底有多少个权利。去年省领导就组织,查出来是16000多个权利,能不能删并减改最后4600个权利,最后像网上商品一样给大家提供服务呢,可以,所以现在都放到了云上。放到云上之后能不能让所有百姓看到这个服务的流程,就像在淘宝买东西知道它在哪里了,我们知道事物来进行好评也可以差评,我们把阿里机构,使得政府4000多个变成淘宝4000多个机构一样,从管理型向服务型管理转变。
在这里举一个例子,如果办准生证是需要开单位证明,开户口复印件拿着这个东西跑五六趟,可能盖50个戳,这样跑来跑去,可以是用数据跑路,而不应该让人跑路,服务应该是一站式的,应该是缩短办理距离,如果这个完成它的功德是无量的。这是我们在政务云上要提供的东西。将来要逛淘宝一样可以逛衙门,这不是我们提出来的,这实际上是浙江省政府领导他在建设政府云的目标上所要时间的目的。
我们做了什么?这个词就是后台及服务,我个人叫后备服务,因为云是一个企业不是终极目的找技术,而是把它到后面找数据。所有人要后台关键的及时性服务,能力要全站式,距离是零距离。第二个是没必要的oracle的开销我们可以把它可以去掉,整个去O的过程今年六一儿童节阿里云发了一个PG数据库,它的数据是替代oracle的数据可以特别简单,这整个过程跟大家分享一下。
(VCR播放)
这是一个简单的过程,我跟阿里云王博士聊的时候他也跟我讲,其实并不是为了去oracle而去oracle,而是当它的商品库最小容量要求,oracle最大的能力够不到的时候才去。我们现在要做的是分久必合,这个合很恐怖,这个数据库恐怕传统的数据库没有办法支撑,这是海量的分布式数据库才能够替代,这是我们的数据库的原因。这不是貌合神离,而是真正的数据合在一起,完成大数据的过程。
我们大数据实现云和基础平台,这里面有公安数据、社保数据、工商数据、人口库、法人地理信息数据库,有半结构化和结构化的数据,公安不可能把哪个数据都放到那里大家都可以用,这个过程中数据集中和数据安全性就进行一次博弈,如何能达到它的平衡?首先之前有数据地方搞交易一定是伪命题,因为之前资产产权都不规定,一般很难交易。
之前就是把数据变成公共的目录,然后公安整合,社保还是在社保手里,不能因为社保的数据可以看到公安的数据,这个是数据仓库把垃圾清晰去掉,可以根据身份证信息进行系统计算,但是不能让上层的开发者看到具体人的信息,分级的安全产品管控,最终数据可易用性就是数据不搬家,可用即可见,这就是数据集中安全的平衡。大数据真正的应用,破除安全平衡点,最关键一点在于能不能做到列表级的用户的管控,这是最主要的挑战点。
在此我们再来提供分析工具,大量的数据商业分析等等,以及数据地图等等需要大量的集成工具,这种工具我不建议到社区上找,最好是封装好一个套装在标准的平台上来进行万众创新的数据环境。2009年美国也是从47个政府开始进行数据开放万众创新,慢慢地进入良性循环,这是我们目前正在做的事情。
除了政务转型之外,现在工业4.0,制造2025比较热,我们现在在几个具体的合作伙伴那里相应实践,这里面是基于云、大数据和机器人替代传统的云,现在机器人最快速,现在机器人使用成本已经远远低于了用人的成本,人的工资五险一金,再加上平摊费用现在已经大于机器人。机器人尽可能把计算集中到云端和大数据云端,机器人做到机器车间,机器车间就是黑的,连灯都不亮,全部就是黑着做事情。但是这个车间一个车间一天产生的数据量是大于TB的,它海量信息都需要云计算的支撑。另外机器人代替C2B,起到营销和管理手段。工业云我们很快在7月1号左右也会发布出来它的具体事迹。
围绕云做一个小结,我们以前割裂了云计算、大数据和数据库的能力,这三个整合是闭环的能力,对于传统云可以做到云开发,在此之上可以做到应用层在线,数据库在线原始数据经过提取合并再经过相应分析才能够形成价值在线,价值在线提供更多的应用在线和更多的价值,它是一个完整的闭环。之所以之前很多地方一哄而下,上面可以说是假云,假数据库,假的大数据,它完成不了这次闭环使得投入大量金钱而没有效率。而把所有能力进行良性循环,螺旋式上升的能力,这个过程中某一个厂商的能力不行,需要完整的开发,场景开发。我们前面是概念期,后面是商用期,云和大数据没有真正说自己是云和大数据专家,吹擂自己是专家基本上自己是属于吹牛范畴。
在这个过程中商家实践都进大量的前景,分成两拨,一个是基于鲜有的系统在做,还有一部分是商用的,阿里巴巴、微软云等等。到底什么叫商用云,这里面叫真云。可靠的、先进的,先进主要指可靠和性能。服务的,是可持续发展的,是TCO最优的,免费的往往是最贵的。这里面往往举一个例子,什么叫云?云不是切开成若干的单元,那个只是解决单机效率问题,今天要进行超大规模的计算整合能力,云计算需要用最普通的性价比最高的服务器,成千上万的,我这里划了两个服务器,一个是P,一个是F,阿里是盘古,一个是福兮,是把成千上万的这样一种服务能力,把它通过分布式调度系统改造成数据库变成一个计算能力把五千台服务器计算能力变成一个计算服务能力,这叫先聚合,然后再切片,这才叫分布式计算系统。
就像我们人的大脑,脑细胞死了还是没关系,还是整个大脑保持,所以一卡车数据中心拉到外面都没关系。应用是毫秒级应用完成。并行计算,真正实现并行计算而不是简单切片的规则。很技术的东西就跳过去了,这次在海关总署用到的大数据,这里面用到了ADS,OPS和ADS,9000个在线的海关人员对它进行切片方式进行事前监管事中监控,事后管理的控制。最终我们形成全家福,在整个全家福下面是我们要整合的很多产品,中间我们要给它做整合式创新,就是整个管控POT整合相关的应用来聚集具体的应用场景。
今天在结束之前我再宣布两个产品即将发布的,一个叫大数据一体机,这个大数据一体机可以扩容两百台,它的性能可以超群,每中处理4GB,可以达到4个9,这样同时支持流域引擎和机器引擎。7月1号我会发布这个产品。第二个就是DIDIBASE,这个是可以做到数据库,最大的148个节点,它可以和oracle有58%的兼容性,生成数据库的时间是秒钟级,连分钟级都不用。这个数的工场,其实数是数的整合,平台整合,资金整合。奥运会搭出来一个字,就是合,这个和才能到达复兴。这个工是共建共享的生态环境。这个场是共赢的场,我们互补互信。今天我们到这里跟大家分享一下我们的事情,最终还是期望跟在应用侧的和服务侧的合作伙伴共同打造数据的明天,共同去圆我们伟大的中国梦,谢谢大家!