摘要:中国工程院原副院长、秘书长邬贺铨在无锡举行的第三届中国国际物联网大会上表示,数据挖掘是物联网和智慧城市重点,但之前我们更多的把关注点放在了数据感知和应用上,这是需要纠正的。
中国工程院原副院长、秘书长邬贺铨在无锡举行的第三届中国国际物联网大会上表示,数据挖掘是物联网和智慧城市重点,但之前我们更多的把关注点放在了数据感知和应用上,这是需要纠正的。
以下是中国工程院原副院长、秘书长邬贺铨致辞全文:
尊敬的各位专家,下午好,我的报告题目是《智慧城市的数据管理》。先说一下智慧城市的基础设施。
什么是智慧城市?最初是无线城市,无线设施是数字城市设施的关键组成,但无线城市仅仅是数字城市的第一步,数字城市可能要求比电信网络有更多的有线宽带设施。
智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效。对人力与社会资源和传统及现代设施的投资,促进可持续经济发展和高质量生活,同时通过提供参与治理的机会实现对自然资源丛明的管理,这时一个城市就被称为智慧城市。
智慧城市本身应该是可测量的,可监控的,可分析的。另外是能整合的,还是创新的,以及协作的。
那么智慧城市跟物联网以及跟未来网络有什么关系呢?物联网是智慧城市网络能力的基础。但智慧城市的网络能力内涵更为丰富,具有对未来网络所期待的特征。可以从图上看到,传感网仅仅是未来网络的一部分,除了英特尔以外,未来网络还应该包括,数据与内容、物品与传感器、用户与知识等等。未来感知包括服务感知、数据感知、环境感知和社会与经济感知。
物联网底层有很多感知对象和感知的单元,通过网络把它们汇集,然后通过应用领域将实现更智慧的决策。智慧城市的信息要有非常强大的基础设施,包括有线网络、无线网络、移动网络,有时候还需要利用卫星等等手段。除了传统手段以外,靠近用户端有物联网网端,有时候还需要云计算平台的支撑。
智慧城市的信息基础设施是下一代互联网和未来网络,我们希望这个网络更安全,能够具有移动性的普适计算,能够跨越物力与Cyber空间,而且还是自治连网。
那么智慧城市跟云计算是什么关系呢?这个图上可以看到,我们国家很多智慧城市都以建立云计算基地和提供云服务为主要目标。像北京有祥云工程,上海有“云海计划”,天津有六云产业和三云应用,重庆希望建立云端智能城市,广州有天云计划。
我举个例子,比如上海的智慧闵行,闵行有很多很多的数据库,然后建立闵行区私有云和民生云,希望通过数据挖掘,智能图像识别和网络检索的技术,来实现智慧政务、智慧医疗、智慧交通。
早年我们没有谈云计算,八十年代谈数据库,九十年代谈IDC,现在我们更多是谈云计算,实际上更多的是云服务。在云计算上面有Iaas系统,上面有Paa市系统,再上面有SaaS系统。但是我个人认为,仅仅做iaaS仅仅是数字房地产,房地产随着时间是增值的,那么Iaas随着时间会贬值,更多的应该做paas,提供很多的开发环境,利用这个环境开发企业需要的软件。对于更多的中小企业,即使有Paas自身也不会开发,因此需要提供Saas,这里面就需要提供非常多的软件。
通常,云计算一般企业来讲可以利用共有云,对于大企业来讲,往往自己建自己的云,但并不妨碍跟共有云发生关系。更多企业既想把一些装置放在公用平台上,但又担心安全,所以经常是使用私有云。
你看美国政府,政府IT预算25%要投到云计算平台上。
下面是我报告的重点,要讲一下智慧城市的数据管理。这个图上大家可以看到,互联网上的一分钟可以干一些什么?到2015年,大概1个人要花五年时间,才能看完在互联网上一秒钟所传的所有视频。
那么互联网上一天可以干什么呢?对Tvitter,一天新增2亿条微博,7个TB。50亿个单词,几乎是60年来纽约时报单词量的两倍。对于Facebook,一天可以上载2.5亿张照片,相当于300个TB。那么在中国淘宝网站一天又交易数千万笔,大概数据量是20个TB。全世界互联网上一天的信息量如果装在DVD光盘上,要装1.68亿张光盘,大概是80万个硬盘,约占800EB。
那么互联网流量的变化。1998年平均一个网民一个月的流量才一个MB,到2000年,达到10MB,到2008年平均一个网民是1000MB,到2014年是10000MB。
2011年4月美国国会图书馆收集了235TB无数据。全球新产生的数据年增40%,全球信息总量每两年就可以翻番。而对新增数据的处理能力以及其利用率的增长则不足5%。而且所有数据量的90%的数字内容属于非结构化内容。
最近两个月在YOUTube上上载的视频超过了ABC、NBC和CBS电视台自子948年以来247/365连续播出的内容。
那么什么是大数据呢?大数据是指没有办法在容许的时间内用常规的软件工具对它技术抓取、管理和处理的数据。也就是说,你在规定的时间里头用常规软件工具做不到的。大数据目前的标准是支单一数据集的大小在几十TB到数PB之间。
大数据本身有四个特征,超量、高速、变异、价值。大数据的应用领域很广泛,有医疗、交通、财务、物流、安全等等,应该说想得到的领域都可以发生很多应用。
比如企业,企业有管理部门、开发部门、销售部门、服务部门、这些部门是有交互的,如果通常的企业管理可能很难得到最优化,如果利用大数据管理,可以改善它的管理,性能上可以提高40%-60%。
美国有一个公司InFormatica为帮助美国一家零售公司把交易型的数据与社交媒体产生的数据能够关联分析,找到“最佳客户”并分析他们的购买行为。亚马逊公司从销售数据分析适搭配在一起买的商品。
硅谷有个气候公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而预测任一农场的明年产量,向农户出售个性化保险,如果出现未能预测的恶劣天气损坏庄稼,气候公司将及时赔付。
我曾经在山东寿光的菜市场看到,当地有一个显示屏,北京黄瓜3块钱,当地黄瓜1块钱。我问农民说,你怎么不到北京去卖呢?他说,我要去北京卖,价格8毛钱都卖不出去。我说信息化对你没有用吗?他说,不是,信息化只有我知道的,别人不知道的信息对我才有用的,因此所有的市场信息都应该是个性化的。
美国纽约的警察分析交通拥堵跟犯罪发生地点的关系,能有效改进治安。美国纽约的交通部门从交通违规和事故的统计数据终发现规律。
我们的电信运营商也拥有大量的手机数据,通过对手机数据的挖掘,不针对个人而是着眼于群体行为,可以从中分析出:这个时候有多少人在这个地方。
前一段时间我去广东,广东省委领导提出来现在的经济下行了,究竟农民工走了多少?往往这个数据统计不准确。因为经济好的时候,人们不会多吃盐,经济不好的时候,也不会少吃盐,所以盐的销量相应反映出人的数量,那么为了核实这个数字,我问了一下广东的通信公司,我说你们能不能从用户活跃数量上判断结果。结果从这个上面判断出这个数字,也是20%左右。所以通过数据可以很好的反映人的来源。
比如说我们可以很好的掌握,现在在天安门广场有多少人,我可以知道多少人来自河南,多少人来自四川的,多少人来自江苏的。如果你是来旅游的,一两个小时就走了,如果上访的,可能三四个小时,这个时候上访部门就要注意了。
还有根据手机在马路上走的运行速度可以判断这条马路是不是堵,实际上这些都是可以挖掘的数据。
3000亿美元,美国保健的年度潜在价值,相当于戏班言年度医疗保健开支两倍。2500亿欧元,欧洲公共管理的潜在年度价值,比希腊GDP的两倍还多。所以世界经济论坛上大数据就是新财富,大数据的价值堪比石油。
当然了,要挖掘大数据不是那么容易的事,首先要进行数据管理,数据来自不同的地方和不同标准,数据量的大小、结构形式、实时性都不一样,会增加采集、编索与整合的困难,需要对传统的数据传输工具ETL无流程进行重新设计。
数据存储,传统的集中式数据库、数据仓库系统已经不能有效的处理大数据的存储和分析,需要分布式处理,Hadoop就是分布式结构化数据存储方案。
数据挖掘,为了处理具有高维特征的图像等多媒体数据,将高维数据看成位于一个相对低维子流形上,利用流形的性质将数据降维后度量与处理。
总的来说,物联网也好,智慧城市也好,数据挖掘是重点,今天我看到无锡这个展览会,我们很多都关注数据感知、应用,实际上几乎没有看到数据挖掘,没有看到智能决策,实际上这是需要智能决策的。首先在数据收集层不仅仅是收集传感器的数据,需要手机政府和市民的数据,才知道这个时候这个地方发生了什么,然后才对得出传感器的数据有一个合理的解释。
获得这些数据以后,不是简单从数据分析,需要建立一些模型进行仿真,得出的结果需要有可视化的表现,甚至要增强现实。
另外是不是发布?是不是在发布之前进行仿真?我发布之后有什么样的后果?这都需要在数据挖掘上做的。
比如说蓝藻爆发监测模型。通过传感器捕获太湖水里的成份,我们根据经验可以知道,蓝藻的发生强度跟溶解氧有比较高的相关程度,跟水温有比较高的相关程度,跟电导率有比较高的相关程度,但跟氨氮、PH值、硝酸盐没有这么高,这些可以作为参考。但仅仅这些还不够,还需要图像,根据视频结果,一起来结合分析,才有可能得出是不是会有蓝藻爆发的结果。
而且我刚才说了,不仅仅基于传感器,还基于人工采集的数据,基于卫星遥感的数据,通过多元的数据收集,才能保证确认这个事件的可靠性。收了这些数据以后,需要有数据湖泊模型,通过跟历史的比对,进行分析挖掘,得出结果以后进行网络发布,所以这是一个复杂的过程,我们需要合理的制定感知数据的存储期。
我们城市有大量的摄像头,很多城市提出来存三个月,那几十个摄像头存储这是需要非常大的资源,这就需要压缩去掉重复用于的数据。比如关注某个仓库有没有异常事件,那绝大部分是没有人的,这段可以压缩掉。而且要坚固历史数据和新数据,提供一个使数据精度随时间逐渐降低的数据老化方法。另外存进行还要考虑以什么样的规律挖出来。
数据的隐私和保护也是非常重要的问题,这里有技术性问题,一些数据可能需要加密,这要分配密钥,而加密对于传感器来讲需要采用高能效的加密算法,当然还有可介入性认证,可信性认证、数据完整性认证、隐私增强技术和身份管理等等。
法律上规定有些数据必须开放,老百姓也能看见。还有责任性、数据拥有权。从经济角度要有行为规范,为了商业利益也要有隐私保护。在社会伦理上要保证公众有知情权、保证消费者有权利,保证消费者的主张。
数据访问认证与安全管理有网络访问控制、网络数据保密、网络数据完整性、网络可用性、网络不可否认性等等。
另外在大数据的挖掘里头很重要的一点,要解析非结构的信息。文字信息我们比较好过滤,有一个关键词就可以选择了。有一个小企业,它做不到每个员工一人一台电脑,很多时候是两三个员工一台电脑,有一个员工觉得很不方便,就向领导发了一个短信,他说我申请一台独立电脑。计算机一分析“台独”,实际上计算机本身没有这个智能,它需要上下文关联,通过工具找出真正的含义。把复杂的、模凌两可的矛盾的数据导出可理解的内容,这就需要进行大量的解释。
另外大数据的量非常大,我们不能等它存在计算机数据库里再调出来分析,我们需要在一边输入,一边分析。过去分析是把数据带进程序,现在我们是把程序带进数据,就是实时进行工作。
刚才说到分析结果要进行可视化,只有可视化才能更直观,更能够被决策者所看得见,也能够在发布的时候,让老百姓所能理解。举个例子,上海延安路上我们布了很多很多摄像头,每个摄像头后面都连着一个电视屏幕,往往在交通监控中心,一面墙上放了很多很多电视屏幕,再多也不可能把整个上海交通电视屏放上去,只能每十秒钟更换一次,可能每一个点要半小时/一小时看到一次。
现在我要把整个录像合成一个视频,我就可以看到延安路上交通状况如何。我还可以合成全上海的视频情况,在某一个经纬度上对应某一条路上,在某一个时段上演,哪个时候车最多?哪个时候行车速度最慢?因此可视化能够让我们直观看到上海市同一个时间交通流量图。
这是篮球场的半场,NBA统计2011-2012年投篮位置和投篮命中率的关系,这里面点值越大,表示在那个点上发生投篮概率最大。颜色发红的表示投篮的成功率最高,你可以看到在半圆以外投篮率都很高,在篮板下投篮也比较高,其他地方并不是很高,这就是很简单的可视化的例子。
其实在城市里头有多种多样的物联网,我们不太可能把电力、交通、工业、海水的合为一个物联网。一个城市有这么多物联网组成,关键是这些信息能不能共享?所以这是城市数据管理一个很重要的内容。
往往某个地方发生火灾了,可能打119,如果交通部门不去,那堵车了,救火车开不进去,如果供水部门不去,那个地方开不了水,如果120不去,可能不能急救,所以城市的服务系统应该是互相关联的
最后,我们正在进入宽带时代和移动互联网时代,将要面对后摩尔时代、后PC时代,云计算时代和物联网时代及大数据时代也将向我们走来,网络技术正走向换代发展的转折点。
无线城市、数字城市、宽带城市、感知城市是智慧城市的必要条件;
智慧城市是城镇化进程的下一阶段,是城市信息化的新高度,是现代城市发展的园景。
智慧城市每天产生大量的数据,大数据的收集、存储和分析处理及使用对智慧城市是很大的挑战,这不仅是技术也是法律和政策需要关注的问题。大数据的挖掘对智慧城市的经济发展和社会管理是无形的管理。