6月3日,第七届中国云计算大会在北京国家会议中心开幕。中国大数据专家委员会顾问、中国科学院院士李未院士进行了“大数据城市的智能转型”的主题演讲。
以下为演讲实录:
各位专家,各位来宾,下午好,我今天下午报告的题目是大数据城市的智能转型。进入二十一世纪的第二个十年,实现工业信息化、农业现代化和城镇新型化已经成为中国特色社会主义建设发展的一个战略需求和当前的紧迫任务。那么这三个方面的教会和融合发展使我们必须以信息化为统领,以建设新型城镇化为抓手才能够圆满完成。在过去十年里头以信息化城市大数据城市智慧城市等等这些已经成为学术节各种相关论坛和媒体热议的话题。实际上任何一个行业或者一个区域的信息化过程,都可以分为两个阶段。第一阶段是数字化阶段,这包括信息的传感、存储、计算、传输和控制的网络化和数字化。第二阶段就是智能化,就是它是数字化的更高阶段。那么这个数字化城市我想现在大家已经意见都比较统一了,什么是数字化城市呢?就是如果这个城市能够最大限度地使用数字传感技术、网络技术和计算技术构成的信息基础设施,在云计算的软件环境下,对城市的人口、资源、环境、经济、社会等大数据加以计算和处理,把反应城市社会的各种大数据有效地整合,用于规划、预测、运营、以及城市监管,来提升政府部门的管理和决策能力,提高城市居民的生活品质,这就是如果做到了这一点,那就是达到了数字城市的要求。比如说欧美发达国家的一些主要地区,以及包括我国在内的新型国家的发达地区和城市应该说基本上现在都实现了数字化的目标。
从数字化到城镇化的这个智能转型,应该包括哪些任务呢?我认为就是智能城市,城市的智能化和数字化的标志性的区别有三个。第一就是智能城市是一个复杂的信息生态系统,它要提供下属三种标志性的服务,一个我叫做深度查询,一个叫做定律发现,一个叫决策生成,这相当于智能里头的发现知识、使用知识、然后改造社会这都包括在智能查询定律发现和决策生成里面。下面我要一个一个来谈谈它们应该是什么东西。
那么从大数据处理角度,智能城市和数字化城市的区别我觉得在于智能城市要建立一个对于非结构化数据的一个统一的模型。这个等会儿下面我也要想谈谈这问题,第三从软件开发角度看,就是智能化的城市要使用软件的群体软件的开发方法。下面我就想谈一谈。第一什么叫做深度查询?比如现在咱们大家向Google也好,百度也好,输入一条信息,我经常头疼恶心,有时候呕吐,看东西不清楚,偶尔出现耳鸣,我应该怎么办,我想解决我当前的这些问题。百度立刻回答你,我这是Google的回答,说我用了0.54秒查出了42900条跟你这个数有关的网页请你逐个儿察看,前三条就是我这儿前三条。这就是资料查询,资料查询和我们智能查询区别在哪里呢?资料查询你是从42900个网页这些东西里头去找,智能,什么叫做深度查询呢?所谓智能化的深度查询,就像人一样,我们到医院或者是直接看一个大夫,他首先要进行导医服务,跟你先查一下判断你是什么病,机器如果有这个智能应该怎么样?第一步机器就回答根据你输入的东西,你有可能有下属四种可能,第一种叫做颈椎病,我今天上午没参加会就是去看颈椎病,也可能是脑部肿瘤,也可能是美尼尔氏证,也可能是感冒。医生就是照片子给一些东西给一个初步的诊断,下一步计算机,假设我选择了脑部肿瘤,接着计算机就应该给你深度查询所谓知识上的交流就应该给你回答有三种医治的方案,三套方案,第一套方言是建立肿瘤医院提供给你,第二个是有关脑瘤肿瘤医生按照现在按照排行榜把名单列给你你可以随便挑选,或者是根据你现在的症状你可以服用什么样的药,提供给你,来供用户选择。如果我选择了医院,而且我选择了中国医学科学院脑肿瘤医院,它就会回答中国科学院脑肿瘤医院,它就能够回答你具体所有需要的知识,比如说挂号,在线挂号我应该注意哪些事项怎么挂号,第二种医药费你也可以参考我肿瘤需要多少钱,如果是外地来怎么方便查询。这样的查询是深度查询,跟以前查询有什么不同,就是它已经不是资料交换,而是知识交换,你得到的,你查到的知识。要实现这样深度查询,实际上用到的东西首先说我们输入了头疼恶心,这些黄的块,这就叫做使用的方法就是归纳猜想,归纳推理,我们从一个症状就界定你一个性质是脑瘤还是美尼尔氏症。
然后你选择了脑瘤之后,你的选择实际上就是大家讨论的关联。本来大家选择肿瘤医院肿瘤药物都是不同的个体,村存储在不同的地方,因为他们有共同的症状共同点,所以计算机把它们都挑出来来供给你选择,但是一旦选择了脑肿瘤之后,是中山大学还是肿瘤医院,我都推给你,所有人都是要死的,李未要死肯定要死,这就是逻辑推理。
另外就是中国医学院肿瘤医院的挂号手续,路线图,医疗费用,这些原始数据等于你每个个体和实体和原始数据之间的勾连,连接。所以什么是深度查询呢?深度查询是提供知识而不是网页的一种和人的用户的知识交流。这个系统从描述事故的现象或者初步症状开始,通过人机交互的方式,系统提供与现象或者症状相关的所有可供选择的概念和实体,在用户作出选择以后系统查找出与之相关联的本题和相关联的知识图谱,在与用户深度知识交互中,系统逻辑推理,归纳,关键演算改变现状的所有网上可能的与之相关的解决方案和知识,这是知识层面的交流。这就是智能,这就叫智能,这就是一种智能,是我们知识方面的交流。比如现在大家最近前一段讨论的turing test,是一种特殊的深度查询,这是第一种应该有深度查询的功能,这是我说的第一点。要建立这样深度查询,我们需要做什么呢?我们需要最好就是在对原始数据来讲有一个统一的四面体,有一个统一的数据模型,这个等会儿我下面要讲。另外要计算机里面要存有大量的本体、实体、知识图谱,本体、实体知识图谱类似的实体原始数据连接,包括推理机制都应该在软件里头提供。这就是我说的第一种智能应用,智能转型的第一种应用。
第二种就是叫做规律发现。大家可能以前学过逻辑或者是感兴趣的科学发现的感觉,我们都知道,不论是经典数据逻辑还是卡尔波普尔的科学发现的逻辑原子语句都是这些语言中不可再分的对象。科学学问都是有一个形势化的语言叫做一阶语言,一阶语言包括原子语句和符合语句,符合语句就是有语言逻辑结构的问题,原子语句就是出发点,包括概念和数量之间的关系,这就是方程式。实际上概念和他们之间的方程式,这些东西是构成了每一个科学理论的核心,剩下的东西逻辑之间都可以通过计算出来。原子语句这套东西在逻辑学里面是不研究的,过去是靠科学家通过实验眼耳鼻舌喉决定,现在是通过大数据,大数据里面怎么通过数据怎么提取概念,怎么提取概念之间的方程式,这就成了当今的所有搜索,大量的研究都在这方面。凡是有这样的功能从传感器直接得来的数据然后产生关系的东西我们叫规律发现,如果都有这就是智能应用的一个方面。比如说举个例子,其实核心咱们看所有的历史从亚里士多德开始一直到现在的科学家们,比如牛顿,牛顿最重要的贡献是力学,力学里最核心的是什么东西?就是牛顿发现了这些,第一基本概念,力、质量和加速度,特别是力和质量以前古希腊就有,加速度是真正的牛顿的发现。这是提出了一个概念,概念之间的数量关系是什么呢?就是F力等于质量乘上加速度,这些东西都叫做原子语句再从逻辑学角度,对原子语句发现过去专家从眼耳鼻舌身的感觉,现在是人们通过分析找到这些概念,同时找到这些概念之间的数量关系,下面所有东西都是这五个方面可以解决。
所以什么是定律发现,就是系统通过获得的描述事物相关的大数据统计分析计算,通过人机交互方式提取本质的原子概念,以及以数学方程式的形式给出的与此事物有关的概念与概念之间的精确关系,有这一部分就是知识的发现。这是第二个部分。
第三就是决策生成,什么是决策生成呢?我这儿举个例子,比如说北京天通苑地区8平方公里现在一共是91.5万人,主要进城的道路有两条,一条是回龙观到G6然后绕行进京,第二个路线就是从立汤路到安立路进到城,现在是早高峰运输人数14万人,因此天天超载安全舒适性很差,交通堵塞路上交通时间很长,问题根源在哪里呢?假设如果每辆车乘70个人,平均早上9点每分钟发10辆公交车的话,要2000次车,这车摆40公里才能把人运输出去,所以这是每天的问题。现在如果我们想给百度输入这么一条信息,天通苑交通拥堵我要寻求解决方案,那么它也是在几秒钟之内回答说我这儿一共有124000个网页供你参考,具体地比如说我今天住在天通苑,我今天希望7点上班8点到班上行不行,这个交通情况怎么样没法给你解答,有了智能化以后将会变成什么呢?我先说大数据的情况,现在我们北京这块也算是数字城市,经过大数据的分析就发现居民对于一卡通这块每一个人14万人都是有的,居民出行主要通往城市有38个地区现在已经分出来谁在什么地方,但是实际上只有9个地区是他们的主要目的地集中了83%的人口,9个地区比如说上地什么等等,这就是现在的大数据的计算情况。我们希望智能于转型到什么情况?就应该是这样,也是应该是人机交互式的,比如说我输入天通苑交通拥堵解决方案,首先计算机回答你高屋建瓴的,你现在寻找今天解决方案还是长远解决方案?我当然选择今天的方案,今天我怎么办。这个计算机就应该接着就告诉我说你挑选有几种办法来解决,你是希望优化公交调度还是热点区域直达的办法还是优化作息安排和绕行其他道路安排的办法。比如我挑选既要公交调度又要短期方案,我什么时候合适?根据计算机个体意愿我今天最佳出行时间和上班时间,推动我个人,你把你的建议既发给我而且同时同时又发给我的老板,告诉我的领导我今天上班晚一个小时,下班晚一个小时,这就可以不扣通勤。这就是人工智能的解决办法。智能解决办法包括实际上通过人机交互作用,不断地把整个问题理清是个什么问题,比如举个很简单的例子,假设一个公交车的负荷就是P阶,发车的城市是Y阶,然后P接乘以Y阶,大于X,等等变成了数字描述的条件,这个条件我们最后求的总的运输量,P阶乘上Y阶求极大的值,这就是整个优化问题,其他就变成了边界条件和出使条件,这些都是通过人机交互的作用输入进去,然后继续问你打算用什么方法解决,用动态方式还是静态方式各种算法,现在互联网上有各种算法完整的数据库供大家挑选,当然也是专家挑选。
所以总体来说什么是决策生成呢?决策生成就是针对用户的要求,通过人机交互的方式对本体、实体概念属性多层次的归纳猜想,逻辑推理关键操作来处理,提供与之相关的决策类型,你是求极大的值还是极小值还是什么东西。这个结果出来以后根据问题数学模型并且根据人机交互作用把出使条件给出来,最后根据求解方程根据用户提供群体的统计规律和群体动态演变过程,并且根据群体每一个个体要求给出针对个体的解决方案,不仅仅是我们找到一个统计规律就完了,最终的目的是给每一个人每一个个体解决方案,做到群体优化,这不仅是刚刚发现知识,使用知识,而且是解决问题更高的智能。所以我认为这是智能转型如果能够具备这三种功能,深度查询,规律发现和决策生成,那么我们才可以说我们完成了数字化城市的智能转型。
软硬件方面需要做什么呢?首先就是很重要的问题就是当前需要原始数据的语意方面非结构化数据的统一模型。就是城市的大数据是承载知识和信息实体,通过多种数字化和传感器来自城市各个角落和人群来自于不同的知识领域,他们可以是结构化数据,过去原始数据,也可以是非结构化数据,比如语音、图片、视频等等,来自于格式不统一,而且既使是同一个时间版本不统一,极大的增加了数据难度处理的效率,所以需要统一的模型,我觉得这个很重要。我就不详细讲了,这模型应该有统一性关联性可扩展性,这块我想这块就过去了。
另外我想给大伙儿再谈一个群体软件,就是软件工程的办法也跟传统的不一样了。城市是一个复杂的社会生态系统,它的组成和演化的基本特征就是宏观就是市政管理机构对城市的宏观规划和对城市资源配置的比较调控,微观上就是竞争和市场机制对城市资源配置和城市发展的决定性作用。这是咱们每一个城市都是这样的。群体软件工程,智能城市是一个复杂的信息生态系统,它在每一个时刻所拥有的大数据都是承受社会生态系统的数字映象,是关于市政机构对城市宏观调控和市场机制对城市资源配置和发展起决定性作用的一个描述。
这种东西怎么来开发?能不能请微软来开发一个智能北京行不行?现在有点问题。为什么?我给大家解释,传统的软件定义方法就是接精英化,是Google还是微软,都是名牌大学的优秀学生,专业骨干。第二是计划性,整个开发工程至下而上的需求至上而下的需求开发,整个开发过程都是封闭的,保证开发安全。这样的优点是编程序的质量高,历史已经证明只要没有恶意的攻击,像微软我们大家天天使,非常好用的一个软件系统。
为什么它不行呢?它的缺点在什么地方呢?就是我们看看微软开发工作量,我举的是WINDOWS VISTA,6行9千的完成,这是五年时间开发完成非常好。现在智能城市,智能北京,按照中国国民经济行业分类标准一共有20个门类,20个门类咱们国家有100个大类400个综类一千个小类,咱们通常说一个行业大概相当于一个综类,那么咱们国家现在不是360行了,而是400个行业。如果我们现在选一个一千万城市人口,比如杭州、苏州像这种中大型城市,假设他的数目是320个行业,每个行业是有一千种不同的服务,各种服务,每个行业眉一挑服务的代码假设是8000行,代码的总量是多少呢?就是25.6亿行。刚才说的微软那个是多少行?微软是6000万行,所以25.6亿行要用一个微软来干就需要213年,20个微软来干还得需要10年的时间,这显然也不可能有,现在一共才有几个微软这样的公司,所以这个是研究智能城市的实现和普通的系统的根本的区别在这里。有没有办法呢?也是有办法的。这个办法就是2008年出现APPSTORE大家都了解了,另外是Google安卓的MARKET,比如APPSTORE从2008年到2013年5年的时间130万人完成26亿行,5年时间就完成。所以要把这两种办法要结合起来,结合起来,所以我们现实就提出了群体软件工程的想法,这个是什么呢?就是软梯结构是新的结构,这个结构是层次式的模块化的体系结构,纵向分成层,横向是由若干模块组成的。每一层决定下一个模块的功能以及该层各块模块之间和下层接口的关系,每一层软件实现包括设计文件编写,模块代码开发,程序测试,是通过市场,像APPSTORE一样,通过市场的竞争,中标来实现。构建的办法就是每一层是他下一层市场开发竞争和中标的组织者,竞争轨辙的制定者和市场的监督者,然后整个为了保证软件的安全性,如果一个用户既参加这层又参加那层,他知道这个事儿就麻烦了,所以要保证软件安全要实行临层隔壁,纵向是软件规划,横向众包完成实现,完成软件代码编写和开发测试,这是我们叫做关于智能城市群体软件开发方法。只有用这种办法动员70万网友,我们才能够把400个行业的千万城市的在5年之内把智能城市建成,我今天就说到这儿,我谢谢大家。