人工智能已经进入2.0时代。
回顾过去,信息产业的发展已经历经三波大潮。第一波是上世纪50年代-80年代,以手工编写知识,逻辑推理为主。第二波从上世纪80年代开始,电子计算机广泛应用,以统计学习、概率推理为主,也就是人工神经网络为主。这期间感知和学习能力比较强,但是抽象与推理的能力比较弱。从2010年开始进入了第三波,特征是加强抽象的能力和推理能力,保持感知和学习能力,对环境有着更强的自适应性,移动通信、软件等技术的发展催生了互联网经济。与过去六十年相比,更加通用化,在各个行业里面引领着经济下一波大的浪潮。
今后的二十年,将是人工智能技术的基本创新爆发期,会产生触发2030年开始的新一波经济的繁荣期。
这里得出什么结论呢?在未来10-15年,对经济贡献最大的可能不是大数据和人工智能的新技术,而是信息技术(包括大数据和人工智能)融入各个产业的新产品,提供个性化产品和服务的新业态,产业跨接融合的新模式,这些创新主要是已知技术的新组合。任何新技术的推广需要一二十年的时间。
在经济衰退复苏期要特别重视基础性技术的发明,未来10-15年应力争在大数据和人工智能领域做出像电子计算机、集成电路、互联网一样的重大发明(重大发明是自己冒出来的,不是规划出来的)。历史上重大基础发明都是经过较长时间的技术改进和扩散之后才产生巨大经济效益,人工智能也不应例外。
很多公司都预测,从2016年到2025年的10年内,汽车、消费品、电力、物流等行业的数字化转型将有望带来100万亿美元的市场份额。
流行的说法是,人工智能=A+B+C。但我个人的看法,人工智能和大数据基本一回事,A+B+C+D+E。A是算法,B是基本理论和基础设施,C是计算能力,D是领域知识,E是生态环境。
发展人工智能和大数据要重视大众的刚性需求。2011年我跟徐志伟写了一篇文章在CACM上发表了,与“Computing for the Masses”的追求一样,我们要努力实现“Big Data for Masses,AI for the Masses”,不能只关注高端消费人群。发展大数据与人工智能要重视大众的刚性需求(如健康、出行、安全等)。过去工业化时代就是所谓 “铁公机”,铁路、公路、机场。
信息时代的基础设施是互联网、云计算中心,到了智能化阶段的基础设施是大数据中心、机器学习训练平台等。大数据的存储分析和机器学习能力已成为新的基础设施需求,计算机能力的高低将决定人工智能产业和智能服务的水平。目前,网络服务的龙头企业(BAT、滴滴打车等)都有自己的大数据平台,但智能软件和服务行业每个中小型创业公司都建立自己的机器学习训练平台,既无必要也不可能。各地双创园区要建立共享的大数据分析平台和机器学习训练平台,这是新时代的重要基础设施。
我国一半以上的HPC用于大数据/AI。过去HPC主要用于科学计算,现在HPC主要用于大数据分析和机器学习。2015年,HPC在数据分析与机器学习领域的应用只有27%,2016年达到了48%,今年有进一步提升。另外每个行业都需要AI,每个行业分别做是很累人的,有些东西是又有区别又有共性,我的想法是将来要有生产每个行业的AI引擎生产线,前面有公共的东西做局部化调整,有局部的参数调整,调完了以后出一个行业的AI引进来。
要摆脱人工智能创业公司被收购的命运。人工智能创业公司只有两个命运:一个是被大公司收购,一个是倒闭。即使像科大讯飞这样的大企业,科大讯飞市值约700亿元,净利润不到1.7亿元,在座的也有科大讯飞,没有贬低的意思,市盈率已经超过300倍,所以如何提高净利润是AI公司的一大困扰。人工智能企业史说明,算法固然很重要,但是光有算法决定不了公司的命运。AI公司要在卖产品、授权、广告、服务模式中找到新的赚钱模式,或者另外开辟技术变成钱的商业模式。AI公司要做大做强,不但要有一技之长,而且要有自己的平台和特有的数据,软件和硬件都要有过人的实力。
现在的问题,我国人工智能应用技术与国外差距不大,有些应用领域已经超过美国,但是基础软硬件与国外还有较大差距。在全球企业2000强名单中,美国有14家芯片公司和14家软件公司,中国尚未没有一家(我讲的是以软件作为主要产业的公司);全球集成电路企业前20名没有一家中国企业,华为可能擦边。我国集成电路与国外仍有两代差距。美国对中国实行禁运和限制企业收购的主要是集成电路。所以人工智能产业像一棵大树,必须扎根在系统结构和软件理论的深土中,发展人工智能不能停留在算法层面,要关注从算法、软件、人机截面到系统结构和芯片这一完整的产业链和生态系统。
发展人工智能和大数据,还是要特别重视基础的东西。中国人很重“名”,“名不正则言不顺”,信息领域不断创造新名词,一旦新名词(新学科)上升为国家意志,原来的基础学科就被边缘化,现在以“系统结构”和“基础软件”申请国家项目,已经很难拿到经费。去年国家自然科学基金计算机学科的4863项申请项目中,计算机科学的基础理论只有16项,计算机体系结构22项,程序设计语言及支撑环境13项,高速数据传输技术2项。但是,计算机图像与视频处理有439项,模式识别理论及应用357项,人工智能应用258项。这是巨大的反差,所以没有基础的话,将来还是返回的局面。
国家新一代人工智能发展规划中,偏应用的研究还是多一些,基础设施的部署偏少一点,在未来的实施中应高度重视打造人工智能的基础设施。要跟数字化、网络化、算法等要结合起来。
再讲讲我的一个判断,什么是人工智能?人工智能从科学上讲,它是计算机科学的前沿研究,从应用来讲,它是计算机技术的的非平凡应用。人工智能本就是计算机技术,现在很多人讲人工智能是新的科学,内容涉及脑科学、计算机科学、统计学、社会科学等。但是迄今为止,脑科学(神经科学)对人工智能的贡献很小,统计学对推动机器学习的崛起起了较大作用,但是没有人把人工智能看成统计学的分支。目前来讲,人工智能本质上是计算机学科的一个分支,人工智能再多,国际上还是把它统计到计算机学科名下。智能化的前提是计算机化,目前不存在脱离计算机的人工智能。所以说,没有计算就没有智能。
有人总说现在是智能化的时代,信息化时代已经过去了,这恐怕不够全面,智能时代不是后信息时代,真正的后信息时代可能是生物时代。与其过分强调智能与数字化、网络化的区别,不如多强调智能化与信息化的联系,数字化和网络化没有做好,智能化就是空话。我们吸取历史上的教训,八十年代有段时间人工智能也很热,但是它的很多需求通过计算机组合技术是能满足的,那时候讲的要从第四代发展到第五代,但是后来计算机走了一条与此相反的道路,是从底层做起,所以人工智能的很多硬件软件都并入了计算机主流。今天的形势跟80年代不一样,但是历史教训要汲取,我们既要重视智能应用的特殊要求,但是也不能忽视通用的计算机主流技术的巨大包容能力。
曙光公司是国家智能计算机研究开发中心创办的企业,是国家863计划智能计算机主题长期支持下成长起来的高技术公司,智能应用一直是国家智能计算机研究开发中心和曙光公司关注的重点之一。上世纪九十年代在建立了国家智能计算机研究开发中心中国科大分中心,专门从事语音识别/合成的评测,后来孵化出科大讯飞公司。我留学回国后指导的第一个博士是姚新,现在是英国伯明瀚大学的讲座教授,南方科技大学计算系主任。中科曙光和寒武纪是同根生的兄弟公司,寒武纪研究芯片不但用在华为的手机上,也会用在曙光服务器上。要特别注重知识的融合,钱老说过“必集大成,才能得智慧”,人工智能是对付复杂性的科学,发展人工智能不能追求“另立山头,分道扬镳”,要跟其它学科密切融合。
如何看待领域知识呢?10月19日,谷歌DeepMind团队新成果,名为阿尔法元的机器完全靠增强型自我学习,训练3天就战胜了阿尔法狗,比分100:0。这表明在某些领域,AI不再需要人类知识。过去我们相信知识就是力量,现在有些领域数据和机器学习比知识和人类经验更有力量。
最后引用一段话,是美国曼哈顿负责人澳本海默在二战胜利以后说的:“我们得到了一棵硕果累累的大树,并拼命地摇晃,结果得到了雷达和原子弹……其全部精神实质在于对已知的疯狂而粗暴掠夺,而毫无对未知的认真而谦恭地探索。”
人工智能已经六十年了,我们是拼命摇晃这棵大树不变,还是怀抱对未知的认真和谦恭,自己新种几棵树苗?深度学习为什么这么有效,没有人讲得清楚。最近以色列科学家提出“信息瓶颈”理论,发现深度学习与物理重整化。
“莫言下岭便无难,赚得行人空欢喜。正入万山圈子里,一山望过一山难。”谢谢!
【注:本文根据中科院院士、曙光公司董事长李国杰10月24日在以“从未知到可能”为主题的2017中科曙光智能峰会发言录音整理,未经本人审定】