张钹院士:大数据与人工智能研究的思考

6月4日,第七届中国云计算大会进入第二日。中国大数据专家委员会顾问、中国科学院院士张钹院士进行了“大数据与人工智能研究的思考”的主题演讲。
 

以下为演讲实录:

各位专家早上好,我今天要讲的题目就是大数据与人工智能研究的思考。关于大数据,这里有两个概念,一个是数据大。现在大家把这个焦点都集中在数据大,不管现在讲3语义4语义讲好多语义,这个语义就是容量大,大确实是问题,但是我们说大数据的处理问题是一个老问题,这个老问题比如说我们在气象数据的处理里头我们也遇到数据量也很大,那里头也有各种不同的有图象,也有文本,也有动态的情况所以变化很大,所以应该说数据大不是网络时候才有的,无非是现在更加严重一些。解决数据大的问题,我们有很多办法,这里也是现在大家都提到,比如首先遇到的数据大的计算复杂度。

如果我们过去说多象计量复杂度就可以了,可是在大数据情况下面算法都有问题,如何提高算法的速度,如何并行处理等等,从结算上处理它,这个大家都讲得很多了,我就不多讲。我现在重点讲这个数据,就是大数据,而不是重点在数据大。也就是说我们要看一下网络的数据跟以往的数据有什么不同?这里不同就是这里讲的,就是这个数据有用的很少,虽然数据很多,但是有用的只有30%、40%不到,好用的更不多,经过标志的好用,也就是说有用的30、40%,好用的中间只有7%,经过大家清洗的不到1%。这和我们以往的数据不大一样,比如说气象数据尽管有噪声问题,但是从来没有气象数据虚假的没有用的、造谣的,但是在网络里头这种数据就很不一样了。

还有一个与以往数据不同的,这些数据跟用户跟社会关联起来,也就是说这种数据是在社会中间,在人与人中间不断的传播,因此它所造成的影响,它所造成的效果是跟以往的数据不一样的。我们看一看,这样的数据会引起什么样的问题?换句话讲,我们过去考虑比较多的是形式、规模这个维度来考虑大数据,我们说它形式上很复杂,我们说它数量很大,可是我们没有考虑到另外一个维度,网络数据我们涉及了内容。

下面我们讲到,我们看到网络的数据为什么还有这个维度?语义的维度?内容的维度?现在我们先看一下人机交互的变化。我们说在当今时代我们怎么来用计算机呢?人机的截面又是怎么样呢?我们实际上在用计算机的时候只是把程序输出去,计算机根据程序来完成这个计算,然后把结果输给用户。计算机用不着了解我在干什么,这输进来的数据是什么行业,因为所有的数据在计算机存在的语音和语义,并没有码,计算机并没有了解到它的内容。可是到网络时代变成计算机人机网络,人机界面起到非常大的变化。也就是说人们把自己的需求用文本用图象用语音输入到计算机里面,计算机必须得通过文本、图象了解用户意图情况,然后根据用户意图我输出用户需要的信息,从这里我们看到这个时候信息的内容已经包含在计算机里头要考虑的。

我们在当今时代计算机人机界面在底下,内容语义根本与计算机无关,但是在网络时代计算机必须要涉及到信息的内容。我们看一下,计算机能了解信息跟内容吗?我们做一个非常简单的图象、图片的检索,这个是图片,我们在Google输进一个关键字,叫做白马,我们看到计算机输出很多白马,但是也输出很多跟白马毫无关系的图片,比如说这两个女人。什么原因呢?我们看到因为图片太多了,因此才没找到白马。我们至少说这图片多是一个原因,但绝对不是第一原因。第一原因是什么?因为计算机不知道什么叫白马,换句话讲,我们没法告诉计算机什么叫白马,也就是我们没法告诉计算机白马这个语义,因为大家都知道,它还能够根据关键字来找,为什么这张图片找出来?因为这两个女人在海边,这个海边是白马海滨,因此把它找出来。所以因此说不能准确地找到我们所需要的图片第一原因不是因为图片太多,而是由于计算机不懂你要找什么。

我们也可以更进一步看一下,如果我们在百度上打这个码和数这两个关键词,我们意思是想找有马有树的图,这个我们看出来我们找出来这些图绝大部分跟马和树没关系。原因在哪里?主要的原因也不是因为图片太多,他没有找到马和树,而是由于它不知道你找什么。为什么找出来这些马和树没有关系的图呢?因为我查了一下,这个我们国家有一个镇叫马树镇,因此把马树镇里头马蜂窝都找出来。网络不是数据多,而是由于计算机不了解语义。我们看到计算机系统,计算机不仅仅是需要了解用户意图,同时要了解用户的兴趣等等。这是语义。我们了解网络计算机新的需求,要了解用户意图,要了解用户的兴趣和体验。

在这里面我们要做到两个重要的内容,一个内容就是把怎么样出的数据,刚刚讲有很多没用的不好的数据把它变成为知识,或者说我们理解这个数据的内容,信息的内容,变成网络时代信息处理的一个新需求。比如说计算机又从文本中间、图象中间、语音中间去了解用户的意图,我们说理解,这个理解实际上三个层面的问题。比如说数据文本叫做这屋很冷,或者用另外一种表达方式,首先计算机得了解这句话什么意思,这叫自然语义,它说的是什么?说这屋很冷。这还不够,他输这个用意何在,他说这个屋很冷,是不是提醒主人要把这个温度调高一点。还有一层意思他说这句话是什么含义?是赞同还是不赞同他的说法等等。所以我们因此提供一条网络信息,网络至少需要了解这三层的意思,就是在网络里头往往都是很需要的。所以在过去计算机信息处理里头没有这个要求,这就是我们现在传统信息面临的最根本性的挑战。

我们现在要回答传统的信息能不能解决信息处理它的理论它的方法,能不能解决刚才的问题?我们回答说很难。这就是现在网络处理信息遇到根本的困难。为什么很难?我们所有的信息方法是建立在语义无关假设上,不管是通信理论、控制理论或者信息处理理论,当做这个理论的时候它首先说出我这个理论是跟语义无关的,这就是我们这里看到新兴论的三种,它在信息论里头,信息理论有一句话说我这里的问题是跟语义没有关系。也就是说你在传统理论里头必须把信息内容抽掉,这就是所有信息理论建立的依据。因为不做这样的抽象你不可能建立一般的内容,必须把底层内容抽掉。好了,我们现在要和无关的信息处理方法能不能处理信息的内容,就是这么一个问题。

我们说过去我们用传统的信息理论来解决图象、文本处理里头没有遇到的问题,为什么在当今时候没有这个问题?我们做的词处理,做的图象压缩和语音去噪等等都是跟词组有关系,跟内容没有关系。所以过去没有什么困难,到了网络时代困难产生了。也就是说我们输入信息送到X出去,对方收到了,阅读者或者接受者,这个时候机器收到了,没有误差。现在问题是我们从X机器能不能了解到X背后说的是什么吗?传统的信息处理解决不了这个问题。可是我们现在还是用传统信息方法来做这个问题,做网络上的问题,做网络上的信息处理,我们现在是怎么做的?是这么做的,我们下面提出几个挑战性的问题,机器能否处理语义,机器能否处理语义,机器传统的语义如何处理。这是我刚才说的。

刚才说传统信息处理直接输入到语义里面去,它是怎么做?它是把X映射到词空间,或者图象的特征里面,然后试图找到这个特征中间到语义的映射。我们又做这样的设置,问题出来了,特征空间到语义空间是否存在一对一的映射?如果存在,如何去找?也就是说我们把图象和文本或者语音也好,我们都叫它数据,到计算机里头他们都是零和一一和零,我们要从这个零和一一和零里头找出来零和一是哪个概念,它背后是什么东西,要找到这个映射?也就是说这堆零和一我们叫马,这堆零和一叫做牛,非常遗憾,这个一般情况映射不存在。这就是人工,也就是说从底层的数据时代词的组合,从颜色从纹理从视频,我们没法找到它的文本的含义,去识别这个图象代表什么,或者识别这个语音。因为这个距离太远。如果是这样的话,我们现在不是还在做吗?这是不幸的。但是有幸的是这种映射在特定数据处理之下在使用合理的方法这个映射是存在的。所以这个方法非常奇妙,如果这个映射不存在我们就没有研究工作可做了。恰恰相反,也就是说它只在特定的条件用特定的方法它存在,这就是我们所有现在在搞文本机器翻译也好,我们搞图象识别也好,搞语音识别也好,都是在这个前提下面做的。所以我们每当看到人家输出这个结果的时候,我们首先就是要问你是在什么样的数据库下面做出来的。

所以说你说你这个方法好,我们就要你是在什么样的条件下做出来的好和坏?所以这个是必须要知道的,就是我们现在只能做在特定的条件下面我们可以把这个工作做好。这个是图象,语音等等我们现在怎么用,现在大家经常听到机器学习,深度学习就是用这个方法训练它,然后再独立开,对没有见过的数据对它进行分类,这是现在的办法。我们现在看一下,人脸识别现在可以做得不错,我们现在说你这个人脸识别做的不错是在什么样的库情况下做的呢?如果说我们人脸库是这个样子,我们用象素来表述它,我们最后做的结果是这样。你看,这张图有70%是噪声,我们人看起来看不见是什么东西,但是计算机居然可以识别出来他是张三。而且我们从那边红色的图可以看出来,既使这个噪声50%、60%这个图这样,它的识别率是多少呢?百分之百。

意思就是说在特定条件下面你可以做得效果非常好,什么特定条件下?刚刚为什么图象识别做得那么好?大家看到它的抗干扰能力,大家看一看,为什么做这么好?因为我们用的图象这上头往上翻有三个形容词,这个图象库经过规格化,大是一样,对齐的,人脸没有歪,正面图象。正由于这三个限制词,它的图片是规格化的,是对齐的,而且是正面人脸,因此它的识别率会这么高。如果我们把这个图象变成没有规格化,大小不一,不仅有正面图象而且也有侧面图象,有一定角度的图象,这样我们做出来的结果就会比这个差,这就是目前计算机做的人脸识别,就是刚才说的我们必须得在一定的图片下面进行比较,你这个方法好和不好,大家必须得在同样的数据库下面做实验。

我们传统的信息处理是这么来处理问题的,我们现在说人工智能怎么做?我们刚才说人工智能就像直接去处理语义,这就是人工智能的一个重大的试探。这个试探的结果是根据这么一个假设来做的。我们说传统的信息处理也有一个假设,叫做语义观察学,人工智能是在什么情况下做呢,它是认为物理是充分的必要条件,大脑和计算机都是物理符号系统,这就是我们所谓著名的PSS假设。人脑和计算机都是物理符号系统,我们就有可能用计算机来模拟人脑,这是人工智能几个创始人提出来的主张,这个主张我们应该说人工智能里头早期的工作就是在这个主张下面做的。当然这个主张也有人反对,就是说不能把人脑的所有的过程都看成是符号处理,但是没有关系,这个工作还是在实践上面取得了很多进展。

我们说这就是在计算机应用的所谓符号模型,但是这个模型有它的局限性。我们说这个模型它可以模拟深思熟虑的行为,可以用来做问题的处理,可以做问题诊断和决策,我们把决策和诊断过程用符号系统处理,这有成功也有不成功的,最主要的成功就是用这套方法来搞模式识别,来搞感知来搞语音识别行不通。这就是后来提出来的多层神经网络,或者最早叫机器学习神经网络,现在多层神经网络就是深度学习。

也就是说我们固然可以用知识推动的方法来解决人类深思熟虑的行为,像推理、诊断、规划这类,但是这类方法很难用到感知处理去做,而感知处理现在大家用一种多层神经网络方法来做这个事情,这个事情基本上是从下面两个假设出发来做的,这个做的效果就是这样。这就是我们现在用的多层神经网络来做的,这个用神经网络做的效果挺好,用到语音也好,用到图象也好,它的识别率比传统的方法提高了两位数的百分点,提高了百分之十几到百分之二十,这是非常了不起的。因为大家知道提高1%都需要好多年的努力,但是仅仅因为这个方法就提高1%个点,这个很难。目前来讲这个也做的比较多。

但是我要给大家提醒一下这个方法也不是完美的,也不是大家想象那样就完全解决了问题的。那时候吴恩达教授在我们学校讲的时候我就跟他开玩笑我说你为什么不说前面的结果,为什么不说后面的结果,也就是说两万人脸识别80%几,为什么对其他两万个猫啊其他东西你的识别率只有百分之十几,几乎不认识?我们对这两万个人都能认识,你计算机训练了半天识别率只有10%几,当然比传统的方法提高很多。有人说超过多少,那是在一定条件下。所以我刚才说我们讲机器性能的时候必须要讲它在什么条件下做到的。我们说概率方法也有局限性,就是统计关系,也有误差,这个误差很大。大家注意用统计方法做肯定有错误。这个只是在概念意义上正确,大家注意一下这个公式,这个公式表示什么意思呢?到样板区无穷的时候它的错误概率不是零,而且它只是说大错误的概率会不断减小,大家要注意这个。换句话讲这个方法一定会算错。

所以今年3月份有发表的一个智能的问题方法是跟今天的方法一样。今天的方法是把传统信息处理和人工智能加起来,所谓传统信息处理是概率统计方法,而人工智能就是知识驱动方法,前面是数据驱动方法,所以经过解决大数据处理的问题,要解决语义问题必须要把这两个方法结合起来,就是把人工智能和传统信息处理结合起来。这个就是我们现在从计算方式角度来讲,就是传统的信息处理它处理的力度极小,人工智能处理力度最大,这两个都有它的缺陷和优势,我们用的办法是多图处理,但人脑子里头是多部处理。因为我在这方面也做了一些工作,大家有兴趣可以看一下。谢谢大家!