TalkingData崔晓波:无数据不AI,无人工不智能

今年以来又出现了很多热词,不止大数据,人工智能(AI)、深度学习(deep learning)、机器学习(machine learning)、AR、VR……形色的创业团队鲸吞了市场上相当一大部分的投资。所有这一切好像跟我们相关,但好像离商业价值又那么远,他们之间到底跟数据有什么关系,有没有可能给其他行业创造价值?

新时代的到来

后数据爆炸时代

%e5%9b%be%e7%89%871

其实整个人类的发展历史,就是人类不断的尝试去记录以及去测量自身和世界的过程,无论从古时候人类发明算盘,发明阿拉伯数字,又到近代发明二进制计算机,好像都是这一现象的反应,但是人类对自己,包括对世界的认知好像还是那么浅。比如描述一个人的时候还是只能说这个人的性别是男是女,年龄是老是少,身高、体重等等,我们提到环境的时候还可能说今天气温怎么样,湿度怎么样等等,好像我们对世界的认知还是那么粗浅。但是人类对于数据测量自身的需求一直没有减弱。

根据TalkingData的数据统计,现在在中国,智能手机含平板电脑拥有13.05亿用户,智能手表包括这些可穿戴设备已经达到千万级,这意味着什么?智能手机、智能设备基本上人手一部甚至多部,无处不在,无时不在。而每部智能手机平均携带多达16种的各种传感器,每天产生1G数据,这不仅加强了人类感知以及数字化世界的能力,也让数据以前所未有的速度在产生和发展。所有这一切现象,都揭示了以人为中心的世界正在加速数字化。这是一个数据爆发的时代。

人工智能:“已经过了单纯积累数据量的时代”

移动设备已经成为人类身体的延伸。根据TalkingData的数据统计,我们每天手机使用时长将近四个小时。好像历史上第一次有这么一件东西跟着人在一起,它甚至已经变成人体的一部分,它默默在后台记录着我们,不管上网,还是在现实生活中,在家中,在上班,在吃饭,在旅游,在消费,我们所有的足迹都在被默默地记录下来。好像我们这些数据行业迎来了历史上最好的时刻——数据爆发的时刻。

但是,这已不是一个单纯的积累数据量的时代,这个新的时代,对计算提出了更高的挑战。

第一,这些数据并不是所有的都被存储和收集。前面提到除了摄像头和话筒,一个手机携带的传感器数量多达16个。这大量的隐形数据的采集、运算、存储、传输等等领域依然存在着巨大的障碍。

第二,如何从大量的数据里面解读人的动作,识别人的场景是更加重要的一个问题。现在的很多数据都是非结构化的情境数据,例如图像、声音、姿态、动作等等,需要人工智能的帮忙从中间提炼有价值的信息。所有的世界上顶尖的技术公司都在做一件事情,就是尝试用算法用机器学习去还原人在现实生活中的动作,不管视觉、听觉、姿态、感知还是做一些基础的工作,现在语音识别的技术,图象识别的技术都在大规模的发展,但是为什么当数十亿大脑神经元彼此传递信号时,就会出现喜爱、恐惧或者愤怒的主观感受呢?对此,我们依然一无所知。人工智能对世界的认知还停留在早期阶段。

%e5%9b%be%e7%89%872“所有的前沿技术,包括人工智能,对世界的感知,还都处于早期阶段。”

“AI的核心技术并没有发生重大改变,现在的核心技术几乎与多年前的一样。昔日的技术达不到要求,不是因为设计不足,而是因为尚未具备所需的基础和环境。”

——计算机科学家,Kris Hammond

数据促进了人工智能的发展。AI过去与现在的最大区别是,必须的计算能力、原始数据和处理速度现在都有了,因此AI技术现在能大放异彩。目前人工智能在识别,包括在认知,产生很大进展的原因首先是数据量带来的。谷歌在语音识别领域取得了很大的突破,但这背后的原因是谷歌建立了几十亿音频的库,而且用人类的智慧标注它,所以可以用算法,用人工智能找到模式,甚至可以区别口音不同。图像也是同样的:过去几十年里,其实人类花了大量的时间去标注这些图像,我们才能在图像里面切割识别出各种各样的物体,没有这些人的智慧现在人工智能是达不到这样的程度。

%e5%9b%be%e7%89%873%e5%9b%be%e7%89%874 Garbage in, Garbage out:数据的质量和完整性对于人工智能建造高效的模型至关重要

人的智慧:AlphaGo背后的故事

以AlphaGo人工智能为代表的AI复兴体现对于世界的认知能力正在加强。在过去的几年间,我们看到,机器学习、强大的算法、巨大的处理能力和所谓的“大数据”已经可以让机器做一些让人印象非常深刻的事,比如,实时语言翻译、在复杂的城市环境中安全地开车。要知道,即使是在10年前,这些也还被认为是不可置信的。

AlphaGo战胜人类被视为AI历史上的里程碑事件。大家看到AlphaGo战胜了李世石,但是不知道背后的故事。但是我是第三局的亲历者之一(这场棋赛的解说者),看到的角度和大家不同,我看到了数据的力量。

在这场比赛中,关键的获胜因素有两个:

第一,要有足够的数据支撑。AI要模拟人,它首先要知道人在面对不同事情的时候是怎么去把握的,而这种判断和把握的能力就是出自于成千上万的海量数据得出的结果。

AlphaGo拥有一个数据库,里面有十几万份人类6-9段职业棋手的对弈棋谱。Alphago从中模仿人类常见的落子方式,根据谷歌透露的数据,模仿的准确率达到了57%。也就是说,单单这一项功能,就可以使Alphago在一步的选择上有57%的概率与人类高等级职业棋手相同。2014年,google来到中国棋院买棋谱,近两年累计记录的棋谱数量是过去几百年记录下的棋谱的总和:根据KGS(一个围棋竞技网站)统计,KGS平台每年专业段位的对局棋谱的累积量,近三年研究的棋谱数量都接近20w。(alphago,darkforest等都用了这个网站的棋谱)。这只是一个平台的棋谱,还有GoGoD平台的累积大约8,5000专业段位棋谱。18w的棋谱一共有将近2500w的局面,每一个局面都可以上下左右、镜面翻转,这个2500w局面就能再乘以8,这个数据量已经能够支撑深度学习。

第二,要有人类的智慧。Alphago在下棋的时候“聪明”得像一个人,大量的数据提供了它“思考”的来源。但AI不是由大数据一手决定的,还有人的经验和智慧;AI会发展成什么样子,打个园艺的比方来说:大数据是土壤和养分,AI是植物,而人就是园丁。土壤和养分让植物长得好,但也离不开人的修剪和培养。代表AlphaGo跟李世石坐下来对战的那个人本身就是六段的高手,他在训练AlphaGo时,后来我们也交流过,加入了大量的人工智慧,加入了大量的人为规则,让它少走弯路,这些都是被人忽略的,我们过大强调AI的作用,我们觉得在目前这个时代,让算法、让机器代替人做判断这个事不会发生,在目前的情况下更现实的还是要引入很多专家的智能,人的智慧,在数据科学以及数据工程不断完善的情况下,去提高AI的水平。

虽然AI应用能使一些任务变得自动化,但人类判断全部交由算法负责这种情况几乎不可能发生。更现实的方法是,使用数据科学和工程不断完善并提升人类的判断质量。当数据十分充足,依靠统计学的方法进行决策是恰当且合理的。当没有数据或拥有的数据十分有限时,采用群体智慧和其他心理学方法能够更好地进行决策。“智能”数据应用将把日程工作自动化,从而空出更多时间让人类专家专注于需要他们专业判断的工作,以及从事社会认知(social perception)和共情等非认识能力的行动。比如:保险公司也可以使用深度学习系统将估算受损汽车的成本修理费用变得自动化,让人类保险雇员有更多时间完成更加复杂和需要更多经验的客服。但在可以预见的未来,人类仍将是“决策过程中的一部分”。

%e5%9b%be%e7%89%875“我们过大的强调了AI的作用。在目前的情况,机器代替人作决策还不会发生。我们还需要引入专家的智慧。”

数据为本,AI为核心,人为关键

这个时代叫做智能数据时代

前面我们谈了大数据的爆炸,人工智能的发展状态,以及人的智慧在里面起的关键的作用。所有这一切隐隐约约地让企业家们好像感觉到一个新的时代要来了,这个时代是什么?答案是,智能数据时代。

智能数据,不同于传统的数据,就是添加了人工智能和人的智慧的数据,这个名词的出现,揭示了数据、人和机器三者之间的有机联系。这种有机联系赋予数据更多价值,赋予数据心智。现阶段的“数据”与以往的数据已经有很大不同。数据内容包含的信息量越来越大、维度越来越多,从图像、声音等富媒体数据,逐渐过渡到人的动作、姿态、行为轨迹,再加上地理位置、天气、社会群体行为等等,按照以往处理数据的思路已经难以适应“数据”本身发展的速度。一个融合人类智慧、人工智能以及海量非结构化数据的智能数据时代已经来临。因此,“发展多年的‘大数据’即将进入‘下半场’。”

这个时代最重要的三个要素是:数据、AI,人的智慧。这三者之间的关系又是什么?如果举个例子的话,做个比喻,数据相当于什么?人的血液。人工智能相当于什么?人的心脏。心脏需要靠血液供给,但同时它还会根据人的心跳,把血液再输回给人体,从此往复循环,形成一个正循环。人的智慧是什么,大脑,是不可替代的。所有这一切构成了智能时代的三个要素。

数据时代的颠覆和挑战

未来,数据行业本身将会面临进一步的洗牌,能够更好的应用异构的、情境化的数据,能够开发更加智能的算法,能够开源撬动生态价值流动的企业能够获取更大的竞争优势,也就是说,能够驾驭智能数据的企业得天下,all in or all out(不接受并驾驭智能数据的企业将逐渐被淘汰)。这样,竞争优势会内生叠加,进一步帮助企业吸引更多的人才和技术;人才和技术持续集中,根据数据分布的特点,中小型企业将被迫向垂直数据应用领域转型,并稳定在垂直领域,但同时又不得不依托于大型生态的数据连接能力,最终呈现一种“一大多小”两极分化、“小依附大”的竞争态势。

对于其他行业来说,企业将面临四个方面的挑战。1)业务数据化:所有业务都以数据的形式进行流转。2)数据资产化:在很多企业,业务与运营没有形成闭环;数据没有资产化,只是先储存起来而已。智能数据时代,会倒过来,业务可能不赚钱,但数据将体现出商业价值。3)应用场景化:企业与用户的每一个交互点,都具有改变用户认知的功能,因此场景化将成为营销的核心。4.技术开源化。智能数据首先会颠覆的,是比较依赖于快速决策的高频交易行业,例如高新技术企业,零售,广告,……还有为这些行业提供决策支撑服务的专业企业,代理商、咨询服务商等。紧接着,传统行业的各个环节也会受到极大的颠覆,会出现新的销售渠道和获客手段,极大的更新行业平均效率。

智能数据时代的新商业范式:新贝叶斯定律

智能数据时代,数据离所有的企业的商业价值都很近。在跟客户交流的过程中,不管金融、地产、零售,基本上客户只问一个问题,好像大数据这个系统投入很大,到底有没有价值,到底怎么产生商业价值,商业价值又往哪个方向投,这个问题的终极答案会在这个时代得到揭示。一个新的商业范式诞生了,TalkingData称之为“新贝叶斯定律 ”。

贝叶斯定律是大数据时代最重要的定律,无处不在,所有的机器学习算法、图象识别、语音识别,所有的一切统计方程式后面都是这个定律在起作用,大数据满足了修正到最接近现实世界的基础条件——数据量的积累,在此基础上,与传统统计学不同的是,贝叶斯定律集合了人的智慧,在决策的过程中,我们能够不断的修正,能够更快的做出尽可能正确的决策。举个例子:比如说炮兵瞄准的时候,一般会先会根据他自己的经验、距离、风速等等预估一个方向打一炮,然后马上根据炮的落点修正,这样三到五次就可以命中目标了,这种瞄准的方法就是贝叶斯定律,强调的是首先靠人的智慧,在没有那么多数据、统计池、大数据的情况下怎么办:先看人的智慧去确定一种方案,做一个决定,后续不断的通过吸收数据来调整我这个方案;数据量越大最后越能得到一个接近现实的结果。

%e5%9b%be%e7%89%876

可以看到,贝叶斯定律所强调的跟TalkingData提出智能数据时代的三个要素不谋而合:人基于数据去训练AI,能得到一个非常有价值的东西。在智能数据时代,企业的商业价值会和基于数据的人工智能的发展以及不断提高的基于数据人的智慧,呈正相关关系。总结来说,数据本没有意义,AI本没有智慧,是人,让其有了意义,有了智慧;无数据不AI,无人工不智能。

TalkingData精耕于数据,在智能数据时代深谙新商业范式的精髓,作为新智能时代的数据生态的领导者, 我们将全球的海量数据,最领先的技术,和全球顶级的专家完美的融合在一起,帮助各个企业迎接全新时代的到来。