应约写一篇介绍大数据的文章,发表在某公司的内刊上。阅读对象多为非IT行业的咨询顾问和投资人。因此,必须做到深入浅出,言之有物。IT本身枯燥,大数据这个概念又过于时髦,业界亦是众说纷纭。不用技术词汇说明白这件事情,还是蛮有挑战的,因此写成博文,先请方家、网友们批驳。
1993年《纽约客》刊登了一副漫画:标题是:“互联网上,没有人知道你是一条狗”。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5万美元。彼时关注互联网社会学的一些专家,甚至担忧“计算机异性扮装”而引发的社会问题。譬如同性恋和恋童癖,可能会借助互联网而大行其道。
20年后互联网发生的巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。我们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么食物、几点出去遛弯,几点回窝睡觉。我们不得不接受这个现实,每个人在互联网进入到大数据时代,都将是透明性存在。在物理世界中,许多行为是“人似秋鸿有来信,事如春梦了无痕”。但在互联网上却是“处处行迹处处痕”。任何行为,皆有前兆。要买商品,必先浏览,对比,询价;要搞活动,必先征集、讨论、策划;互联网上恰恰保留了大量的前兆性的数据,通过对这些数据的收集和分析,互联网企业具备了预判物理世界中,人类未来行为的能力。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,这就是大数据技术的魅力。事实上大数据的来源非常广泛,天上的卫星、地上汽车、埋在土壤里面的各类传感器,无时无刻不在生成大量的数据。这些数据如果综合利用,产生的社会价值和经济价值将是难以估量的。
第一篇报告——《大数据时代即将到来》,之所以用时代这个词作为标题,是因为大数据是历史上首个可以预测人类短期行为的技术。未来的不确定性,是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术技术让我们看到解决未来预测问题的一丝曙光。
“08年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值。统计历史上所有买家、卖家的询价和成交的数据,可以形成询盘指数和成交指数。这两个指数是强相关的。询盘指数是前兆性的,前期询盘指数活跃,就会保证后期一定的成交量。所以当马云观察到询盘指数异乎寻常的下降,自然就可以推测未来成交量的萎缩。这种统计和分析,如果缺少大数据技术的支持,是难以完成的。这次事件,马云提前呼吁、帮助成千上万的中小制造商准备过冬粮,从而赢得了崇高的声誉。
推动大数据技术在各行业普及的原动力,来自于企业改善自身经营水平、提升经营效率的需要。长期以来,困扰企业最大的难题就是“如何更加了解他的客户”。索尼公司的创始人出井伸之解释索尼衰落的根本原因时,说了一段发人深省的话:“新一代基于互联网DNA企业的核心能力在于利用新模式和新技术更加贴近消费者、深刻理解需求、高效分析信息并做出预判,所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸,其衰落不是管理能扭转的。互联网的魅力就是‘the power of low end’”。
这句话有两层含义。第一,传统企业衰落的根本原因在于难以贴近消费者,难以了解消费者的真正的需求。第二,互联网公司强项恰恰是天然的贴近消费者,了解消费者。传统企业必然嫁接互联网企业的DNA,否则必将沦为互联网企业的附庸。
这一轮的变革,事关绝大多数企业的命运。可以看到,用大数据这个视角,可以察企业的兴衰。第一,对大数据不关心,不了解。必步索尼的后尘;第二,拥有大量的数据,并善加运用的公司,必将赢得未来。时代变了,判断企业价值的标准、判断软件价值的标准也变了。
我们判断软件价值的标准是它所协助管理的数据的规模和活性。
我们判断公司价值的标准是其拥有数据的规模、活性,以及收集、运用数据的能力。
围绕数据和最终用户,我们观察到计算机行业的发展有三大趋势:第一应用软件一定会泛互联网化。第二,行业会垂直整合。越靠近终端用户的公司,在产业链上将拥有更大的发言权。第三,数据将成为资产。泛互联网化是收集数据的重要渠道,没有泛互联网化的应用软件,公司就难以获得用户的行为数据;行业垂直整合趋势在数据运用层面,通过搜集大量的用户数据,更贴近用户,更理解用户,为其提供更适当的服务;数据成为资产更强调数据的战略意义。三大趋势的提出,拓展大数据主题的研究范围,开辟了新的视角和逻辑来观察软件公司成长路径和投资价值。成为我们分析研究TMT公司的顶层逻辑的要素之一
在详细说明三大发展趋势之前,我先强调一下,大数据对传统企业影响。第一,文化的颠覆和组织的重构。传统的金字塔式的组织结构一定是过时的,必须全面转向以客户和消费者为中心,重新梳理公司的战略、文化、组织。期间有大量的咨询业务机会。第二,对信息系统的冲击。传统架构的信息系统无法应对海量数据,首先存不了,其次也无法在多种数据间建立联系,也就无从分析,更谈不上快速有效。我原来给运营商做商业智能的项目,运行一天出结果,就不错了。但大数据要求是1秒有答案。这种差别是巨大的。所以信息系统面临升级换代的要求。第三,企业管理经营必须和信息系统完美对接。管理要标准化、标准要流程化、流程要信息化、信息要智能化。而且我们还观察到一些咨询公司收购软件企业,为客户提供包括战略咨询到信息化建设的完整服务。
首先来看看第一大趋势,应用软件泛互联网化。所谓泛互联网化,就是指应用软件都会和互联网联通,成为用户接入互联网,享用网络服务的媒介。一般而言,大家用浏览器上网。现在几乎所有的应用软件都具备联网的功能。比如我现在打字用的输入法,它不断的把我的常用词传到到网上;再如360安全卫士,不断的会收集电脑上的一些隐患,也会传到网上。泛互联网化解决两大难题,第一,猖獗的盗版。盗版软件接入网络无异于自投罗网;第二,促使盈利模式从卖软件拷贝,走向多元化。可以卖服务、可以卖流量、可以卖广告。多元化了。
泛互联网化有三个显著的特征。第一,跨平台,不管是PC、平板还是手机,给客户的体验应是相近和相互关联的;第二,门户化,用户无需启用其他软件即可完成绝大多数的工作和沟通需求。对于个性化的用户需求,可以直接调用第三方应用或者插件完成;譬如从新浪微博的发展轨迹从,可以清晰的观察到,门户的特点。某个软件一旦具备了门户的特征,那他就基本走在赢者通吃的路上,甚至给第二名都留不下多少机会。第三,碎片化。把原来大型臃肿的软件,拆分成多个独立的功能组件,用户可以按需下载使用。最典型的例子就是苹果的APP store。每个“碎片”完成一个小功能,聚合起来,就可以满足人们方方面面的需要。到今年3月份,苹果应用商店的下载量已经超过250亿次。碎片化衍生出微支付,用户可以花几元钱买到很好玩的东西。如果一些大型应用软件,通过碎片化方式提供,还可以显著降低用户的总体拥有成本。这个话题还有很多方面可以讲,限于篇幅,就此打住。
一旦我发现在企业市场运用泛互联网化思想的软件,我就非常兴奋,意味着这家公司的具备爆发式增长的基本条件。用友的几款软件就是这样。不过他们的步子需要再加快一点。慢慢腾腾的可不行。我看到有些给企业服务在线小应用,如人力资源测评等,完全可以再延伸一步,采取泛互联网化的模式。
第二大趋势是行业应用的垂直整合。了解这个趋势,可以解释非常多的公司成长逻辑。真真是三十年河东,三十年河西。在这个趋势下,越靠近终端用户公司,在产业链中拥有越大的发言权。微软的股价十年横盘,IBM却受到巴菲特的青睐,两大巨头之间的恩恩怨怨、此起彼伏是这个趋势最好的注脚。
过去大家买电脑,关注的是CPU主频、内存、操作系统等,现在入手IPAD,直观感受是酷不酷。没有人问IPAD的CPU是几核的。这标志消费者的关注重点已经迁移到电脑能否满足我的个性化需求。在企业级市场也一样有相同的趋势,客户更多会问,你们能不能满足我业务的需要?不要讲你的数据库、主机又出了什么新功能。这个趋势的出现有两大原因,第一,通用的平台型软件逐渐同质化;第二,用户对自身业务关注,超过对计算能力的追求。
软件同质化其实很多人都没有意识到,前两天有人在微博上大肆贬低用友、金蝶等软件公司的商业模式和功能。其实,在大多数客户眼里,这些软件没有本质的区别。另外,我们观察到,几乎每个大型的商业软件,都有对应的开源软件,而且这些开源软件的功能和性能,也已经可以满足大量客户的需求。在我们正式的报告中列了一张开源软件和商用软件的对比表,和开源软件的统计数据。这里就不说了。需要提醒的是,Goolge、Facebook这种世界级的平台,其核心技术架构都是开源软件唱主角。开源软件的兴起和繁荣客观上也加剧了软件的同质化。在这个趋势下,拥有大量的客户,了解客户业务需求的公司,将会迎来一波大的发展机遇。
第三大趋势是数据将成为资产。最近神州数码的董事长郭为在政协提案,呼吁立法保护个人信息,部分原因就在于此。未来企业的竞争,将是拥有数据规模和活性的竞争,将是对数据解释和运用的竞争。在这个领域,将产生下一个千亿级别的大公司,幸运的是,我们发现了两个千亿级公司的胚子。围绕数据,可以演绎出六种新的商业模式。租售数据模式、租售信息模式、数字媒体模式、数据使能模式、数据空间运营模式、大数据技术提供商。最后一类是提供大数据的处理技术。对这些模式的详细描述,是第三篇大数据报告的重点内容。这里简单描述每种商业模式要点,略去上市公司的名称。
租售数据模式:简单来说,就是卖广泛收集、精心过滤、时效性强的数据。这也是数据就是资产的最经典的诠释。
租售信息模式:一般聚焦某个行业,广泛收集相关数据、深度整合萃取信息,以庞大的数据中心加上专用传播渠道,也可成一方霸主。顺便说一下,数字、数据、信息这三个词在本文中,未加区分,为了行文方便而交叉使用。但在这里,信息指的是经过加工处理,承载一定行业特征数据集合。
数字媒体模式:这个模式最性感,因为全球广告市场空间是5000亿美元。具备培育千亿级公司的土壤和成长空间。这类公司的核心资源是获得实时、海量、有效的数据,立身之本是大数据分析技术,盈利来源是精准营销。
数据使能模式:这类业务令人着迷之处在于,如果没有大量的数据,缺乏有效的数据分析技术,这些公司的业务其实难以开展。譬如阿里金融为代表的小额信贷公司。通过在线分析小微企业的交易数据、财务数据,甚至可以计算出应提供多少贷款,多长时间可以收回等关键问题。把坏账风险降到最低。
数据空间运营模式:从历史上,传统的IDC就是这种模式,互联网巨头都在提供此类服务。但近期网盘势头强劲,从大数据角度来看,各家纷纷嗅到大数据商机,开始抢占个人、企业的数据资源。海外的Dropbox,国内微盘都是此类公司的代表。这类公司的想象空间在于可以成长为数据聚合平台,盈利模式将趋于多元化。
大数据技术提供商:从数据量上来看,非结构化数据是结构化数据的5倍以上,任何一个种类的非结构化数据处理,都可以重现现有结构化数据的辉煌。语音数据处理领域、视频数据处理领域、语义识别领域、图像数据处理领域都可能出现大型的、高速成长的公司。
我们团队对于大数据的跟踪和研究,不仅仅限于推荐股票,而是在试图建立解释IT行业演进的顶层逻辑,用以解释快速发展变化的新技术,洞察信息产业发展规律。发现真正具备长期投资价值的公司。所以研究范围扩展到PE、VC关注的领域,从对这些新兴公司的观察,反过来支持我们对上市公司的判断。我们相信,更宽广的视野、更频繁的交流、更深入的思考,将对投资人更有价值。