在大数据时代,数据成为重要的资源,在数据采集、清理、存储、分析等各个环节,都蕴藏着大量的机遇。深圳的腾讯、华傲数据等公司被认为已在大数据相关领域占位。
“尽管当前国内在对于数据重要性的认识、实践应用、基础研究上,相比欧美发达国家还相对滞后,但人们对于数据的理解和应用变得越发清晰和深入。深圳作为全国性的金融中心及高新技术企业较为集中的城市,很多企业对于大数据的应用水平均走在国内的前列,包括腾讯、平安集团、中信银行和招商银行等知名企业,其大数据的应用实践已经为其企业的业务发展带来了显著成效。”
深圳华策略科技有限公司创办人张新昌30日在接受南方日报采访时称,尽管一些大型公司拥有庞大的数据、资本等资源,但也不可能占有整个市场,因此中小企业尤其是有“数据挖掘基因”的中小企业能找到更好的细分市场,会比大企业显得更加矫健、灵活。
大数据“孤岛困境”
急需打破
腾讯公司社交网络事业群即通产品部副总经理冼业成上周公布的两张图引起了广泛关注,一张是我国著名人口地理学家胡焕庸在1935年提出的划分我国人口密度的对比线“黑河—腾冲线”,也叫胡焕庸线;另一张则是今年4月QQ同时在线用户数突破2亿用户实时地理位置分布的“星云图”。两张图呈现出惊人的相似,让人不由感慨科学的力量。
在7月25日举办的2014年腾讯互联网与社会研究院高峰论坛上,腾讯首次对外公开解读QQ大数据,展示出一个基于8亿活跃用户的大数据平台雏形。8亿活跃用户每天产生的QQ消息达到155亿条,发表的空间说说超过6500万条。值得注意的是,这些数据更接近标准的社会学“人口”概念,QQ用户拥有完整的年龄、性别、星座等资料信息,有同学、同事等关系链,而且数据类型丰富,包罗了游戏、音乐、购物等多个方面。
冼业成当天谈到,QQ大数据可以满足政府、企业、个人不同维度的数据需求。比如2013年春节,腾讯进行了用户春运迁徒大数据挖掘,根据QQ登录地点的变化,发现北上广深在春节后涌入的流动人口情况,了解到中国人春节期间出国喜欢选择美国、法国等,最喜欢春节外出的人在江苏、广东、北京等,这些发现都有助于交通运输等方面提供更多的服务。
丰富的数据源是大数据的前提条件,但大多数企业面临着“孤岛危机”,只能获得公司自身的数据而无法获取外部数据。即便是对坐拥大量高价值数据的腾讯而言,如何在大数据中找到更大的商业价值,则仍在探路当中。
“处在信息的孤岛上,每一家公司可能都有自己的云,而要把这些处在不同孤岛上的数据进行整合,去创建一个更加综合的情景来从中受益,这里还有很多的挑战。”腾讯社交网络事业群总裁、腾讯高级执行副总裁汤道生25日也表示,他在思考是否应当建立一个数据交换的平台,在保护用户隐私的前提下,使得数据实现正常化,从而创造经济上的价值,“但目前建立这样的信息交流体系,对商业实体来说仍然存在很大挑战,大数据现在已经成为其资产的一部分,分享数据可能意味着会丧失其竞争优势”。
除了企业之外,政府的数据也被呼吁开放。中国工程院院士、中国互联网协会理事长邬贺铨曾在深圳表示,大数据既为政府决策提供了更多有价值的参考,也需要政府对公共数据进行整合和开放。
海云大数据CEO冯一村认为,大数据的价值是用于预测而不是总结,信息孤岛的事情还没解决,可能还谈不上用一些很酷的分析能力得到未来的价值,但是这天一定会到来,人们需要大数据的这种“感知”能力。
转化为市场价值
是大数据核心
数据能够转化为市场价值,这是大数据服务的核心魅力。
张新昌早在上世纪90年代就已进入统计分析行业,曾在全球领先的统计分析公司担任首席顾问,也曾在澳大利亚、香港、泰国等国家和地区的银行等机构从事数据挖掘工作,在数据挖掘和分析行业拥有20年经验。2006年,张新昌来到深圳创立了自己的数据挖掘和分析公司。
“大数据这几年在国内的发展用‘迅猛’来形容一点也不为过。华策略不是跟风地去做大数据,事实上我们4年前就已经开始了。只是这两年大数据的风潮才吹起来,而且感觉还吹得有点过头了。”张新昌表示,由于大环境的影响,企业对于数据重要性以及数据挖掘的认识也是经历了一个从无到有、从比较模糊到逐渐清晰的过程。
不过,凭借着强势的“数据挖掘基因”,华策略为金融、电信和零售等行业提供了一系列数据挖掘解决方案,如为某著名证券公司实施分析型客户关系管理项目,前期帮助客户做积累数据的顾问及规划,搭建数据挖掘平台;中期做数据应用的方案,完善客户群的开拓战略,评估客户资产,梳理精准营销模型以及运作流程,挽留价值客户等;后期做数据的维护,通过提供这样的整体解决方案,大大增强了该证券公司的获取高价值客户的能力,产品营销成功率也平均取得了15倍以上的提升,项目在客户集团内部获得“技术创新奖”。
如何评价一个数据挖掘公司的水平?“我认为唯一的指标是能否帮助到客户提高效益、节省成本、增加利润。”张新昌称,现在从事数据挖掘的服务性公司,除了必备传统的数据挖掘综合能力外,也应该要具备自身生产数据的能力,两者相辅相成、不可或缺,而这种生产数据的能力将成为大数据时代摆脱竞争对手真正的竞争优势来源。
“腾讯的主要业务在于网络社交,阿里巴巴的主要业务在于电子商务。腾讯的大数据绕不开网络社交进行大数据的应用,从而实现庞大用户群带来的商业利益,阿里巴巴的大数据也是绕不开电子商务进行大数据应用来实现其利润。因此并不是说腾讯、阿里巴巴等拥有庞大的数据资源,他们就能做完整个数据挖掘市场。”
张新昌认为,由于这些大公司已经有了一个稳定的“基因序列”,因此即使有资源上的优势也不能占有整个市场,中小企业尤其是有“数据挖掘基因”的中小企业依然有着不可替代的重要性,兼顾技术与高度管理思维,在大数据以及数据挖掘上能找到更好的细分市场,在提供优质的差异化服务上,比大企业显得更加矫健、灵活。
垂直领域数据
挖掘前景看好
由深港产学研基地和深圳市北科瑞讯信息技术有限公司共同研发完成的“互联网高端商情挖掘及服务平台”项目,近日出现在深圳市科创委发布的《2013年度深圳市科学技术奖拟奖名单》中,该项目将获得2013年度深圳市科学技术奖科技进步奖(社会公益类)唯一的一等奖。
“这个平台借助智能爬虫技术和自然语言处理技术,不仅支持用户方便地浏览商情信息,更能将隐藏在海量数据中的重要商情提供给用户,还能为用户提供预警的功能。这是除了提高工作效率之外,传统信息搜集难以企及的另一个优势。”该项目负责人、深港产学研基地深圳语音搜索及应用工程实验室主任王昕告诉记者,她的团队研发出的具有自主知识产权的“智能网络爬虫”技术,可以在15分钟内采集万余个重点媒体、论坛、博客、微博(19.56, -0.85, -4.16%)等网站中的企业相关信息,并对用户定制的监控关键词所关联的舆情信息及时报警,未来或将还能提供预测机制,以帮助决策者及时调整策略、减少风险。
据介绍,“互联网高端商情挖掘及服务平台”是国内外首个面向证券领域的高端商情服务系统,集成了自然语言理解技术和文本挖掘技术,实现了高端商情的自动发现。王昕称,数据挖掘是比一般的信息检索复杂得多的技术,在机器学习算法中融合了语义理解,通过与关键字的强相关和弱相关等关系,保证任何与关键字相关的信息都不会被忽略或遗漏,比如在对企业高管的信息挖掘中,就会避开同名同姓的不相关人士,同时收集到与高管关系密切人士如合作伙伴的信息。
借助互联网高端商情挖掘及服务平台,王昕团队建设的新股风向标网站(www.ipo007.com)是我国首个面向拟上市企业的商情挖掘服务网站,移动APP应用“新股风向标”不久前已在安卓市场上线,这是国内首个面向拟上市企业的商情聚合应用,覆盖了近900家拟上市企业,可以实现对拟上市企业从初审到上市这一敏感时期全天24小时、覆盖多种信息来源的舆情监控。
王昕表示,在国外专注做爬虫技术的小企业可以活得很好,但在国内纯粹做技术的小企业生存空间很小,技术与应用相结合才有发展空间。
“BAT并不专门做数据挖掘,中国还没有特别领先的数据挖掘公司商业模式可供我们参考。路透和彭博的模式很不错,从公开信息中挖掘到它们背后有价值的信息提供给需要的客户,我们希望在中文领域也能做那么好。”王昕说,数据挖掘的市场非常大,前景光明,自己和团队将坚持做垂直领域,目前他们已经在商情、人才、媒体领域做出了成果,接下来他们将会在电子商务等领域进行开发。与此同时,团队在如何高效满足不同行业、不同客户的需求、技术之外的人才如何架构等方面面临挑战,还需要不断探索。