对于互联网用来说,大数据的理想很丰满,现实也非常丰满。开源技术让互联网企业如鱼得水,他们的业务应用完全构建在数据应用基础上。可以说, Google搜索引擎业务是迄今为止最为成功的Hadoop架构分布式数据的应用,搜索引擎爬虫大数据,天然就具备分布式处理的特征,从数据Map到服务器集群,到Redus呈现处理结果,搜索引擎大数据应用技术浑然天成。
橘生淮南则为橘,生于淮北则为枳,同样的大数据技术对于传统的行业/企业用户而言,尽管理想依然丰满,但现实就非常骨感了。对此,联想集团副总裁、大数据事业部总经理田日辉一语道出了其中的原因:“开源技术非常丰富,演进发展非常快。但是如果一个企业自身开发能力不够的话,类似大数据这样的应用,其实很难达到很好的效果的。”
那么对于传统行业/企业而言,大数据的梦想如何才能够照进现实呢?
联想制造业实践和启示
作为IT产品服务供应商,联想集团也属于制造业企业,也存在着大数据业务创新的问题。联想自己做的怎么样呢?
在2011年推出了乐Phone智能手机之后,其实联想就面临着社交数据的处理和应用的问题。在智能手机配套的应用商店App中有很多应用,其中既有联想开发的,也有第三方厂商提供的,这些App是如何应用的?哪些应用的哪些功能消费者比较青睐,对于智能手机设计而言,这些信息非常重要,也是系统迭代非常重要的信息。
联想大数据研发中心总监张成松表示:从智能手机业务开始,大数据应用逐渐走入联想业务价值链的整个环节。
“我们构建了两个闭环”。张成松说。
一个是基于大数据业务价值链的闭环,也就是从产品设计、生产、销售、到市场的推广过程。以联想茄子快传为例,最早就是在大数据平台开发出来的,如今,茄子快传已经独立运营,在全球拥有10亿用户。我们会把产线生产数据、供应链数据在大数据平台上进行统一分析;会把市场活动数据、经销商数据以及京东、天猫等电商数据进行整合,对渠道加强管理,对销量进行科学预测。
另一个是围绕用户经营的闭环。联想的用户都有一个ID,通过这个ID,联想把用户在不同的设备上,如手机、PC等设备的各种应用行为进行追踪,当然这是在隐私保护的前提下,用户参与体验改进计划,联想为用户提供更好服务体验。
“如今,联想每天分析150亿条数据,日新增数据为30TB左右,存储总容量达到了12PB。” 田日辉介绍说。
2016年年初,基于联想大数据的使用经验,有关各面向杨元庆做过一次深度汇报,得到了杨元庆的肯定。杨元庆觉得这些经验非常好,指出:这些能力不能单单服务联想,而是要把这种能力对外释放,进而成为联想新的业务重点。
也就是在这样的背景下,经过精心策划、筹备,联想企业级大数据分析平台(Lenovo Enterprise Analytics Platform, LEAP)宣告诞生。
联想LEAP的“七武器”
“围绕联想LEAP平台,围绕大数据平台的核心计算能力、存储能力,以及数据采集能力,联想构建了七种服务,称为‘分析七武器’。” 联想大数据高级经理张建伟说。
第一是规划和设计的服务。在联想看来,很多企业在大数据应用的过程中还是走了很多弯路,分析其中原因在于一开始的顶层设计并不清晰,很多用户从底层技术着手应用和变革。
“我们发现很多客户知道需要大数据,也有很多数据可用,但缺少一个统一规划,以至于走了很多的弯路。对此,联想结合自身实践经验,为用户提供了大数据专业咨询服务,帮助用户进行顶层设计。” 张建伟说。
第二,基础平台搭建服务。任何顶层设计实现,离不开平台和基础,很多行业客户,他们清楚知道用哪些数据、这些数据应该怎么使用,但是缺少基础承载平台,以Hadoop平台为例,很多用户花费大量时间和精力学习、摸索,以至于耽误了很多时间。很多ISV,并不愿花费精力在Hadoop等大数据基础平台的研究,而是更乐于侧重行业业务需求,深入挖掘,支持业务创新。以LEAP为核心,这是联想较为擅长的领域,也是产品技术和应用经验的结晶。目前,最新的联想LEAP 3.2.0版本平台,总计提供了4大核心产品:大数据计算平台(LEAP-HD)、数据智能平台(LEAP-AI)、数据资产管理平台(LEAP-DataGov)和数据集成交互套件(LEAP-DataHub)。这些技术和平台为数据业务创新和管理提供了强有力的工具。
第三,数据质量、数据管理服务。在顶层设计和基础平台之外,数据质量和数据管理同等重要。张建伟指出:如今市场上并不缺乏大数据一体机这样的支撑平台,但用户在应用过程中发现:当数据集成进来之后,这些海量、多元、异构数据,在数据质量、标准和安全管理上都存在很多问题。
“数据或者数据湖治理,不单是工具就可以解决的,更多还是要通过咨询、服务来梳理体系和流程,如此才更好掌控数据资产。这也是联想大数据应用的‘七武器’之一。” 张建伟说。
第四,定制化服务。针对应用层面定制技术开发,这是大数据应用没有办法回避的话题,即使算法相同,但针对不同业务场景还是需要进行优化和调整。很多时候,技术能力上的欠缺束缚了用户的手脚,同时也禁锢了用户的思维和视野。提供定制化技术支持和服务,这也是联想的服务能力的主要内容。
第五,集成开发。现在很多客户,包括一些大客户更喜欢交钥匙工程,这就涉及到整体的系统集成,联想拥有硬件、软件的基础,同时又拥有实施团队,有能力向客户提供完整集成方案,来实现最终的目标。
第六,统一的运维服务。大数据业务创新一个动态成长、循环往复的过程,如此就要求企业具备良好的系统运维能力。联想和企业一起,以统一运维的形式,不断为企业提供相关的技术更新和服务。
第七,数据变现服务。从产品服务、增值服务,再到运营服务,其核心目的只有一个,就是解决大数据应用、发展中问题,促进业务创新的发展和进步,所谓数据变现,这既是目标,也是前行的动力。
万事俱备,不欠东风
从技术上说,联想LEAP对下可以对接ERP、CRM、SCM、网络爬虫数据、流式数据以及设备日志等机器大数据,针对数据的不同特点,按照分布式计算的框架提供NoSQL、内存计算、流计算、图计算等数据分析,在统一调度资源管理的同时,提供一站式运维服务。与此同时,结合人工智能、深度学习、机器学习等先进技术平台,联想LEAP可以为客户洞察、数字化营销、智能供应链、产品管理等业务创新提供大数据分析能力,为企业决策提供科学依据。(参见:没有“爬虫”的企业大数据 不是大数据)
联想大数据首席数据科学家陈嘉透露:联想LEAP平台目前包含了28个核心模块,可以满足数据治理、数据整合、存储、计算等各种需求,其中有20个模块是基于开源技术优化,8个模块联想自主开发的,能够帮助用户用好联想LEAP大数据平台。
“我们对这个平台开源技术优化是做得最好的,基于我们很多年的经验。我们提供很多工具,如智能交通分析工具、多维分析查询工具、图形化大数据流程P处理、业务流程管理、性能优化工具等。可以说,用户不需要了解开源技术,用这些工具就能完成数据集成、数据治理和构建模型的大部分的工作,这是联想LEAP大数据平台最大的优势。” 陈嘉说。
很多企业、很多人对于大数据的理解还是基于传统关系型数据库,基于各种表格;针对海量数据会用到大数据平台,然后进行各种查询、搜索的应用。但是不得不说,现实生活中很多时候大数据的关系并不那么简单的,而是很复杂的,如A和B、B和C、C和D互相之间都会有联系,这就不适合关系型数据模型,这是一种网状结构,也就是图谱的概念。如果用户还没有构建好知识模型,就要从大量非结构化的数据中提取知识,建立事物与事物之间的联系,构建知识图谱,如此才能够交付后续的搜索、发现和关系挖掘等应用。为产品质量优化、销售预测、备货、供应链管理、客户服务等业务应用提供基于大数据技术的支持,其中也会涉及到很多人工智能(AI)技术的应用。
“我们希望通过这种模式,能够提升中国企业用户的大数据应用水平。为此,我们为用户提供了从咨询、到平台、到运维服务的一条龙服务,将难题交给联想,交给联想LEAP,我们希望这是用户最终的选择。” 田日辉说。
需要说明的是,联想LEAP服务并不是孤军奋战,”Open+联盟”生态圈能够承载传统行业用户的多样性需求。以联想与哈工大战略合作为例,双方将在公安、智能制造、医疗、教育、金融、智慧城市、农业等大数据领域展开深入合作,提供一站式高效的大数据解决方案,以大数据推动各产业创新和发展。
“目前,我们正在合作黑龙江省公安厅大数据项目,相信通过这次的合作,双方定能取长补短,优势互补,把大数据的前沿技术与实践成果推广到更多的产业与项目中去,推动大数据在更多的行业开花结果。” 田日辉说。
小结
对于企业来说,大数据是这个时代必须要掌握的生存技能,如果企业本身没有足够的技能提供支持,借助外力,站在巨人的肩膀上几乎将是唯一的选择。联想LEAP的意义不仅是一个平台,联想大数据应用实践的结晶,它更是一个和联想实力快速对接的捷径。从这个意义上说,这就是一个双赢的选择!