“寻找中国最具智慧行业案例”系列报道(之一):海澜大数据应用,告诉您Hadoop“卡“在哪里

“海澜之家,男人的衣柜“,这是我们对海澜之家的印象;海澜之家不仅有男装,也有海澜投资、置地、文旅等众多业务。

与很多大型企业一样,海澜之家购买了很多设备,如SAN、NAS、对象存储;用来存储结构化数据、非结构化数据、半结构化数据;采用Oracle数据库、ERP、SAP HANA等软件解决方案,支持了很多业务应用。

无论这些系统,还是存储平台,海澜集团沉淀积累了很多数据。

大数据时代,基于数据创新业务应用,这是海澜集团近期的目标。

知彼,要靠 “爬虫”

很多人知道数据业务创新,但是从业务角度出发,往往找不到方向

以上是AWS Werner Vogels博士给出的一些应用场景。其中,个性化推荐,以及欺诈侦测是国内谈论最多的,其他应用国内见到的案例不多。

海澜集团要做什么呢?

对于海澜之家来说,在数据使用上,进行了很多探索和尝试,包括ERP和SAP HANA,其数据大部分属于结构化和半结构化数据。

海澜之家所欠缺的是非结构化数据管理及挖掘技术,来自互联网用户评价数据以及竞品分析数据和企业内部数据难以及时融合与分析挖掘,从而也影响了企业决策及时性和正确性。

加强互联网非结构化数据获取和分析就成为了时下的当务之急。

这里涉及两个问题,一个是数据的获取;还有一个是数据处理和分析。数据获取主要靠“爬虫”,如今,很多电商平台意识到数据是核心资产,纷纷制定了各种反爬虫的措施,因此 “爬虫需要一定经验和技术能力。

“爬虫”来的数据,还需要分门别类处理、存储和分析,从中获取自己所需的结果和信息。在此,很多企业主要依靠Hadoop大数据平台,但是鉴于Hadoop平台的复杂性,很多企业被绊倒在“建模”的过程中,与此同时,随着数据的积累,Hadoop的效率越来越低,从“数据湖”演变为了数据的沼泽。

多增加一个Pentaho

与传统企业方法相比,海澜之家最大的不同是在“数据准备和加载”以及“数据查询分发”阶段增加一个Pentaho的大数据平台工具。

增加这样一个平台工具有什么意义吗?他与数据仓库、Hadoop的关系是什么呢?

简单说,有个Pentaho之后,可以实现更好的数据管理。在Pentaho的管理和调度下,更好发挥Hadoop就近存储/就近处理的特点,让数据贴近计算;暂时用不到的数据,被保存在HCP等对象存储平台。

与此同时,Pentaho提供了数据分析和展示工具,帮助使用者更好的理解数据结果。

作为平台,Pentaho建立在开源平台的基础上,与tableau、Qlink、Pathon等平台进行更好的对接。

Pentaho帮助用户实现了数据组织加载的灵活性,以及数据分析、展现的直观性,通过与Hadoop、数据仓库以及其他分析工具平台的对接,帮助用户释放数据的价值。

用户可以继续使用Hadoop,Pentaho可与之对接,当然用户也可以不使用Hadoop,Pentaho也可以胜任。

Pentaho此前与HDS(日立数据系统)并购,成为转型后的Hitachi Vantara公司的重要组成部分进入中国市场。

与日立存储的密切合作,也是促成Pentaho数据分析应用的重要原因。

据了解,数据加载、分析、呈现的过程,Pentaho全部实现了图像化,无需编程,任意拖拽,业务人员可以自行组织、查找、分析希望了解的信息。

也是因为如此,海澜之家果断选择了Pentaho

小结

从应用场景看,海澜之家大数据应用还只是帮助企业决策,从知己不知彼,到知己知彼,带来的进步和价值显而易见。

不仅仅如此,良好数据调度平台,自动化、图形化分析展现,从企业战略决策,到基于数据的业务创新,也仅仅是一窗之隔,窗户纸很容易捅破。既然春天已经来了,花开满园的景象还会远吗?

海澜之家的未来值得期待!

欢迎关注:“寻找中国最具智慧行业案例”系列报道(参见https://www.doit.com.cn/p/325189.html:)