7月24日,以“芯动大数据,智领大机遇”为主题的英特尔大数据论坛在北京举行。中国联通研究院副院长黄文良先生在大会上介绍了联通应用英特尔Hadoop发行版和基于英特尔至强处理器平台的服务器应对大数据挑战的真实案例。
伴随着智能手机的普及,广大用户利用手机上网和社交越来越频繁,这由此也带来了一个新的挑战:用户想清清楚楚了解自己的上网流量究竟用在了哪里?在这种状况下,联通从去年开始部署针对移动互联网用户的上网记录。和其他运营商以省为单位不同,联通是在全国部署了一套上网记录查阅系统,用户可以通过网上营业厅查阅自己的上网记录。
而事实上,即使是简单地访问一个新浪首页,上网记录查阅系统就会产生20多条记录,这样每天产生的数据简直是天量。此前联通曾经试图用甲骨文数据库来解决该问题,但发现关系型数据库到百亿条时就无能为力了,一次查询可能几个小时都出不来结果。
“联通的海量数据用传统的方式已经很难解决。为此我们和英特尔合作引入了Hadoop技术来解决问题。”黄文良说。
目前,联通Hadoop系统部署在北京,各省的数据每5分钟生成一个文件往北京传输。采用Hadoop技术后用户上网记录检索速度上能达到秒级,用户输入中国联通任何一个城市的号码,其上网记录只需一两秒就可以检索出来。
黄文良告诉DOIT记者,联通Hadoop系统的后台是178台基于英特尔至强5600处理器的两路刀片服务器,每台服务器配备了14TB存储容量。此外,系统还有3台NameNode节点服务器、入库服务节点服务器24台、Zookeeper节点服务器7台、集群监控节点1台和Web查询应用服务节点20台。这些也都是IA架构的x86服务器。
“我们也试过用Hadoop的开源版本,但是确实在性能上不如英特尔的Hadoo发行版,无论是监控能力还是稳定性都有很大区别。最终我们全面采用了英特尔的Hadoop发行版。”黄文良介绍说。
目前,市场上除了Hadoop外还有其它的大数据解决方案,黄文良认为,联通选择时重点考虑了产品的可持续发展性。
Hadoop因为有英特尔等的支持,产业生态链软件完善,是值得信赖的方案。此外,联通还选择大公司作为应用的风向标,目前Facebook等全球知名企业都选用了Hadoop,他们的成功经验也给联通增强了信心。
黄文良透露,上网记录查询只是联通大数据平台的一部分,未来如何在大数据中掘“金”,联通已经有了一整套的规划。目前,联通大数据解决方案的技术原型已经完成,而到今年10月,整个系统会全部实施完成,届时联通将会给客户和广大用户提供更多的大数据服务。