清华大学国家工程实验室走向大数据之路 华为一路相随

从目前来看,综合流量采集与分析系统,用于采集和分析实时网络流量,需具备8条主干链路分组流量的采集和分析能力,以便为网络测量、网络管理、探索新型网络等业务系统提供网络流量原始数据,数据容量最大达540TB。这就要求业务平台必须具备足够大的存储容量、高读写带宽以及高效的大数据分析能力,才能满足“综合流量采集与分析系统”未来的业务发展需要。

而Netflow流采集与分析系统,依托CERNET大规模试验网络构建,用于采集和分析试验网核心节点的Netflow流数据,支持网络研究人员从网络全局的角度观察和分析网络行为、网络发展与演进规律,基于现有的分析平台,要求系统具备连续12个月流数据的存储能力,并支持未来持续不间断的存储容量扩充,为网络优化和新型网络体系结构研究提供网络流量采样数据。

根据以上项目需求,清华大学在采购IT基础设施时考虑如下诉求:

1.如何向大数据分析平台平滑过渡?

整体架构和功能设计应该立足于较高起点,在考虑系统性价比的同时应兼顾系统的先进性和可持续发展性,要求存储硬件平台采用国内外领先的技术和理念,确保项目在建成后的3~5年内保持足够的先进性。综合流量采集与分析系统具备演进能力,建成后可平滑过渡到大数据分析平台。

2.数据共享能力是否够“硬”?

CERNET实验网全国26个核心节点每天产生2TB Netflow流数据,网络流量峰值高达1.1GB/s,对存储系统的读写性能提出了非常高的要求。同时,采集到的数据需要共享给不同的业务系统进行研究分析,这就同时要求存储系统具备高效的数据共享能力。

3.如何让存储系统变得更加“机灵”?

清华大学运管研发平台将为下一代互联网核心网国家工程实验室提供数据服务,为科研项目提供原始数据和分析数据样本,系统的建立必须具备前瞻性,需充分考虑未来5年业务的持续发展和数据急剧增长带来的扩容问题,要求存储系统具备灵活的扩展性,且不影响现有业务系统的正常运行。

清华大学国家工程实验室大数据之路 一路有华为

为达成项目建设目标,清华大学对该项目整体方案的把控颇为严谨,在满足综合流量采集与分析系统对服务器及存储设备要求的基础上,还需充分考虑系统向大数据平台演进的方案,系统建成之后易可平滑过渡到Hadoop平台,并具备大数据分析计算能力。在对比Dell、宏杉、浪潮方案之后毅然选择华为整体解决方案。

1.走向“大数据之路” 满足客户对平台演进能力的要求

针对清华大学对IT系统的建设要求,华为推荐采用RH2288H高性能服务器集群,为综合流量采集与分析系统提供计算及存储平台,以及平滑演进到Hadoop大数据平台的能力。针对Netflow流采集与分析系统,华为推荐采用OceanStor N8500集群NAS存储系统,为该系统提供CIFS/NFS业务,实现CERNET实验网全国26个核心节点网络流数据的集中存储和共享。

此外,华为OceanStor N8500集群NAS存储系统采用多节点全Active的集群架构,多引擎存储空间全共享,全面满足清华大学对存储设备技术领先的要求。通过华为FusionInsight大数据解决方案,可将现有平台平滑过渡至大数据分析平台,满足客户对平台演进能力的要求。

2.数据流动自如、存储扩展 满足运管研发平台未来业务的扩容需求

针对清华大学对快速高效的要求,华为OceanStor N8500集群NAS存储系统凭借双引擎2GB/s的稳定读写带宽,赢得客户青睐;同时,CIFS/NFS/FTP/HTTP等多种数据共享方式的灵活选择,最大程度的方便了不同业务系统间的数据流动。

凭借scale-out的领先架构设计,OceanStor N8500最高可支持16个节点,提供高达15PB的存储容量,高于业界同类产品30%以上,同时系统的吞吐能力随着节点的增加线性增长。随着清华大学数据采集业务的增长,可在线增加NAS引擎达到横向扩展性能的目的,同时也可在线增加存储单元达到纵向扩展容量的目的,满足运管研发平台未来业务发展的扩容需求。

目前,该系统运行稳定,其大数据平台演进能力更为未来的业务发展奠定了坚实的基础。清华大学国家工程实验室走向大数据之路在华为一路相随下,将走得更远、更稳健。