曙光大数据处理系统 XData大数据一体机
任新勃 发表于:13年05月27日 11:30 [来稿] DOIT.com.cn
信息技术的不断发展,数据的产生和获取手段变得越来越先进,对数据的处理要求也越来越高,大规模数据密集型应用系统数据量呈现指数级上升的趋势,迎来了数据爆炸式的增长,业界称之为“大数据时代”的到来。大数据时代,信息越来越成为国家和企业发展的战略资产,大数据分析和挖掘也为长远发展提供了决策支持的基础。
XData大数据处理机是曙光公司立足于当前大数据处理的时代背景下,自主研发的通用海量数据处理平台,可广泛的应用在通信数据统计,互联网/移动互联网的日志和用户行为分析,物联网/传感器网络的数据监控和追踪分析,以及金融交易数据的离线统计和挖掘等众多领域。
产品概述
XData大数据处理机将数据存储单元和处理单元分离,通过构架高效的服务中间件,将底层采用无共享(shared-nothing)结构的数据存储节点,聚合成一个单一的数据处理系统映像,达到较高的数据读写并发度,计算并发度,以及良好的系统扩展性,可靠性和可维护性。 XData可广泛的应用在通信数据统计,互联网/移动互联网的日志和用户行为分析,物联网/传感器网络的数据监控和追踪分析,以及金融交易数据的离线统计和挖掘等众多领域。
XData向用户提供统一的类JDBC的客户端编程接口,向下管理分布在不同存储模块上的不同类型的数据,并提供简易的用户管理界面。XData系统的核心技术包括自动的服务注册和负载均衡,可扩展的数据划分和分布策略,高效的批量数据加载,通用的并行查询分析和处理引擎,结构化和非结构化数据的统一访问接口,不同类型数据之间的联合查询和检索,以及全方位的系统故障和恢复处理等多项技术。
产品特性
分级存储
XData支持分级存储,以降低系统的总体持有成本。即按照数据量和数据的访问频率,分为在线,离线和备份三个存储级别,并支持数据在各级之间根据策略进行迁移。
并行处理架构
XData采用无共享的结构,提供高速的数据写入能力。写入过程中,采用并行写入的方式,按照一定数据划分策略,将数据写入到后端数据节点。
XData将查询语句分解成为在多个数据模块并行执行的查询任务流,所有的查询处理都在数据节点上并行的执行,充分利用无共享结构的计算并行度。
XData提供任务断点执行功能,发生意外情况时,系统启动后继续执行未完成的任务。
一体化执行框架
XData提供类JDBC访问接口:XJDBC,有JDBC 使用经验的用户无需额外学习即可很方便的使用XJBDC访问接口;XData提供XJDBC/MapReduce混合执行框架,提供跨平台的兼容性。
XData还提供较XJDBC访问接口更高的性能的专用编程接口。
复杂数据类型关联分析
XData支持大表关联和大表嵌套类等复杂的查询语句的处理。XData系统通过将复杂查询解析成在多个数据节点上的并行任务流,提高复杂查询的处理性能。
XData支持用户自定义的并行查询任务流,可以支持任意复杂的结构化/非结构化数据处理语义,满足更广泛的应用需求。
高可扩展性
XData对数据进行细粒度划分,无需进行复杂规划,任意规模的扩展都能够达到数据分布均衡。
XData提供细粒度数据锁,提高数据访问并发度,减小单个查询操作的无效IO,提高整体处理效率。
图形化监控管理
XData提供基于Web的图形化的管理工具,简化了系统管理员对于大数据系统的管理和维护工作,使得管理一套含有几百个节点的XData和管理一套10个节点的XData的工作量接近。
XData大数据一体机包含两类组件:计算模块、数据模块和客户端。
计算模块:用于数据的并行加载和查询处理,对客户端提供统一的数据处理接口。
数据模块:用于提供结构化/非结构化数据一体化存储空间,内嵌高性能数据存取引擎,并行处理所有计算模块的数据访问
请求。
客户端:用于和用户应用对接,提供XJDBC/MapReduce统一访问接口和各服务专用访问接口。
规格列表
型号 | XData 大数据一体机 | |
系统规格 | 系统容量 | 16PB |
计算模块 | 1024 | |
数据模块 | 1024 | |
客户端OS | CentOS5 X86/X86_64 CentOS6 X86/X86_64 RedHat5 X86/X86_64 RedHat6 X86/X86_64 SLES11 SP1 X86/X86_64 SLES11 SP2 X86/X86_64 | |
系统功能 | 系统架构 | 非对称双集群架构,系统由计算集群和数据集群组成 |
访问接口 | 支持类JDBC统一编程接口和各服务专用编程接口,兼容MapReduce执行框架 | |
负载均衡 | 支持基于连接数、容量和性能的负载均衡 | |
数据迁移 | 支持数据控制器之间的数据迁移 | |
分级存储 | 支持同一系统内的数据分级 | |
可扩展性 | 加载模块 | 支持计算模块在线动态添加和安全移除,扩展后系统数据加载能力呈线性增长 |
数据模块 | 支持数据模块在线动态添加,扩展后系统数据查询处理能力呈线性增长 | |
硬盘 | Raid0/1/5/6 | |
可靠性 | 计算模块 | 多个计算模块以负载均衡方式运行,单个或多个计算模块故障不影响系统整体的数据加载和查询处理,客户端会自动重连切换到可用的计算模块 |
数据模块 | 数据模块以集群方式运行,支持数据的双副本和分级存储策略对数据可靠性进行保护 | |
管理 | 部署 | 支持集中式部署和配置 |
升级 | 支持在用户业务不停止的情况下在线升级,升级过程对原有数据和配置无影响 | |
状态监控 | 支持对系统总体状态进行监控,支持对各节点和服务状态进行监控 | |
性能监控 | 支持对系统总体性能、资源进行监控,以及各节点的性能、资源进行监控 | |
告警 | 支持对系统软硬件故障和系统状体阀值信息进行告警,告警方式支持以界面告警、邮件告警和短信告警等方式 |