2007年元旦之后沪市开盘的第一天,上海证券交易所技术中心办公室内,大家正密切关注着大盘成交量的急剧攀升。到了中午,半个交易日的成交容量已突破历史最高点,达到了400多万笔。全天的成交量会突破1000万笔的系统容量设置吗?是否应趁着中午一小时的休盘临时调整容量设置呢?这个亟待决策的难题摆在了上证所技术团队的面前,调整或是不调整都存在着很大的风险。
为了准确判断系统设置最高峰值会不会被突破,大家立即调出历史数据分析,将每天上下午申报成交的比例进行了测算,结果发现:下午交易笔数超出上午的比例不足5%。因此,根据以往经验再加上科学的数据分析,上证所认为交易系统能够满足当天的交易需求,并做出了不对系统容量设置进行临时调整的果断决定。最终,上证所交易系统顺利支撑下了这新年第一个交易日。"进行这样的决策,光靠经验是不够的,还需要数据该说话的时候它能够说话。"上海证券交易所总经理助理、总工程师白硕如是说。
为诸如此类决策提供数据支持的是上证所的数据仓库平台,由全球领先的数据仓库及企业分析方案提供商Teradata协助搭建。"常态情况下,全所目前有700多个这样的分析应用在稳定运行,"白硕介绍说,"同时,我们还会根据大家的需求有针对性地开发一些新的分析应用。因此,每年新增的分析应用也在100个以上。"可以说,作为上证所信息系统建设核心的数据仓库平台,在上证所的经营、监管、创新和服务等各方面均提供了重要的支持。"前段时间,我们对数据仓库的投入和信息经营的成果进行了计算。如果保持正常良好的发展,投资回报将是非常令人满意的。"上海证券交易所信息中心主任蒋建人表示。
信息化建设由来已久
作为国内成立最早、规模最大的证券交易所,上证所早在2000年世纪之交便提出了打造世界一流交易所的愿景。因此,上证所聘请了包括麦肯锡、第一波士顿、路透咨询等在内的多家全球顶尖咨询公司帮助其进行交易所整体发展战略规划。在最终确定的规划报告中,信息化发展战略规划部分明确了上证所未来总体的信息系统架构,提出要同时建设"新交易系统、新信息系统和新网站"的"三新"目标。作为新一代信息系统核心所在,数据仓库项目成为上证所未来技术发展框架中重要的组成部分。
2002年中期,上证所开始进行数据仓库项目的技术选型。据上证所信息中心副主任石晓成博士介绍:"当时我们制定了极尽详细的评价流程和标准。国际上所有的顶级数据仓库厂商都到齐了。"通过概念验证甚至开展境外调研等方式,在对各大厂商方案的完善性、技术先进性、应急处理能力、团队管理和服务态度等进行严格的综合评估后,由上证所9位总监组成的专家委员会通过匿名投票方式,最终在参与激烈角逐的Teradata、DB2、Oracle等方案中选定了Teradata数据仓库系统。
抢救数据资产 搭建信息平台
2002年10月,数据仓库一期项目正式进入实施阶段。作为上证所数据仓库系统的基石,一期项目建立了集中、统一的数据中心,完成了源数据的统一处理,保证了数据的准确性和一致性;提供诸多信息服务功能,包括方便的查询分析功能,满足了业务统计、分析的需求;预留了开放接口,保证了系统的可扩展性。同时,对所有的历史存储介质进行了翻新、对历史数据完成了清洗、对每日新增数据建立了安全可靠的自动加载机制。
在Teradata的协助下,上证所于2003年9月顺利部署完成以全所级基础数据平台为主的操作性数据存储系统(ODS),建立了完整的单一数据视图。该数据仓库系统涵盖了上证所自1990年创所以来的所有历史数据,包括各类金融产品如股票、基金、债券的成交、申报、持有等原始信息,以及新股申购、新股发行等信息和上市公司、会员、基金、债券、行情、板块、指数等各类与证券市场相关的信息。系统投入使用后,对内改善了交易所信息分析、统计报告的工作流程,增强了市场监管的力度,对外也提高了对整个证券市场的信息服务水平。
挖掘数据价值 推动业务发展
在一期工程的基础上,以应用分析系统建设和完善数据仓库管理为目标的二期多维数据存储系统(DDS)建设又在2004年正式启动,并于2005年12月顺利完成。在该阶段工作中,Teradata数据仓库实现了应用系统的建设、元数据管理、数据仓库管理、结构化数据和非结构化数据的集成、信息增值服务的提供、以及数据仓库门户和数据权限管理等新功能,帮助上证所实现了完善的企业单一视图、先进的元数据管理应用、完整的数据仓库管理体系以及有特色的结构化数据和非结构化数据综合应用。
数据仓库二期项目是上证所通过建立技术平台推动产品创新的重要举措之一。上证所希望通过数据仓库及数据挖掘平台的建设,极大地提升交易所的信息化水平,有效地提高决策支持水平、市场监管水平和服务水平,促进证券市场产品创新,并更好地服务于证券信息产品的所有相关环节。通过数据仓库二期项目的实施,上证所更好地共享了信息资源并提高了运营效率,同时还为信息增值服务和其他创新服务提供了综合性的计算、验证和实验平台。
建设灾备系统 保障市场稳定
在经过前两期的建设和使用后,上证所数据仓库系统在技术先进性和应用功能方面已达到世界一流,并已经成为服务证券市场必要的信息共享平台。但考虑到任何灾害造成数据仓库系统停止对内对外的服务,将对证券市场产生重大的影响,上证所于2007年7月启动了三期项目:国内首例企业数据仓库主从双系统(生产系统和灾备系统)的建设,以保障持续的数据分析和信息服务,从而确保证券市场的稳定发展。
对此,上证所与Teradata合作实施了新的方案,即优化现有数据平台体系架构,通过差异化存储,充分利用现有的设备,保护旧系统的投资;存放一致的、冗余的明细数据和汇总数据,无论发生何种故障,系统都保障持续的数据分析和信息服务。整个数据仓库主从双系统在一年内建设完成。在容量上,主系统容量为26TB,从系统为27TB。在处理性能上,主系统比原先的平台快57%,从系统比原来快49%。这不仅体现了SSE先进的理念,同时也充分展示了Teradata强大的专业知识与技术能力。蒋建人指出:"三期项目建成后,上证所数据仓库系统性能、运行水平得到很大提升,单一系统发生故障,全所12个部门250位用户仍可通过灾备系统访问多达700多个应用,同时也能够保证对外的数据文件输出服务。"
"通过数据仓库三期项目的实施,上证所的数据仓库上了一个新的台阶,实现了整合、扩容、差异化存储、同城灾备系统建设四个目标同时达成,"白硕表示,"我们采用双加载技术手段和数据检查机制,解决了主从数据仓库系统的数据一致性难题。在整个项目的实施过程中,两套数据仓库系统的几次主从切换均在30分钟内完成,源代码、数据内容、数据输出结果等也未产生任何变动与误差,这充分说明系统的升级快速、精准、高效,而且能边升级边支持全所业务的正常运作。因此这个项目的建设经验确实值得全球的类似企业在建立数据仓库灾备系统时借鉴。"
充分利用数据 全面提供支持
上证所的日常监管分为两部分,一方面是通过专门的监察系统实时传递的数据结合数据仓库储存的历史数据进行对比分析,当场查处违规的异常交易;另一方面,则是通过数据仓库为司法检查机关的立案和稽查工作真实再现当时交易状况的第一手历史数据。2007年的杭萧钢构内幕交易案就是一个借助数据仓库分析成功破案的典型例子。
而在产品创新方面,据白硕介绍,"比如融资融券,究竟什么条件的证券可以成为担保品?这就需要使用数据仓库进行数据筛选,帮助业务人员把满足一定条件、可以用作担保品的优质证券算出来。"基于系统存储的历史数据,数据仓库可以帮助业务人员去测算某个新产品一旦推出,风险和收益各会在什么地方。实际上,上证所在推出EPS和权证等产品时,都曾通过数据仓库平台进行过测算和验证。2006年,上证所成立了金融创新实验室,实验室的数据正是来源数据仓库系统。
在信息批露、投资者教育等信息服务方面,数据仓库的作用更是显著。上证所通过数据仓库进行数据分析,可以深入了解投资者结构,比如什么年龄段的人有什么样的交易行为,什么收入状况的人又会有什么样的交易行为等等。这样,上证所就可以有针对性地开展投资者教育,对他们进行疏导、教育和监管等等。
无论在上证所日常运营、市场监管、产品创新还是信息服务方面,数据仓库都起到了非常明显的支持和促进的作用。有了数据仓库的支持,上证所对监管和市场需求的响应周期加快已成为常态。一般来说,这些查询或需求数据仓库可以在几个小时或一天之内就能处理完毕。
Teradata大中华区总裁杨顺生指出:"上海证券交易所的数据仓库系统无论从系统规模还是从数据量上看,都在证券行业和亚太地区中首屈一指。该数据仓库项目在先进产品的集成性、技术整合的复杂性、应用功能的完整性以及业务涵盖的全面性等方面,都堪称是业界的最佳实践案例。"
据白硕透露,为了向世界一流交易所的目标不断前进,上证所的数据仓库将向实时型数据仓库推进。基于上证所EAI消息总线的建成,结合实时数据仓库技术,实现行情、交易、成交等实据的实时加载,以期更加紧密地跟踪市场的变化、提高服务效率和效能、加强市场监管力度,更好地服务市场和监管市场。
未来,在数据仓库平台强有力的支撑下,上证所将会继续领跑国内证券市场,提供面向投资者教育的信息服务,进一步加强数据仓库与业务系统间的双向数据交互,进一步将数据仓库系统向实时动态方向提升,实现实时商业智能,满足监管部门、全所业务人员和市场参与者的数据分析需求,并加快自身成为世界顶尖数据服务证交所的前进步伐。