美国退伍军人事务部应对大数据挑战的七种方式

ZDNet存储频道 发表于:13年07月24日 14:32 [转载] DOIT.com.cn

  • 分享:
[导读]弗吉尼亚州数据管理与分析事务助理部长兼分析师Dat Tran,在本周的麻省理工学院第七届年度信息质量研讨会上担任主讲嘉宾。VA是美国国内第二大联邦机构,其需要打理的数据量超过11PB。然而根据Tran称,问题在于数据的质量实在是参差不齐。

大数据一定要让人大伤脑筋?

美国退伍军人事务部(简称VA)在大数据方面遇上了大难题。

作为弗吉尼亚州数据管理与分析事务助理部长兼分析师,Dat Tran在本周于美国马萨诸塞州坎布里奇市的麻省理工学院第七届年度信息质量研讨会上担任主讲嘉宾。VA是美国国内第二大联邦机构,其需要打理的数据量超过11PB。然而根据Tran的表述,问题在于数据的质量实在是参差不齐。重复数据项大量存在,不同系统之间缺乏互操作性,而且没有“权威人士”负责打理客户记录。

不过Tran和他的技术团队近来正着手对整个VA机构的大规模数据质量进行调整,希望借此改变当前的被动状况。这里我们一同来看看Tran在实践工作中的经验教训。

美国退伍军人事务部应对大数据挑战的七种方式

1.对数据进行细致观察

他们认为解决问题的第一步在于正确识别当前问题。Tran在处理VA事务时也确实遵循了这一理念。

在主题演讲中,他首先表述了VA数据生态系统是如何孤立且凌乱。除了VA数据本身的庞大规模——共包含980万条医疗登记记录、206万条家庭贷款记录以及4900万条退役年金主文件记录——容纳数据的各系统之间往往也严重脱节、根本无法彼此交互。最重要的是,数据捕捉与存储各自采取不同方式,这不仅引发大量潜在错误、还迫使工作人员不得不以手动方式加以处理。

“我们缺乏一套全局视角,用以观察客户(也就是退伍军人)、军人家庭成员以及现役人员如何使用VA提供的福利或服务,”Tran总结道。

美国退伍军人事务部应对大数据挑战的七种方式

2.将数据映射至业务流程

Tran指出,识别重复数据条目的最佳方式在于后退一步,将数据的捕捉与存储机制与各业务流程线加以映射。

“每当客户来到服务台前,我们首先要问自己的是‘我们需要收集该客户的哪些信息?这些信息应被保存在哪种系统当中?又该将其提交给哪种处理系统?’”

Tran表示,机构在推动数据质量项目时可能犯下的最大错误就是纯粹从“数据及系统的角度”审视数据。相反,管理者应该从更为宏观的视角进行观察,识别不同数据在日常工作中会被哪些业务流程所使用。他认为,这样技术人员才能准确把握整个机构的数据流,并更好地找出哪部分流程最容易发生错误或出现重复条目。

美国退伍军人事务部应对大数据挑战的七种方式

3.不要把数据与信息混淆起来

Tran指出,他们在VA数据质量项目中获得的最宝贵经验之一在于,数据与信息二者并不是一回事、定义也不尽相同。数据只有在准确并获得及时更新的情况下才能与实际信息相符。如果二者不相符,那么这部分数据根本没有保存的价值。

Tran举例称,VA保存有“成千上万”条社保号码,并从小到大进行排序。然而事实证明这些数字并无意义,社会保障管理局称他们从未以这种方式对参保人加以排列。

“仅在系统中承载数据还远远不够,”Tran解释称。“大家需要确认这些数据是否实际有效。”

美国退伍军人事务部应对大数据挑战的七种方式

4. 采用管理者易于接受的表达方式

Tran强调称,数据质量并不仅仅属于IT难题。业务部门同样应该为其划拨资源,IT则负责将高质量数据中的价值传递给管理者及决策者。

不过一旦采用这样的处理方式,请大家千万不要在沟通过程中涉及太多技术因素。系统或者架构层面的数据质量问题应该是技术人员内部讨论的对象,而面向管理者时,我们必须将数据质量简化为业务事务而非技术事务。

“我知道很多同行喜欢讨论架构方面的话题,”Tran表示。“但通过多年工作实践,我发现一旦脱离表层、开始转向架构,业务部门的同事们就会抓狂甚至当场爆发。”

美国退伍军人事务部应对大数据挑战的七种方式

5.任命一位首席数据官

要想确保管理者真正理解高质量数据反应出的价值,最好的办法是在IT与业务部门之间设立一个全新角色,充当二者的沟通桥梁。根据Tran的理解,这个角色就是首席数据官(简称CDO),一位精于技术同时又能与机构高层顺畅交流的多面手。

“大家必须设立这样一个职位,”Tran建议道。“就我个人看来,CDO有点像是身兼技术与业务两种职责的通才。我认为一名合格的首席数据官必须深刻理解业务部门的需求,而不能仅仅属于技术人员或者数据分析师。总之,掌握数据的实际使用过程非常关键。”

美国退伍军人事务部应对大数据挑战的七种方式

6.别把数据管治当成“项目”

在与高层管理者谈论数据管治或者质量倡议问题时,请避免使用“项目”这类术语,Tran提醒道。对于非技术人员,我们最好不要为其划分明确起点与终点。数据管治应被看作一套常备机制,一种机构内所遵从的处理措施。

“大家不要把数据管治描述为项目级别的管理工作,因为所谓项目必然拥有起点与终点。如果大家希望把数据质量或者信息质量作为文化推广开来,那么相关努力应当始终持续,”Tran进一步解释称。“因此不要套用项目的概念,因为人们听到这样的字眼就会误以为这项工作拥有明确的终点,达到预定目标事情就结束了。”

美国退伍军人事务部应对大数据挑战的七种方式

7.让商务智能与创新携手

在面对商务智能工作时,Tran提出了两点建议:保持流程简洁,不要被条条框框束缚了思维。

他认为,一旦商务智能措施太过复杂、涉及大规模数据集或者尝试同时解答大量问题,那么执行过程往往会错误百出。相反,Tran建议我们每次只回答一个问题。

“大家希望回答哪个政策问题?大家打算解决哪项难题?在商务智能领域,这才是我们最需要提出的问题,”Tran解释道。

他同时补充称,不要在商务智能与创意的结合方面畏首畏尾,而且尽量别把自己束缚在单一商务智能或者分析工具身上。尽管这样的结论听起来有些出乎意料,但Tran提醒称“没有哪种商务智能解决方案足以搞定全部问题。”

[责任编辑:王雪杨]
近日,DOIT《云服务商生存法则》的第三期节目,小编采访到了微软中国Windows Azure事业部总经理严治庆先生。专题已上线,欢迎网友们点击收看。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.