大数据:头号障碍就是低劣的数据质量

大数据时代,主要的分析障碍仍然可以概括为一个词:数据质量。这个问题也并不是什么惊人的发现了。在2010年英国商业应用软件研究中心(简称 BARC)发起过一次2000人以上的调查,在该调查中发现BI项目的头号障碍就是低劣的数据质量。2009年Gartner研究公司针对140家公司也做过一次调查,其中22%的公司估计他们每年在坏数据上的损失能达到两千万美元。

Michael Click是美国亚特兰大太阳信托银行公司(SunTrust Banks)数据库营销分析师,他说:“在大型组织中,你有从各条业务线收集到的不同数据。当试图把所有数据集中起来做全面分析时,我发现匹配数据是相当有挑战的事。”

Click强烈要求数据集中,这样可以帮助消除数据孤岛,他的同事Adam Lewis也同意他的观点。他说:“你可以得到唯一的真相。这样你就不必花时间解释为什么一组数据可能与另一组数据有细微差别了。”

Lewis说,事实上,如果来自不同团队的数据与开始交流时确定的不一致,讨论可能就该结束了。

Click说,“每一个细小的差异都可以令人失去信心。我们是要用数据说话,而不是要讲故事。”

不是只有Click和Lewis把数据质量问题放在了问题列表的首位,其他人也在关注。

Paulo Cost是Cisco系统公司高级分析总监,他说:“我们一直在遇到的一个问题就是数据质量问题,你一定知道俗话说‘进来是垃圾,出去也一定是垃圾。’”

例如,Cisco的B2B电子商务市场使用Dun & Bradstreet的商业数据。Costa说,当这些数据即将改造时,我们仍然需要做一些工作:“数据需要值得整理,而对应的外部和内部源可能会有问题。”

问题是存在的,而且很耗时。Costa估计分析师80%的时间都花在了单独数据准备上了。在组织继续面对数据质量问题的同时,最著名的供应商产品发布都集中在不连贯的、更大的大数据困扰中。

在早些时候,微软公司宣布与Hortonwork公司建立了新的合作伙伴关系,后者致力于Hadoop开发。在十月份,Oracle公司发布了其新版NoSQL数据库企业版,它是运行于Hadoop之上的大数据软件之一。

最新的发布出现在SAS公司2011年度分析系列会议上,SAS放弃了Hadoop路线,计划发布“高性能分析”的新平台。该应用与 Teradata公司和EMC公司Greenplum合作之后,提供了数据库分析和内存分析的结合,可以为大数据负荷提供更高效、更快的计算能力。

当然,目前并不是所有企业都把数据质量或者甚至是大数据看作严重问题来关注。一位不愿透露姓名的与会者透露了他所在公司的策略,他认为坏数据确实是问题,而且最终要被解决。但更紧迫的问题是为在经济形势扭转时的变革做准备。

他说:“我们如何在风险不再是一个关键问题时保留我们的风险分析团队是一个大问题。”作为总部设于美国中西部联邦储备银行团队的一员(金融崩溃之后增招过人员),他说,经济最终一定会反弹,那就意味着金融体系会将他和其他分先分析师的重要角色降级。