不可能完成的任务?数据治理过程需要大数据

数据治理的作用便是为了保护大数据。虽然大数据通常涉及到大量非结构化信息,许多企业的IT部门发现大数据还仅仅只是最近的现象。因此,根据数据管理分析师表示,大数据的环境治理还处在其早期阶段,关于如何有效地进行大数据的管理还存在诸多广泛的方法。

“大数据是这样一个新的领域,到目前为止还没有人开发出相关的管理程序和政策。”Forrester研究公司的分析师BorisEvelson在马萨诸塞州剑桥说。“而且存在的问题比答案要多得多。”

一个根本的问题是,大数据池更多的是面向数据的勘探和发现,而非传统的商业智能报告和分析,Evelson补充说。他说,这带来了一个恶性循环:“数据不能被管理直到其被模型化,但又必须在通过数据分析之后才能被模型化。”

数据管理程序提供了一个框架,用于设置数据使用政策和实施控制,以确保信息保持准确一致和可以被访问。显然,在这个重大挑战的过程中,管理大数据需要分类、建模和数据映射,并进行数据捕获和储存,特别是针对大量非结构化特性的信息。

“为了从大数据中获得有意义的商业信息,我们需要做各种各样的准备工作,类似于数据的语义分析,然后将其渲染成概念模型或本体的语义分析。”位于新泽西州Holmdel的数据管理的顾问公司AskGet的总裁马尔科姆·奇泽姆说。

在大数据中寻找线索

困难的是,大数据治理过程中的一切是那么的新。“在谈到大数据时,存在着很大的不成熟,大部分数据管理者真的可以说是毫无头绪。”奇泽姆说。

大数据,其中也包括大量的结构性交易数据,具有特殊的功能。通常用三个词来定义:数量、种类和速度。而Forrester还在其定义中增加了变化性这一特性,而其对手咨询公司Gartner则将这一特性定义为复杂性。

此外,数据往往来自外部来源,其准确性并不总是能很容易地验证;同时,文本数据的含义和上下文不一定是连贯的。在许多情况下,它存储在Hadoop的文件系统或NoSQL数据库,而不是传统的数据仓库。对于许多企业来说,大数据涉及所有有关的人员:IT经理、程序员、数据架构师、数据建模师和数据管理专业人员。

美国马萨诸塞州斯托雅典娜IT解决方案的创始人兼顾问里克·谢尔曼说,试图管理海量大数据的最大隐患之一是失去的业务优先级的视线。

例如,被企业抓获的大部分非结构化数据来自社会媒体,通常只有一小部分信息是有价值的,根据谢尔曼介绍。“试图管理或控制一切非结构化数据,将是一个很大的错误。”他警告说,企业最终可能会浪费时间和资源在不重要的数据上面。

加利福尼亚州纽瓦克GraniteFalls咨询公司总裁DanetteMcGilvray表示,如果没有经过理性的处理,大数据对数据管理和治理团队来说只可能是在消磨时间。“我们分辨大数据是否是值得管理的唯一途径是:我们必须知道哪些业务需要这些数据。”McGilvray说。“当涉及到大数据,我们仍然必须记住这一点。”

位于美国佛罗里达州奥兰多的数据治理研究有限责任公司,是一家咨询和培训公司,其创始人兼总裁格温·托马斯建议,传入数据的质量判断应该是数据管理经理的首要任务之一。她说,积极进行数据质量检查,可以节省很多时间和减少很多麻烦。

托马斯说,新数据映射到企业相关使用分类信息参考数据的重要性经常被低估。大数据与现有参考数据的对齐是“一个巨大的细节问题”她说。“事实上,如果这样做的不对,大数据的处理结果信息可能会产生误导,不准确或不完整的。”

为了帮助确保正确的数据映射,任务应该被分配到一个高级数据架构师,而不是留给一位不太有经验的数据建模师或于IT无关的人员,托马斯表示。

奇泽姆说,数据管理经理也应优先与那些经常启动大数据装置的程序员和数据模型企业用户进行对话。不过,这样的讨论应该从Hadoop和NoSQL的技术升值、以及他们与关系数据库有何不同、已经对需要一个统一的方法来管理的理解开始。

企业应该避免让程序员和用户从筒仓驱动的角度来建立大数据系统和所需的数据模型和映射工作。这可能会耗费很多的费用,造成设施不足,无法达到预期的商业利益,同时又浪费了不必要的系统投资。