如何处理非结构化数据

根据IT调研公司IDC的预测,到2015年,全球的数字数据量大约会达到7.9 zettabytes。我认为这其中最大的一部分是来自于社交媒体的移动平台产生的数据和海量的电子邮件。据InformationWeek报道,英特尔估计到2015年,全球至少有25亿人会频繁使用互联网,产生的数据量必将越来越多,我们需要更多的资源用于存储和处理这些数据信息。这一观点引发了数据分析师纷纷开始研究非结构化数据的潜力;例如,谷歌的阿维纳什考希克就公开声称“非结构化数据的高潮将至。”

如何构建非结构化数据

我们中的许多人真的是才刚刚开始与非结构化数据打交道,还寻找着手的方式,并试图找出如何最好地处理这一切。其实,我们只要问自己,尽管以前的许多添加结构化数据的尝试都是令人失望的,但如果我们甚至懒得去尝试使用它,那我们失败的次数会更多。毕竟,仅仅靠处理和自动结构化流程数据还是不够的!

在此,我希望与您分享一些您可以用来处理非结构化数据的方法:

在云计算在分发数据,只储存更多的非结构化数据,希望您能利用先进的大数据分析与预测分析平台看到有用的数据模式。

开发更强大的分析引擎以便分析数据,其中大部分将在云中实时进行。

将暗数据/暗社交和紫外数据转化为可用的结构化数据信息,您能从中获得见解,正如我曾经提及的分裂分析角度。

将尽可能多的数据合并为大型数据文件,奥巴马团队在2012年的选举在所做的准备工作就是一个很好合并的例子,合并几个不同的数据库,可以使得数据分析和预测见解更容易。

清洁数据:这是假设非结构化数据是脏的,或者说是对目前的分析状态没有有用的。您可以清除重复的信息,确保实体命名的一致性,清空稀疏的数据集。考虑检查Saleforce Data.com的关键社交数据,这关系到客户数据记录到社交媒体帐户和网上在线内容的帐户。Saleforce Data.com上清理数据的成本可能会被分摊,而企业清理数据也可以在Salesforce上共享整个Data.com的仓库云。

使用非结构化数据不会很容易,但是这一工作将是必要的。您关于使用非结构化数据有什么建议?欢迎与我们分享。