最近,大数据已成为了企业搜索和知识管理行业一连串收购活动的中心。而其中最为突出的例子便是甲骨文收购Endeca和IBM收购vivisimo。
虽然这些公司以不以大多数人在历史上曾经处理大数据的方式处理大数据,但他们增加了大数据的价值和意义。那么,这些收购行为的价值在哪里,为什么企业搜索技术被越来越多的关联大数据的世界了呢?
结构化数据是不同的
当前爆发的对于大数据的兴趣是由包含对于非结构化数据的分析引起的。根据众多分析师所达成的共识,80%的数据属于“非结构化”的类别,这完全不同于“结构化”数据。
电脑产生几乎所有结构化数据,使其数据非常一致,是完全格式化的。任何错误被编程会很容易地发现并解决。
然而,非结构化的内容主要是由人类创造的:人工创造过程是不一致的、感性的、粗心的、自以为是的、工作懒惰的、工作劳累过度的,而且人类所创造的数据都是独一无二的。欣赏这种数据来源的差异是我们试图分析生产可操作的洞察力和业务优势的第一步。
关于洞察力
从大型数据集所派生出深刻见解不是一个新想法。大型的B2C公司,如食品零售商已经做了多年。他们已充分测量并总结出了在商店内不同的位置放豆角罐头和不同高度的货架放置麦片会产生何种销售效果。
在线零售商使用点击流数据的交叉销售更有效,并同时进行定制电子邮件营销。这便是亚马逊商业模式获得高度成功的一个关键要素,同时在您购买《犯罪现场调查:迈阿密》剧集时向您推荐《法律与秩序》。
从这些行之有效的实践方案所总结出的见解完全是基于结构化的数据经由自动化、事务处理的。新的挑战是我们如何从这些碎片似的、不容易组织进行评价或计算的非结构化数据中获得可操作的洞察力。
使见解具有可操作性
添加结构化的数据到非结构化数据中是获得的洞察力的基础。就像要将一块粘土变成一个完成的雕塑,这并不是偶然发生的。这需要战略上的设计技术和有针对性的知识来克服熵和,从混乱中创造秩序。
这就是为什么大软件公司要收购搜索引擎公司的原因之一了。Vivisimo公司、Endeca公司和其他类似企业具有成熟的、有能力的“索引管道”, 能够将结构化的数据添加大盘大数据内容进行索引。这些“索引管道”是至关重要的,以确保你从大数据中总结出的见解是准确、可靠的。
如果所采取的添加结构数据的步骤不足(如日期不归一化,实体提取是不完整的),那么数据见解背后的准确性就变得可疑。正如我们在政治领域所看到的,如果你的调查是有缺陷的,你将不会得到准确的民调数字。
在商业领域,如果您的数据结构是有缺陷的,你不会得到切实可行的商业见解。更糟的是,有时你可能没有意识到你的数据结构是有缺陷的,这会使您做出错误的决策,伤害你的业务。
技术+过程
虽然技术在这个过程中扮演着一个重要角色,添加结构化的数据到非结构化不仅仅是软件。这就是企业搜索到大数据的交叉问题。技术正领导着大数据的趋势。但是,考虑到人性的非结构化数据的特征,人必须成为解决方案的一部分。
这是实践应用程序的流程,实用主义校验和从非结构化数据生产最值。对于过程透明度的关注带来了信心,使我们从非结构化数据中可以获得可操作的情报数据来源。技术和过程的结合是促使最新收购的动因,可以帮助您的业务做的更好、更准确的基于你的非结构化的大数据做出决策。