宝立明(Stephen Brobst)是数据仓库公司Teradata的首席技术官,而Martin Willcox是公司在欧洲、中东和非洲地区的平台与解决方案销售主管。他们近期接受了TechTarget的采访,并介绍了他们对于2013年大数据技术行业的看法。第一部分是Martin Willcox的采访实录:
SAP认为它的内存数据库设备HANA是引领变革的技术。您如何看待内存技术?
Willcox:人们对这个行业有两种看法:SAP认为所有数据都应该保存在内存里;其他人认为内存的单位成本无法适应数据容量的增长速度,所以将所有数据存储在内存里的做法在经济上是不可行的。按照后一种观点,您需要在一个经典结构上组合不同的存储机制。
Teradata也认为“不能将所有数据存储在内存中”,但是我们与其他供应商的区别是,我们使用一个多元(热数据和冷数据)模型来自动管理数据在层次中的移动。这就是我们所谓的Teradata智能内存技术。
您是如何以智能方式实现‘大数据’处理的?
Willcox:有些供应商错误地认为大数据是一个同质问题。而我们用一个二对二模型将它划分为两个坐标:x轴是数据结构——左边是简单结构,右边是多重结构;在y轴上,下面是基于集合的分析,上面是非传统分析,如路径或图分析。
后者天然是可迭代的。例如,对销售数据执行综合分析:‘与香蕉一起卖得最好的是哪些产品?’就是一个经典问题。如果我想问:‘与香蕉和牛奶一起卖得最好的又是哪些产品?’,要在传统数据库管理系统上分析这个问题,代价很高的。
在图的处理上,我们对于节点关系的处理方式也有利于基于集合的分析——社交网络的个体就是一个例子,它们可用于确定影响力。
所以,对于新型数据执行新型分析,才能够给大数据带来意义。否则,它就只是一个术语而已。
在过去一年里,您在客户数据库中发现了哪些与大数据有关的趋势?
Willcox:虽然大数据库技术(如AsterData或Hadoop)在全球范围内蔓延开来,但是大多数客户仍在观望中。
我们的一些电信客户正在执行一些有意思的测试,希望理解网络数据与客户数据。移动数据则是另一个需要更好理解的方面,而AsterData、Hadoop和SQL-H都被应用于这个领域。其中,SQL-H支持使用行业标准SQL对Hadoop分布式文件系统(HDFS)执行分析。
众所周知,在技术领域,很少人能够了解自己狭窄专业领域之外的技术。整个行业并没有很好地向人们说明过去所解决的问题。您会发现有许多人用新技术重新实现原有的解决方案。有一些Hadoop支持者应该对此承担一定的责任。他们中有一些(并非全部)并不太理解结构化数据的管理方式。这里有很多重复工作。
当我向一些新出现的大数据技术供应商询问传统数据仓库的角色时,他们经常会说:‘它们仍然有价值’。
Willcox:是的,名褒实贬!它仍然是基础。有一些新技术很吸引人,但是有一些支持者认为它们就像是基于文件且与特殊应用程序相关的数据处理方式,有点像上世纪60~70年代的事情。
这就是我们实现的方式。它会产生很大的数据库冗余性和不一致性。它不适合那些有复杂数据的大型组织,而且这正是我们发明关系数据库管理系统的原因所在。我们发现,保证数据质量和一致性就是将服务抽象到数据库管理系统层次上,帮助负责实现数据完整性的所有开发者解决问题。
在过去30年里,组织方式并没有发生变化。那么数据质量、数据一致性、元数据管理、体系呢?如果您只是做一个科学项目,那么可能不会有问题,但是如果您离开学术领域,并且需要向监管部门汇报,那么您的数据和数据质量就变得非常重要。
有人认为,这些新公司将取代二对二结构中左下角部分沿用了30年的工程方法,我认为这是不可能的。但是,它们在多结构数据和非传统分析上有一定的作用。
没有一种技术能够覆盖所有4个方面——这就是为什么我们要提出一种统一的数据架构。