作者:Matthew Hardman,Hitachi Vantara亚太区数据智能总监
一家公司想要在数字时代取得成功,必须非常熟悉并能够充分利用自身数据,挖掘其中价值,为管理层提供有见地的行业及自身洞察。
然而,对于大多数企业而言,业务拓展已经让他们焦头烂额,有限的预算和时间,更使得企业无暇制定一个成功且有效的数字化战略。这个任务也因此落到了企业的数据运维团队肩上,但这一团队的大部分时间都用在了发现和处理非结构化数据上。
非结构化数据在全球所有数据中占比高达80%。
云上的非结构化数据经常出现不规整的现象。例如,有人可能在电子表格上将数字“0”错误地输入成了字母“o”,或者在复制长串号码时不慎遗漏了一部分。企业的合并和收购也可能产生重复或有冲突的数据集。此外,除了公司既有的海量历史数据(这些数据在企业数字化之前就已经存在),新数据还在以惊人的速度产生。
非结构化数据可能会引起混淆并导致不准确的解读。然而,这些历史数据也必须被恰当地管理,否则,数据闲置在存储设备中,既浪费了存储空间也让这些数据失去了应有的价值。企业可能会感觉自己陷入了一个两难的境地,对所有数据的整理分类是一项十分艰巨的任务,并且需要耗费大量时间,但这又是一项必须着手推进的任务!
想要更好地识别数据并挖掘数据价值,一个以数据搜索和数据分类为基础的解决方案便成为了关键。所有的后续工作都要从一个不起眼的步骤开始——提取为元数据(metadata)。
什么是元数据
简而言之,元数据是所谓描述数据的数据。它为我们提供了一种结构化的方法来识别数据所呈现的信息。
在内容智能平台对元数据进行提取和整合操作时,元数据在不到六分钟的时间内就能被充分分析并得出结论。(人工处理这一任务则需要几天、几周甚至几年的时间。)这就意味着数据管理员能够方便快速地进行操作并探索数据,从而可以将更多时间投入到更高级别的工作中去。
例如,你的智能手机里可能有成千上万张图片,你将如何对它们进行分类?GPS坐标就是一种常见的、能从这些图片数据中被读取到的元数据。你从图片本身看不到坐标,但在拍摄的瞬间它就已经嵌入到图片文件当中。利用这些信息,能够识别元数据的应用程序就可以读取该信息并提供附加功能,例如按照地理位置对照片进行分类。这使得对图片数据进行逻辑分组变得非常简单。
元数据有助于实现企业或组织的重要功能,使之能够快速有效地开展数据的运营维护,更好地为客户提供服务。如果没有元数据,在定位客户所需的特定数据时,我们将面临巨大的挑战。
例如,一个医学成像应用程序有超过10,000个大脑扫描图像。如果想要根据地点或年龄对扫描数据进行分组,则必须手动查看每次扫描的原始地点,或者扫描的对象。元数据的识别意味着相关信息的搜索只需几秒钟时间,而手工处理这些数据则需要几天或几个月的时间。在医疗卫生和医学研究领域,处理数据用时的长短意味着生与死的差别。
为什么内容智能平台如此重要
元数据本身在被提取之前毫无价值,而提取元数据最快、最简单的方法就是通过内容智能平台。这一平台能够快速并全面地检测到元数据,这也是整理非结构化数据的第一步。
内容智能平台提供了一个引擎,使数据管理员能够在一个集中化的平台上对数据进行识别、索引分类,并采取进一步行动。我们也可以将内容智能平台视为非结构化数据的搜索引擎。内容智能是一个框架,可以将数据转换为非常易于搜索的内容,以便使用者检索。内容智能平台的关键点也是元数据。元数据是找到所需数据的线索。它也是对非结构化数据进行分类的关键。通过分类,非结构化数据变得有意义,并能释放价值。
内容智能平台不仅仅能对非结构化数据进行分类,还可以充当数据管理员的得力助手,提供智能指导的数据探索、数据建议,以及通过开放跨越不同地点和数据类型的访问权限提供所有数据的即时可视性。内容智能平台还可以实现数据个性化定制和安全防护,向正确的人员提供正确的数据,以防数据落入错误的人员手中造成隐患。
Hitachi Vantara提供的智能的数据发现和转化平台Hitachi Content Intelligence(内容智能平台)可提供数据分析和存储性能监控,进而帮助企业及其他组织机构提高员工生产力并提供可行的业务洞察,将数据转变为有价值的业务信息,满足切实的业务与运营需求。
数据是这个时代不可或缺的资产。随着各种类型的数据生产者越来越多,从数据中挖掘并发现有意义的事实信息充满了挑战,企业则必须应对这些挑战。内容智能平台能够助力企业将这些挑战转化为机遇,以确保企业在激烈的竞争中保持活力并争得上游。