随着 5G 时代的到来,大数据分析和应用得到了各个行业的广泛关注,各种新的应用也时刻产生巨量的非结构化数据,如何工具化、平台化、规模化地使用这些非结构化数据,成为企业关注的焦点。
9 月 24-25 日,刚融资 6000 万美元的向量数据库公司 Zilliz 出品的 2022 首届非结构化数据峰会成功举行,本届峰会以“矩阵革命——向量连接世界”为主题,Zilliz 核心产品和研发团队携手来自金融、人工智能、互联网等多领域的专家,分享了以向量数据库为代表的非结构化数据处理技术发展与应用实践。
Zilliz Cloud:非向量数据库产品家族新成员
作为向量数据库包括非结构化数据领域的先行者,Zilliz 一直在探索如何管理、使用、快速价值化非结构化数据,从而赋能企业提效增益。
Zilliz 创始人兼首席执行官星爵表示,非结构化数据已经占数据总量的 80%以上,未来几年增速将会超过结构化数据。但与此同时,非结构化数据的价值目前还远未充分挖掘,Zilliz 会继续深耕在向量数据处理领域的能力,包括数据的可观测性、工作流管理、数据安全、数据隐私、数据应用等层面。如今,Zilliz 在非结构化数据处理的生态圈,已经贡献了 Milvus 和 Towhee 两个开源项目,在非结构化数据处理领域不断提供创新解决方案。
言出必行,Zilliz 随即以此次峰会为契机,重磅发布了全新产品——Zilliz Cloud,为用户提供了一个新的云选项。
谈及推出 Zilliz Cloud 的初衷,Zilliz 合伙人和技术总监栾小凡这样解释:在非结构化数据领域,很多工具是散的,用户只能把各种各样的开源组件拼接起来使用,处理流程会比较繁琐,并且在稳定性、易用性方面还会遇到各种问题。
Zilliz Cloud 正是为了解决这些痛点而生,它是基于 Milvus 构建的一个能够托管的云服务,由最懂得做非结构化处理及向量检索的团队——Milvus 原班人马打造。Zilliz Cloud 具备高可用、成本优化、扩展性强等特点,能够打通数据之间的隔阂,完成数据的转换、分析、迁移、可视化等管理动作,更重要的是,通过这一系列操作,非结构化数据将被转化成可以检索的向量数据,从而为业务提供更大的价值。
Zilliz 产品家族图
面对新成员的华丽亮相,作为家族元老的 Milvus 和 Towhee 也不逞多让。
Milvus 是一个开源的分布式向量数据库,不但集成了业界成熟的向量相似度搜索技术,更在此基础上对高性能计算框架进行了大幅度优化。在即将推出的 Milvus 2.2 版本中,增加了磁盘索引(DiskANN)这一选项,相比于传统的纯内存索引方案,DiskANN 可以把用户的本地磁盘作为存储索引,牺牲少量的查询性能,但能换来成本的大幅降低,用户可以使用更低成本的具备 SSD 且内存更小的机器进行数据库部署。同时新版本还将增加数据批量导入、RBAC 权限控制、查询 Pagination、限流与反压等功能。
Towhee 是传统 ETL 工具覆盖能力的补充,相比传统 ETL,非结构化数据的 ETL 在业务侧的原始数据层更大、转换过程更加面向深层次语义、过程会引入大量 AI 能力。通过使用 Towhee,任何用户都能够基于 Python 代码一键构建面向生产的高性能非结构化数据处理流水线。未来,Towhee 将会持续得到优化和升级,比如在现有的 pipeline 定义接口上提供一个类似于 Spark、Flink 的流水线定义接口;同时将更加深入地集成类似英伟达这样的技术生态,进一步提升整个流水线面向生产的执行效率;也会不断努力满足社区用户的需求,解决中文模型的缺口。
眼花缭乱的非向量数据库应用场景
非结构化数据的不断增长,驱动着基于 AI 的非结构化数据分析与检索技术的不断发展。
据 Zilliz 合伙人和产品总监郭人通介绍,在应用生态层面,非结构化数据搜索在图片搜索、视频搜索、文本语义搜索、跨通道搜索、推荐/问答系统、版权保护、欺诈检测、数据查重、网络安全、药物发掘、异常检测等场景有着良好的应用前景;在行业生态层面,当前非结构化数据生态的基础软件和工具远远少于结构化数据生态,未来有着非常广阔的增长空间。
技术的应用离不开不同行业的实践,多位嘉宾从各自业务出发,通过实际问题剖析,阐述了如何有效地提取非结构化数据的语义信息,如何实现大规模、高精度、高吞吐的非结构化数据分析与检索。
- 中国电信翼支付风控总监汤敏伟分享了翼支付如何利用 Milvus 构建更加智能的金融风控体系;
- 百度资深研发工程师方泽阳分享了 Milvus 语义索引库如何帮助百度飞桨 PaddleNLP 提高语义检索的精准性;
- 虎牙安全算法高级研究员黎官钊分享了 Milvus 如何帮助虎牙团队快速进行敏感区域特征识别与检索,提高视频内容安全审查效率;
- 陌陌数据平台资深专家孔云龙分享了 Milvus 如何帮助陌陌进行垃圾信息甄别、假照识别等。
金融支付、深度学习、视频直播、社交……Milvus 在越来越多的领域实践落地和发挥价值,这让我们近距离感知到了非结构化数据和向量检索的极大发展空间,也对于打破数据孤岛,实现优质数据互联互通更加有信心。
【来源:CSDN】