腾讯云文件存储CFS如何以40GB/s高吞吐应对新基建挑战?

 近日,腾讯云存储高级工程师陈宏亮在“2020中国数据与存储峰会——新基建与数字化论坛”上发表主题演讲,与英特尔、紫晶存储、慧点科技以及InterSystems等演讲嘉宾,从专业角度出发,共同探讨新基建机遇下如何加速赋能产业应用,提升企业数字化能力。陈宏亮阐述了新基建背景下的新存储需求,结合业务场景对腾讯云多年打磨的CFS进行了介绍,并深入分析了CFS在新基建中的具体应用。

腾讯云存储高级工程师陈宏亮

什么是新基建?

新基建也就是说新型基础设施建设,相对于旧基建其主要包括5G计算建设、特高压、城际高速铁路、新能源汽车充电桩、大数据中心、人工智能、工业互联网等领域,涉及诸多的产业链,以新发展为引领,以技术创新为驱动,信息网络为基础,面向高质量发展需要提供技术转型、职能升级、容量创新等服务的基础设施体系。

新基建技术中最核心的资产就是数据,物联网让采集的数据种类和数量越来越多,5G让数据传输的速率越来越快,云计算在不断地对数据进行计算处理,AI在不断地挖掘数据的价值。这些技术连接的关键纽带便是存储,在新基建的推动下,存储可以说是推动产业向高端化发展的一个刚需,为此新基建需要新的存储。

新存储有哪几个重要特征?

第一个是海量存储的可持续高效存储。第二是海量数据的高效管理。第三是海量数据的一个价值挖掘。面对如此庞大的信息存储量和可预见性的数据增长量,新的存储架构必须要考虑的第一个点就是如何以更高扩展性、更高的吞吐、更低的时延以及更低的性价比来实现容量的管理。

首先要有高扩展性,满足因为业务量数据精细度提升导致的数据量增加以及随时扩容的需求。其次要有高吞吐、低延时,可以快速读取跟调用。当然,用户也是很看重整体方案的性价比。今天解决了数据存储的问题,对新基建用户来说是远远不够的,还要进一步解决数据存储的管理问题。

数据跟人一样也是有生命周期,从产生到消亡有很多阶段。新基建所需要的存储系统必须要具备生命周期管理的能力,数据最终的价值呈现一定是为应用服务的。人工智能和大数据驱动的发展,驱动数据产生更多的应用价值,所以在数据的价值挖掘方面,其中终极需求必须更好地利用人工智能,服务人工智能,赋能大数据人工挖掘。

基于海量的价值挖掘分析基本上都要依赖于机器学习、深度学习的人工智能技术。在人工智能的场景中,数据要经历采集、训练、推理、归档等国家。人工智能各个阶段对存储系统要求差异非常大,采集阶段要支持互联网原始访问的协议,吞吐量非常大。要求系统有高并发、低时延的归档的能力,而在归档的阶段则需要低成本的存储系统。

业界关注度颇高的腾讯云文件存储CFS在关键业务应用场景中如何发挥能力?CFS如何以40GB/s高吞吐应对新建下的数据挑战呢?腾讯云主要有哪几种存储产品?

COS、CFS和CBS,腾讯推出这三款产品可以满足各种不同的需要。其中CFS是一个缩写,链存储,主要是提供文件存储服务。CBS即云硬盘,主要提供的是快速的服务。而COS是云对象存储,主要提供云对象存储的服务。下面我们通过对比的形式介绍这三种产品,产品的规格、性能以及规模对比,主要是以CBS单刻盘、CBS单文件系统以及COS单存储统一为单位进行对比。在存储规模的方面,CFS大文件系统最大支持是20TB存储上限,COS单盘支持16TB存储上限,COS则能提供亿B级存储上限。延时方面,CFS是在0.3毫秒到20毫秒之间;CBS是在0.2毫秒至5毫秒之间,COS的延时是根据网络情况而定的。在吞吐方面,CFS大文件系统最大能够支持40GB/s的上限,SSD云硬盘目前最大能够支持260兆B的吞吐上限。而COS吞吐主要与用户互联网存储的带宽相关,支持海量并发。在IOPS方面,CFS单文件系统目前最大能够支持60K的IOPS。而CBS在SSD目前最大能够支持26K的IOPS。COS主要性能指标是QPS,最低目前能支持1.2K的QPS。在访问量上COS可以达到数亿的并发连接,而CFS可以支持数万的客户端并发的访问。而CBS在并发访问上比较受限,在业务的网络上CFS和CBS主要用在了内网上,COS在内外网都可以使用。生态方面COS比较丰富,有数据万象、大数据套件、无服务函数等。在价格方面的话,CFS和CBS差不多,CFS超高一些,而COS则比较低廉。

什么是CFS?

CFS是公有云上的NAS存储,帮助用户解决公有云上的高性能共享存储的需求,支持容量和性能的在线扩展,现有的应用无需修改即可直接挂载使用。CFS提供了可扩展共享的文件存储服务,可以与腾讯云云服务器容器批量计算等服务搭配使用。CFS提供了标准的NFS及SMB云间访问系统的访问协议,为其他的计算服务提供共享的数据源,支持弹性的容量和性能的扩展。现有的应用就是无需修改就可以挂载使用,是一个高可靠的文件系统。

适用于大数据分析、媒体处理和内容管理等场景。文件存储接入非常简单,用户无须调节自身的结构或者无需进行复杂的配置,需要三步就可以了。第一步创建系统,第二步启动服务器上的文件系统客户端,第三挂载文件系统即可。

CFS产品优势主要是四个:集成管理、自动扩展、安全可靠、成本低。在集中管理方面,CFS可以支持系统数据访问,例如强数据一致性和文件锁定,至于云的计算资源可以通过NFSv3.0或者是NFSv4.0的协议来挂载CFS的文件存储。CFS可以提供控制台界面,让用户可以创建文件系统,可以根据文件容量的大小,自动对文件系统的存储容量进行拓展,同时不需要中断请求和应用,确保独享所需要的存储资源的同时,降低管理工作的时间成本,减轻工作量。

在安全可靠性方面,CFS具有极高的可用性和可靠性,每一个CFS都有冗余,CFS可以严密控制文件系统的访问权限,通过基础网络或者是VPC网络的安全组,并搭配权限组,实现访问的权限控制。在成本低廉方面,CFS可以动态调节需求容量,而无需提前调配存储,用户只需要按照使用量来付费,不需要进行最低消费或者前期部署、后期运维的费用,动态计算节点可以通过NFS共享一个存储空间,而无需购买其他的存储服务,也不需要考虑缓存。

CFS的应用情况?

第一个实例是HPC计算下第三代大规模基因测序的应用,基因测序项目需要临时的大量计算和存储资源执行基因测序,而现行的方案是采用本地的计算节点,加上商用文件存储形式。本地的资源无法满足这种弹性的客户要求,采用腾讯云文件存储CFS,它的优势在于可以无缝对接测试程序,用户无需额外修改这个程序。同时,用户可以按照实际的使用量来付费,无需额外付费,同时CFS能够提供超高的一个吞吐性能,也能够提供弹性拓展的存储空间。最终的方案是我们提供300台计算型服务器CVM的节点,配置32核120G的内存,再加上300T文件存储,总计7个文件系统,每个文件系统提供500MB/s的吞吐量。

第二个案例是广电行业视频处理。需求是视频处理、分发、持久化存储一站式解决方案。IDC机房计算节点+文件存储设备。痛点视频量激增,IDC计算节点不足,存储容量不足,扩容运维非常复杂,客户希望长期保留数据。

采用CFS优势在于它可以提供高吞吐、低延时用于视频渲染,同时可以将用户希望长期保存的数据沉淀在COS中进行持久化存储,降低成本。最终的方案在腾讯云的云总机上部署媒资管理系统,同时使用CFS作为渲染存储库,通过COS进行分发。

第三个案例,动画电影制作。需要执行高吞吐、高并发计算任务,客户现行的方案是使用IDC机房计算节点加上商用文件存储形式,痛点是动画后期渲染IDC计算节点不足、存储性能不足,导致渲染耗时很长,无法满足电影按时上线的需求。采用CFS的优势,腾讯云能够提供弹性伸缩高吞吐的文件存储,而且也支持标准的NFS协议,并且可以方便地协同低成本的计算实例。最终的方案,客户原始素材通过专线上传到CFS,同时超过1000+云主机进行渲染作业,客户峰值吞吐达到160Gbps,整体时长降低了28%,保证了电影按时上线。

第四个案例,教育行业AI训练,教育场景是小文件、低延时。客户现行方案是CVM+自建HDFS+COS。现行方案的一个痛点是转码平台原对接云上自建HDFS,其延时性能不佳、维护耗时。使用CFS的优势在于CFS可以提供低延时、高吞吐的云服务,同时可以很大程度上提升转的码平台的效率。加速模型优化,最终的方案也是使用CFS,是无缝替换CFS的集群。

第五个案例,短视频训练和推理。该客户直接采用CFS加COS文案,训练的流程是COS读取后,在TKE上训练分析,并发挂载量是几十个Node,单文件大小是几百KB到2MB左右文件,数量百万到千万级。为了满足写吞吐的需求,采用异步操作的模型,从COS预拉取进行系统。读吞吐峰值可以打满10GB/s,因此训练模型30分钟,因此训练过程+模型发布最短要求为30分钟。客户端是GPU,而发布的流程则是训练完成后将最终的模型存储到CFS上,业务的Pod就需要在最短的时间内完成,并发挂载量是100以内的Pod,文件大小是10GB到30GB之间,读吞吐的分级是实际运营的,需要10分钟以内做完,而数据的更新频率是在最短30分钟时间内发布模型。

CFS如何在新基建中发挥作用?

首先是客户业务场景的分析。广告推荐顾名思义,我们在使用期间会看到各种消费的小弹窗、小视频等等,结合用户模型为用户提供最精准的广告,从而提高营销资金的利用率。CFS参与应用广告推荐的具体业务流程主要分为三步。第一步模型发布,广告客户模型在训练中心完成,训练完成之后将模型文件发布到腾讯云。第二部分是业务应用获取模型,客户在腾讯云上使用了三个T的云系集群,共计超过4000node,或者超过8000个,以分担业务的压力。这些Pod将几十GB的数据模型全部加载后应用才能启动。

第三步是广告推荐,系统使用模型文件和用户数据,为用户定制广告推送。这是客户的一个广告业务架构图,左边是广告推荐训练集群,当训练集群推初模型后会挂载CFS,将模型拷贝到CFS中。上面是客户在腾讯云线上应用集群,大概是2000到8000个Pod组成不同的多个集群,分布在北京三个核心区,这些Pod通过挂载客户端,从CFS中读取虚拟集群,生成推理模型数据。在业务启动时,运营程序需要读取广告推荐模型的文件。在运行的过程中,系统根据用户使用数据进行广告推荐。

腾讯云通过对业务流程的摸底,了解业务的存储场景、存储留存以及集成规模。关键性的含量指标包括业务的性能需求,客户容量的需求以及具体模型。CFS解决了特定场景下大文件、大吞吐的难题。

“总而言之,新基建为中国的产业升级清晰指明的方向,数字化技术广泛的应用以及随之产生的需求,将带来数据爆发式增长,海量数据蕴含着巨大的价值,存储作为新基建坚实的支柱。更多样化的数据模式、日益复杂的数据管理,以及高效的数据利用对存储提出更高的要求,无论对传统的吞吐厂商还是创新的吞吐厂商来说,这既是挑战更是机遇,”陈宏亮表示。