杉岩数据梁欣鑫：使用Ceph存储海量小文件的实践-DOIT-数据产业媒体与服务平台

4月23日，在由DOIT主办的首届软件定义存储峰会在深圳举办。杉岩数据梁欣鑫在“使用Ceph存储海量小文件的实践”的主题演讲中，谈到了小文件、解决小文件问题的几点想法以及Sandstone Mos海量小文件的方案。

本次大会，以“软件定义存储未来”为主题，DOIT主办，中国开源云联盟、中国超融合产业联盟、Ceph中国社区和腾讯云+社区提供支持，吸引了来自全国各地的数百位专业观众参与。大会探讨了SDS业内最热门的六大话题，包括SDS趋势与实践、开源云存储、超融合、Ceph、互联网云服务等等。数十位国内外专家、学者和用户亲临现场，结合软件定义存储技术、应用、现状及趋势进行了深入交流。

杉岩数据高级存储技术专家梁欣鑫

以下内容根据速记整理，未经本人审定。

各位下午好！我来自杉岩数据，下面跟大家分享使用Ceph存储海量小文件的实践，今天要讲的是小文件，解决小文件问题的几点想法以及Sandstone Mos海量小文件的方案，最后是总结。

海量小文件带来的问题

1、海量数据的性能问题。这是64K写的性能测试，一开始的1万到4亿个对象，这个时候会发现写入的性能逐步下降，从开始有15K的oes到下降到2.5，实际上下滑比例已经达到了80%多，海量小文件的冲击是非常大的。

究其原因，如果用的是Fd，底下的文件是要从Fd到dentry再到inode，superblock，1亿的文件，256B，它已经占了24G，小文件带来的是要直接操作磁盘，直接操作磁盘会导致性能下降，海量的小文件会破坏空间的连续性，会产生大量的随即读写。海量小文件会有大量源数据，性能还是不能得到流畅。

2、数据恢复效率问题，数据在做恢复的过程中效率的问题，海量场景下恢复的速度，后者是前者的10倍，海量的小文件场景下，数据恢复的速度比较缓慢，而且效率很低，在此期间如果刚好不巧有业务请求过来，有可能会看到Slow Requses或是blocked，是存在风险的。

3、扩容、恢复以后集群的性能还会出现骤降的情况。如果做了扩容或是故障恢复，这个时候大量的小文件可能会被删除，可能会出现大量的碎片，这个碎片可能出现在磁盘上，如果不进行碎片的回收，里面系统的性能会出现骤降的情况，这是我们测的一组数据，前面很平稳，一旦扩容等恢复以后，这个比例会变大。

4、海量小文件的场景，数据的迁移效率比较低。可能想用数据冷热分层的方式把热数据移到冷的存储池，这个时候有大量的小文件在这个过程中会产生迁移，而且这个迁移的过程中前面也会有，迁移以后数据可能进行大量的删除操作。之前测试的4000万的小文件迁移消耗时间大于72个小时，算下来要两天多的时间。这种情况下迁移的效率太低了。

解决小文件问题的几点想法

海量小文件，是不是可以做合并？合并之后的文件，不是体积很小的文件，空间的使用效率是比较高的，对磁盘还是比较友好的。合并以后是不是可以提高读写的性能？

我们都知道，现在流数据，而且是写在对象里，源数据是不是可以独立？为什么做独立？源数据独立有两个好处，源数据可以更加灵活的做选择存储，可以对这些源数据做一些其他的操作，比如说源数据是不是可以做其他方面的管理、检索，都很方便的做。是不是可以把源数据部分抽出来？

同步和删除的流程是不是可以改进？如果做到第一点，文件做了合并的话，传输也是可以做合并的，而且删除操作的时候，批量删除是可以提升效率的。

基于这三点，Sandstone Mos针对海量小文件的问题提出了方案。

Sandstone Mos海量小文件的方案

第一步我们把源数据从Data pool抽出来进行分离，源数据存在index pool，部署方式是不是和其他的部署方式不一样，没必要和Data pool绑在一起。每个对象把源数据抽出来以后，放在BI，源数据有它的BI，会有对应的Data pool数据实体。我们去到ID里的Index，多个对象放在一起管理，这个时候很方便的能实现多个版本的数据管理。

这方面我们也需要一些数据，简化整体的数据结构。比如说读写数据有非常重要的结构，在应用数据结构的时候发现有很多数据，这些数据不好的地方是没怎么用、没什么用，放在这里很占空间。里面有RGW很占空间，读写数据的时候其实没必要关心这个对象是什么样的，我们也去掉一部分的冗余数据简化数据结构。

在这上面我们也做了文件合并的工作。开始的想法是不同的对象可以写到一个大项里，实际上这里会有几个问题，对象写进来以后应该朝哪个地方写？后面会讲一下大概的流程，处理小文件写入的时候可不可以给一些因素简化流程？不同的bucke的小文件合并到不同的大文件里，如果对象是同一个bucket会写到同一个大对象里。我们都知道用的是shard的思想，BI分了不同的shard，为了简化处理流程，，不同bucket的小文件存到不同的大文件。

文件合并以后要读的时候应该怎么读？小文件的读取比较简单，存进去改一下加上offs和lenght就可以了，所有的对象指向的数据实体只有一个，对象读的时候知道开始位置就可以得到对应小文件的数据。还是会有问题，简单的话是合并就完了，问题是这个东西进来以后，应该写到哪个对象上？所以对象进来以后可能好几层，这里就会有一个问题，假设两个对象是写到同一个大对象上，这个大对象的空间分配会是一个关键的问题，对象的空间分配一定要统一一个来源，可以避免写同一个对象，保证区间不会相互交集。我们在Bucket使用omap_key存储大对象元数据，可以起到空间分配的作用，对象写进来以后，最后是不是要确定对象放在哪个Bucket shard上，可以看到需要用哪个merged object，可能第一个写0到24，第二个会记一个状态，会把他的状态记为已经使用，下一次线程过来就不会用空间。会把空闲的空间分配给他，我每个线程写的时候拿到的空间分配信息之后，就可以写相应的偏移。我们每个对象在上面都做了空间的管理。

删除操作可能会出现几个问题，删除的空间怎么进行回收？可能删了几个小对象后大对象整体会出现空洞的情况，什么时候进行整体的回收？进行整体回收的时候这些小文件要怎么进行适度的迁移？前面说的空间管理情况下有条目的状态，既可以在空间分配中用到，也可以在删除小文件的时候用到，删除小文件的时候是异步删除的方式，可以在这个大对象上做个状态的更改，里面会涉及到两个操作，不单只是删除小文件的时候要删原来的小文件BI，还要改大BI的状态。

我们有两个对象可能被删除会标deleted的状态，删除的时候如果数据不进行立刻的回收，空间是存在一定的浪费。这个时候要灵活运用object的接口，这个时候空间做了一定的回收，所以这个接口是比较友好的，对于快速释放空间，提高空间的利用率，有可能大对象的区间被删除，当空间使用率达到一定程度的时候，我们要进行整体的回收，大对象可以反向索引到每个小对象上，小对象也需要记录自己所处的大对象，这两个操作是为了后面铺垫的，要做删除操作的时候，小对象必须自己清楚，我是属于哪个大对象的？删除的时候可以在上面记这个状态，大对象有要记自己被哪些小对象引用，为什么这样处理？如果说空间使用率低到一定程度的时候，要进行整体的回收，这个时候还在使用小文件怎么办？大对象必须反向索引到有哪些小对象在用它？这个时候我们把小文件的数据挪出来，迁移到其他大对象里。整体的机器操作是完全的异步方式，如果你在删除对象的时候会进行res的，为了处理其他的问题，把整个过程变成异步的，包括BI的删除和数据的删除都变成异步的方式。

同步和数据迁移原理是一样的，无非是把大量的数据从一个站点，从一个存储池迁到另一个存储池，这一点是最为头疼的，会涉及到非常多逻辑的问题，比如说合并后的文件是怎么进行同步的？小文件的元数据，合并以后的文件进行同步，元数据怎么同步，是不是会存在先后顺序的问题？

大家如果了解的话，多站点的同步分为两部分，一个是全量同步，一个是增量同步，两个同步的方式和base的实际结构是不太一样的。如果你是全量投入的情况下，AB两个站点是进行全量同步的，我做全量同步的时候会把里面的对象都拿过来，增量同步就不一样。先分场景做，我第一步是先把这些合并之后的文件、数据整体的拉过去，包括前面提到的大对象，实际上也有自己的BI，这个时候对我来说也是一个对象，我会把这些数据统一丢过去，小文件的元数据还是维持。

增量同步的情况比较复杂，这个大对象是写到100，这个时候怎么把它同步过来？这里面有点取巧，像这种情况下，我们要处理这个逻辑，前面全量可能把这个拉过去，根据多个BI，如果发现是多条边、是写在同一个同类项上，这个时候会把数据做合并类似于前面同步的方式，把数据合并丢过去。最后源数据还是通过BI的方式，把源数据拉过来，每次请求的效率会比以前高一些。

两个数据池迁移的时候，跟全量同步的场景是一样的，全量同步的情况下和存储数据池的迁移是一样的场景，这个时候没有单列存储池的场景。

总结

1.海量小文件的性能。我们在做完文件合并以后，文件数是能明显下降的，解决海量数据场景下的性能问题，文件合并以后，对于磁盘来说是比较友好的，合并以后可能是比较大的文件，比如说我们合并至少都是4M的文件，合并以后文件的数据量会明显下降。

2.恢复效率。文件合并以后效率也可以得到巨大的支撑，原来都是32K的文件，有100个32K的文件，合并以后是3M多的文件，每次请求要恢复的文件数目明显减少了。

3.扩容后的性能骤降的问题，合并后的文件对于空间的使用率更高，就算会出现大量的数据删除情况，这个时候对于磁盘的使用也是更加友好的，因为这个时候磁盘也不会出现过度的空洞碎片。

4.数据迁移的整体做了优化，数据合并之后迁移的效率也会明显的提高，前面可能分了100个小文件，可能是请求100次的32K文件，可能是100次32K的请求，合并之后只需要一次移过量就可以了，后面的所有操作都是不需要再跨两个Pool。

整体来看，我们的方案可以解决前面所提到的四个问题。

最后介绍一下杉岩数据，杉岩数据2014年成立，创始人都是来自于500强企业，今年已经获得了深圳中小担集团跟投的B轮融资，针对目前Ceph遇到的问题我们也在做一些积极的投入。这是我们当前的客户（见PPT），今天就讲到这里，谢谢。

杉岩数据梁欣鑫：使用Ceph存储海量小文件的实践

xiesc

相关推荐

近期文章

热门标签