分布式系统硬件基础之漫谈存储设备

by admin · July 18, 2021

我们在分析各种分布式系统场景时不可避免地会讨论到数据的读写，很多时候我们会对数据的读写做很多的优化和特殊处理，而这些操作的背后根源都离不开数据存储的硬件，本文就来和大家谈一谈这其中设计的各种硬件和相应的技术。

Cache和读写

我们都知道把数据放到内存中，这样有读请求过来的时候就可以直接从内存中读取到相关数据（hit cache的情况），而不需要去访问具体的物理磁盘，从而减少了disk I/O的操作。同样地，写也可以写到内存中，只是和读不同的是，内存写终究只是一个中间状态，你最终还是要写到磁盘中才行，所以内存到写操作来说只起到一个delay的作用（当然假如你没有persist保存的情况下，可能也不需要写到磁盘，但我们讨论正常的需要persist保存的情况）。

不过当我们再仔细想一下，其实cache对写并不仅仅是一个delay的作用，它其实还有一些别的好处：

多次写，一次flush：我们很容易就可以想到假如我们对一个数据进行了多次更新，然后再进行一次flush到磁盘，那么这些多次的更新操作其实就只要一次磁盘的写就好了。这从另一个角度减少了磁盘的写操作。
I/O Merge：另外一个好处，就是我们可能有多个数值在内存中被修改了，但我们可以把这些数值集合在一起，一次性更新，这样真正的物理写就可以看成是一次磁盘操作了。

理解了这一点之后，我们再来想想我们之前提到的Write-ahead的logging策略。在write-ahead logging中，内存的修改并没有立即flush到disk中（减少了Random IO的操作），而是写到了一个sequential的log文件中（速度比较快），然后再通过一个后台进程来进行优化写（比如合并之类的）。

这里有人会问为什么Random I/O的操作没有Sequential I/O写的速度快，这是因为对物理磁盘来说，磁头移动是需要时间的，Random I/O就意味着每次要写的偏移地址之间有很大的差别，所以这个磁头需要不停地移动，这显然是很费时间的。而Sequential I/O则不尽然，假如偏移地址是连续的，磁头就不需要不停的移动寻找新的写的偏移，这样就减少了磁头偏移的时间（这里还要看各个厂家的fw的设置，就是sequential写之间的间隔对这个也是有影响的，因为假如sequential写之间间隔时间比较长，那么磁头可能会被reset，所以我们一般认为overlap sequential写是最佳的方案）。

SSD

其实我们上文提到的磁盘准确来讲是HDD，事实上在我们现如今的系统中HDD是最后一层存储，在其和Memory之间还存在另外一种存储介质：SSD。它和HDD不同，不再使用磁头和磁盘来进行存储，它是基于固态电子存储芯片阵列制成的硬盘。简单来说，它有以下优点：

和HDD相比来说，它的random读写的速度都要快很多。一般来说，它的读要比写稍微快一点点。稍后我们来解释这个原因。
Sequential的读写也比HDD速度要快。但是因为HDD的Random 读写比Sequential要差很多，所以单纯比较Sequential的读写速度，SSD提升倍数没有Random读写提升得那么明显，但也有很大的提升。
同步操作有很大的提升。因为HDD只有一个磁头（现在有新的HDD可以支持多个磁头，但是每个磁头也只能访问特定的扇区），所以对于同步操作来说就不能做到真正的同步，说白了还是一个单线程的操作。而SSD则没有这样的限制。

对SSD来说，读操作比较简单，你可以不停地读一个小的单元。但是写操作就比较复杂了，在写之前你必须做一个擦除的操作，而且每次擦除只能是一个block，比如512KB。这个擦除操作还是比较慢的，而且最终会把这个block擦坏了（想象一下，你在一张纸上不停用铅笔写，不停地用橡皮擦，最终这张纸的命运就是被擦破）。所以我们对HDD一般讨论的是I/O，而对SSD则一般研究的是寿命。

提到block的擦除，我们就不得不聊一聊SSD的GC（Garbage Collection），其实也很好理解，就是为了让一些block预先准备好了，SSD会回收一些block。这个时候就会有一个数据搬移的过程，比如把几个block中的少量数据（就是数据量不到一个block，但是占用了一个block）移到同一个block中，然后这几个block就可以空出一些出来。这种搬移的操作，其实也是一个新的写的循环，我们称之为Write amplification。你也可以想象，这里的GC操作是需要reserve一些空间来进行的，比如有一个空的block，我们就可以很容易把几个block中的数据搬运过去，假如空的block越来越少，那么搬运的代价就越大。

这也是为什么我们发现当SSD要写满的情况下，性能就会急剧下降。比如你写110GB文件到160GB的SSD和写到同样的320GB的SSD得到的速度可能会有差别，究其根源还是因为需要等待擦除操作。一般来说直接写到一个空的block只需要几百微秒，但是擦除则可能需要几毫秒的时间。

RAID

RAID全称廉价磁盘冗余阵列（Redundant Arrays of Independent Disk），它有不同级别的设置，我们可以简单看看几个它的常见的级别：

RAID0: 这个级别是最便宜的也是性能最好的RAID设置。因为他其实没有冗余，一般来说用来存储一些你不怎么在意的数据，比如replica或者即将废弃的数据。所以不是所有的RAID都有这个R（Redundant）的，这种情况下，如果磁盘发生了损坏，是没有办法恢复数据的（除非你有别的redundant在别的机器上）
RAID1: RAID的读性能是很好的，同时它会duplicate数据到不同磁盘上，所以这个设置终于有了真正的R的出现。一般来说对于类log系统可以使用这一配置。
RAID5: 这个配置可以保证一个磁盘发生损坏的情况下，数据还可以恢复。从每个单元的存储消耗来看，它是最经济的做法。因为你其实只额外多了一个磁盘就可以达到redundant的效果。它的写的效率其实比较低，因为要把额外的校验位写到磁盘中。所以一般来说它比较适合读比较重的场景。另外这种配置下，性能最大的问题点其实在于磁盘出问题时的恢复。
RAID6：相对RAID5的只能有一个磁盘出问题的场景，RAID6能支持两个磁盘同时出问题。
RAID10：RAID10对数据存储来说是一个不错的选择，它的读写效率都不错。所以和RAID5类似，生产场景中使用得也比较多，它的安全性比较高，但是空间利用率相对比较低。
RAID50: 其实就是一系列RAID5，对大的数据集可以使用。（比如data warehouse等）

简单的比较可以见下表：

最后在简单提一下，RAID中cache其实也是一个比较重要的概念，只是说这个cache和我们常见的benefit读不太一样，它更多地会被用来帮助写。

总结

至此，我们就简单介绍了数据存储的几种常见的硬件HDD,SSD,RAID。理解他们有助于我们在今后的工作中优化数据读写，尤其是性能研究的时候会有很大的帮助。

Post Views: 2,953

分布式系统硬件基础之漫谈存储设备

Cache和读写

SSD

RAID

总结

You may also like...

Leave a Reply Cancel reply

欢迎关注公众号：东哥IT笔记，及时得到文章更新提示。设为星标更佳

最新文章

Recent Posts

Recent Comments

本博客所有文章转载请注明出处！

注册邮箱随时接受最新更新

登录

分类文章

分布式系统硬件基础之漫谈存储设备

Cache和读写

SSD

RAID

总结

You may also like...

分布式系统之怎么都不可靠的网络

深入浅出理解数据的序列化和反序列化

数据库应用之数据分析

Leave a Reply Cancel reply

欢迎关注公众号：东哥IT笔记，及时得到文章更新提示。设为星标更佳

最新文章

Recent Posts

Recent Comments

本博客所有文章转载请注明出处！

注册邮箱随时接受最新更新

登录

分类文章