Tag: NVM

Persistent Memory (pmem, PM) 是很特殊的设备，它既是内存接口，又有非易失的存储特性。因此：作为内存，它即面临内存所特有的cache coherence等问题；作为存储，它也面临外存系统所特有的崩溃一致性、持久化等问题。因此，构建一个基于PM的存储系统也所要考虑的问题是比较多的。近年来，学术界大量文章都在关注PM存储系统或者PM编程模型，比如PM感知文件系统、PM KV存储、PM事务框架等。本文分为持久化、原子性和崩溃一致性三小节，讨论了PM系统编程的一些必须注意的点。文章整体基于我之前所写调研综述的相关部分，并进行了精简和修改。本文参考了很多文章并加入了自己的理解，若有问题，恳请指正。 1. 持久化 (Durability) 然而，对PM的store操作后并不能保证数据肯定存储到PM上，这是因为CPU和PM之间还有几层cache，要保证持久化，我们需要用flush / fence相关的指令。当使用PM时，CPU对内存的store操作可能会暂存在硬件管理的cache或者write buffer中，若用户不强制刷cacheline到内存，无法保证store操作的数据何时写到内存中。在原来的情况下，内存为掉电易失的DRAM，所以刷或者不刷cacheline只可能牵扯到系统的性能，而不会影响系统的正确性；但是在使用PM时，由于持久化的存储是我们的目标之一，我们就要额外注重数据持久化的时机，以进行更精确的控制。在使用块设备时，类似的问题同样存在。写操作一般会被缓存到系统的page cache中，因此需要用户调用fsync等函数来进行磁盘同步，让数据真正持久化地存储到磁盘上。解决PM cache数据写回的问题和块设备同步磁盘问题的思路是类似的，只不过方法不同。如下图，在x86平台中，当数据离开CPU cache进入PM或者进入电容保护的持久区(虚线框)，便意味着数据已经被持久化，因此只要使用将数据刷出cache并写回PM的指令，就可以保证相应数据持久化存储到PM了。由于一般在使用PM时，是通过内存映射的方式进行的，所以使用操作系统实现的msync函数是可行的(msync和fsync具有相同的语义)。除此之外，用户也可以直接调用x86平台的cache刷新指令进行数据同步。指令说明 CLFLUSH 几乎所有CPU都支持，但没有任何并发性，串行地执行 CLFLUSHOPT + SFENCE 比CLFLUSH新，但是不是串行执行的，因此需要SFENCE CLWB + SFENCE 相对CLFLUSHOPT，可以在刷入PM后仍然让cache保持有效，局部性较好的数据使用此命令可以提升性能 NT stores + SFENCE 即non-temporal store，直接跳过cache的store命令，因此不需要刷新cache WBINVD 只能在内核模式用，将所有CPU的cache 刷入PM，一般不用，太影响性能上表列出了其他的cache刷新指令，它们的行为各有不同，需要依据场景进行选择。除表中最后一项外，其他指令都是可以在用户空间直接使用的。在用户空间调用cacheline刷新指令的好处是不用切换到内核态，且用户能更清楚地知道哪块数据需要马上写回PM，所以用户的控制更精细，刷新指令的性能也要好于msync。但是，一些PM感知文件系统也需要msync的控制权，因为数据刷入PM若需要造成PM感知文件系统的metadata改变，那么用户空间使用cacheline刷新指令将导致PM感知文件系统metadata的不一致。所以用户程序应该仅在确保文件系统安全的情况下才使用cacheline刷新指令。 2. 原子性 (Atomic Updating) 这里的原子性指的是原子更新粒度(原子操作)或并发时的原子可见性(隔离性)，而非ACID事务的原子性。虽然ACID事务的原子性也是需要借助原子操作实现，这里的原子性更类似与ACID中的I(isolation, 隔离性)。 PM是内存接口，其原子性操作和内存类似，因此其访问原子性也和内存一样，在无锁保护的情况下， x86 平台上支持8、16 或 64 […]

什么是PM，什么是SCM，和NVM什么关系？

February 18, 2019 by JayceeZ·0 Comments

存储设备/接口/传输协议总结

September 26, 2017 by JayceeZ·0 Comments

手动搜集资料，不敢保证无误，如有错误，恳请指正。 1. 设备最新的3D XPoint存储器比DRAM慢10倍，便宜2倍；比NAND FLASH快1000倍，贵5倍左右，性能比其他PCIe和NVMe的SSD快10倍左右。并且它是一种NVM。下表摘自[2] Type Volatile? Writeable? Erase Size Max Erase Cycles Cost (per Byte) Speed SRAM Yes Yes Byte Unlimited Expensive Fast DRAM Yes Yes Byte Unlimited Moderate Moderate Masked ROM No No n/a n/a Inexpensive Fast PROM No Once, with a device programmer n/a n/a Moderate Fast EPROM No Yes, […]

全国信息存储年会参会总结

September 24, 2017 by JayceeZ·0 Comments

时隔近3个月，我本科毕业后第一次回到了西安，见到了在本校读研的舍友们，不过主要还是来参加信息存储年会的。会议有特邀报告、青年学者报告和优秀论文交流报告，分别是大神级的学者、大神级的青年学者和大神级的博士生进行报告，听了这些报告真的感觉到自己的差距有多么大，同时感觉不虚此行。这是一篇我所听报告的部分内容的总结，语言从我个人理解的角度出发，信息可能不全或不准确，如有问题，欢迎讨论和指正。阻变存储器性能优化方法的研究冯丹教授讲的题目是“ 阻变存储器性能优化方法的研究 ”。首先RRAM(阻变式存储，Resistive Random Access Memory，ReRAM)是一种非易失性存储器(NVM)，尺寸单元小，有发展潜力。冯丹教授这次的报告是比较偏硬件，但还是有很多启发。背景： DRAM在技术上要降低能耗、提升容量越来越难，而且DRAM技术提高的速度比CPU慢，另外技术工艺达到40nm之后很难再提高。所以ReRAM代替DRAM是一种选择。 RRAM的存在的问题： 1. reset延迟和能耗代价均高于set；2. TLC的延迟大于SLC；3. 存在IR-drop的问题，离驱动电源越近，延迟越低。几项工作： 1. 针对上述第一点问题，提出了可以将对角线上的set和reset并行，这样降低了总延迟时间。 2. 针对上述第二点问题，使用了一种“压缩率感知”的方法，利用MLC/TLC中中间几种状态慢于两边状态的特点，将中间的几个状态合并，根据压缩的工作负载的压缩率，来进行决策，重新编码存储（比如把原来MLC的4中状态中的第2、3两种合为一个状态，这样就变成了3中状态，减小了延迟和能耗）。3. 针对上边的第三点问题，用双端驱动代替单端驱动，这样处于接近电源驱动的区域就增多了，并且可以根据快慢在驱动层中区分硬件上的快慢区域，来合理使用。半层次化的语义存储体系结构华中科大华宇教授的报告，讲了一种” 半层次化的语义存储体系结构 “，希望将原来的存储结构（比如文件系统的目录结构）转为一种多标签的索引结构。背景：存储有5个趋势，分别是更大规模、智能化、一体化（计算和存储更近）、长期化和边缘化（雾计算，临近计算等）。问题：存储的层次化越来越明显，同时新兴的存储期间很多(PCM、SSD、DRAM、3D Xpoint……)；NVM能缓解存储的压力，但是由于寿命等问题无法从根本上解决问题；对于文件系统来说，查找树不是太高就是太胖；locality的设计思想是用稀缺资源存储最热的数据，但目前的大趋势是locality正在减小；cache的适应能力弱，比如需要较强时间的预热，代价很高。解决思路：用语义存储带起当前的存储模式，例如：文件系统中使用扁平化的树结构，一个文件同时贴上(识别出)多种标签；有了这种模式，非精确dedulication中可以在关联数据间进行，提升效率；近似图像语义间的dedupe；data cube是对于高维查找提前做出计算的一种方法，如果基于语义，可以缩小计算范围。数据中心驱动下KV系统的设计和实现德州大学阿灵顿分校的Song Jiang教授主要讲了KV系统的缓存问题。问题：由于在分布式存储中，所有的访问都要经过metadata server(MDS)，所以MDS是一个瓶颈，应用Key-Value(KV)系统就是取消了MDS的一种解决方案。KV系统是需要缓存的，怎么更高效的利用有限的缓存空间是一个问题。思路：可以使用更好的缓存数据替换算法，但是并没有效果太好的；可以提升内存容量，但是这会直接导致成本上升；可以利用压缩提升缓存利用率，但是解压和压缩也会导致很大的性能下降。方法：对实际访问trace数据分析发现，随着缓存空间的增长，缓存命中率上升到80%是很快的，但从80%上升到90%则需要更多的内存，基于这点，将cache分级，最热的数据不进行压缩，对并非太热的数据进行压缩，这就很好的平衡了压缩解压缩的延迟和缓存的利用率问题。对于这种方法，还有一个解释，就是对cache命中，即使要进行解压缩操作，时间也远远小于访问存储服务器进行磁盘访问，这样，即使缓存利用率提升了5%，也可能带来很大的性能提升效果。Song教授解释的意思是，由于磁盘访问的速度特别慢，在命中率从90%提升到95%的情况下，更应该看到的是未命中率降低了一半(10%–>5%)，而不是命中率提升了很少（90%->95%）其他清华的陆游游博士介绍了NVM+RDMA的分布式存储方案，有了RDMA，CPU传送所有数据的等待时间减小到传送存储地址的时间。华科博士生左鹏飞提出了一种基于位置分享的解决哈希冲突的策略，用于NVM系统。上海交大的博士生董明凯介绍了他发表在ATC 17上的文章Soft Updates Made Simple and […]

JciX ~

Jc's Blog

Tag: NVM

DAX内核文档(翻译)

NVDIMM内核文档(翻译)

DAX文件系统大页映射性能测试方法

Persistent Memory 存储系统编程模型

什么是PM，什么是SCM，和NVM什么关系？

存储设备/接口/传输协议总结

全国信息存储年会参会总结