Paper Recap 1:信息存储的价值 (Economics of Information Storage: The Value in Storing the Long Tail)

我们为什么要发展,就类似我们为什么要活着一样,是一个有点哲学的问题。存储技术也是在不断发展的,这种发展是必要的吗,会不断带来价值吗?2019年5月,在Santa Clara举行的MSST会议中,有一个paper给我留下特别深的印象。论文的作者并不是去研究如何优化存储系统使其“更高更快更强”,而是去思考数据存储给人们带来的底层价值和存储技术各方面发展的必要性或合理性。今天就介绍这篇的论文 :Economics of Information Storage: The Value in Storing the Long Tail [1],论文的作者是UCSC的James P Hughes。

存储设备发展史

当今,存储设备多样化,不同的设备有不同的价格和性能,不同的存储设备或者不同存储设备间的组合,可以构成一个平滑的“存储等级”(如下图),设备访问延迟越快,通常存储空间越小。

论文第2 (CLASSES OF STORAGE DEVICES)、 3节 (HISTORICAL PERFORMANCE OF HARD DISK DRIVES) 中,作者首先以历史最长的HDD举例,说明某一“存储等级”的设备,在历史中是如何演进的。总的来说,1956年代到2005年,HDD有3个发展特点值得注意:

  1. 密度增加、单位存储空间成本降低;

  2. 性能没有相应的大幅提升,延迟从38.4ms降低到15ms;

  3. HDD设备的累计生产量越来越多(2013年,Seagate宣布他们生产了第20亿个HDD)。

第1点和第3点事实说明,存储设备的发展符合杰文斯悖论[2]:随着一种资源的效率(易用性)增加,人们需求和资源的消耗量也会随之增加;第2点事实说明,即使HDD性能没有大幅提升,新生产的HDD存储空间还是被不断地消费了。这些事实也符合作者后文所建立的长尾(long tail)存储经济模型。

存储系统及其价值

论文第4 (STORAGE SYSTEMS)、5 (COST OF INFORMATION CURATION)节中,作者类比物理储藏系统的功能,为计算机存储系统的功能做出了定义,并对各个功能的运行成本进行了分析。作者把计算机存储系统类比为博物馆,把存储系统主要由三部分功能构成:信息收集(capture)、信息存储(store)和信息访问(access)。

作者对三部分的功能进行一些具体描述,但总的观点是,三种功能的性能与所存储数据的价值没有直接关系。比如:

  1. 数据收集的速度可能和存储系统的性能有关,但是数据存满之后,存储系统所存有数据的总价值就维持不变了。

  2. 数据可以存到不同的存储系统中,提供更高性能或可靠性的系统可能会让数据存储的成本变高,但不会让数据本身产生更大的价值。

对存储价值增长的建模

论文第6 (VALUE OF INFORMATION) 节中,作者为信息的价值建模。首先,类比电影票房,我们可以对某个存储系统中所存数据的价值给出一个客观评价。作者认为数据的访问频次符合zipf分布,即少部分数据被更多次访问:

对于数据的主观价值,作者认为,客观价值是主观价值的下限,因为客观价值一般就是维护存储系统所需要的客观费用,而数据的主观价值可能高出很多,并与客观价值的高低并不相关。

随后,作者基于zipf访问分布建模(模型公式详见paper)并指出,若总存储量增加50%,由于长尾效应,新的数据存储增量属于长尾区域,因此访问量只会增加3%,数据集合的总价值也只会增加3%。这也印证了第3节所提到的HDD设备发展的事实:在新HDD的性能没有大幅的情况下,新生产的大量HDD存储空间还是不断被占满。

读后感

虽然作者的研究方向我认为特别有意义,但感觉实际的模型会复杂很多。比如,虽然直觉上感觉合理,但真实世界中数据的价值是否符合zipf分布很难说明;若考虑以数据存储盈利的公司,即使是冷数据存储,其数据访问的性能和数据存储的可靠性,依然是存储公司在市场竞争的关键;利用信息对不同个体的主观价值差异,一些公司可以从中赚取差价;有些公司需要用“头部”数据而非“长尾”盈利,就要不断优化存储系统,加速“头部”数据的访问。当然,这点作者在文中也有提到:

Reality is more complex, but the rule:

The increase in relative value and utilization of a storage system as the capacity increases is the ratio of the logs of the number of stored objects.

也就是说,本文主要关注的是冷数据存储和慢速存储设备成本的降低,核心观点是增量的数据存储产生的价值大都落在价值曲线的长尾部分,长尾部分比头部数据有更小的价值,更低的性能需求。作者对处于“长尾”的冷存储需求也是看好的,只要冷存储的单位存储成本不断降低,即使性能发展很慢,人们也会将数据源源不断地存进去。

总的来说,这篇论文是很有启发意义的,它让我看到,除了埋头优化存储性能、提升存储可靠性之外,还有人在思考我们做存储研究的底层价值和意义。这种论文在一个偏技术的学术会议上是鲜有的,但我觉得这种研究对于一个领域的发展是有积极意义的,可以引导人们对一个领域发展自身进行审视。


[1] Hughes, James P. "Economics of information storage: The value in storing the long tail." 2019 35th Symposium on Mass Storage Systems and Technologies (MSST). IEEE, 2019.

[2] Jevons paradox, https://en.wikipedia.org/wiki/Jevons_paradox

Leave a Reply

Your email address will not be published. Required fields are marked *