弗朗西斯卡?穆西亚尼(法国国家科学研究中心助理研究教授,互联网与社会中心副主任,主要研究互联网治理,特别是作为治理工具的基础设施)
要想找到答案,可能需要明确这里的“我们”是谁,或者是什么。
如果“我们”指的是地球上的人口,那“我们”很可能不会耗尽数字存储空间。到目前为止的历史表明,随着存储数据量的增加(特别是过去十年中的数据量增长非常惊人),存储系统的容量和效率也得到了提高和优化。在工程师和技术操作人员中似乎有一个总体共识,即对于实际应用而言,由于许多技术和经济因素,在可预见的未来并不会耗尽存储空间(我们现在就已经在讨论原子和量子计算了)。
如果这个“我们”指的是某个特定的 IT 公司及其用户群,那答案就有点微妙了。寻找和分配存储空间是一个非常具体和现实的基础设施问题,大型科技公司比其他公司更有可能通过“蛮力”来增加其存储空间的数量和质量。这最终 —— 事实上可能已经如此 —— 将加剧数字生态系统中的不平等。然而,摩尔定律真的成立吗?如果是的话,要等到什么时候?甚至网络巨头有时也需要做出一些选择。
去中心化的存储解决方案怎么样?在一个存储能力看似极大丰富的时代中,去中心化是否可以引导我们走上节制和可持续性的道路?与集中式存储相比,区块链有很多优点,但从节制的角度来看,这似乎并不是一条可取之路,因为其本身就具有内置的冗余特性,即“区块链膨胀”。不过,一些更“老式”的点对点(利用空闲存储空间和 CPU 容量)解决方案已经出现,例如 Wuala(不幸的是存在时间很短暂),其中一些有趣的实验试图避免“蛮力”扩展,并将建立全新的大规模数据中心作为规划未来存储的唯一方式。
最后,一个比“找到存储数据的地方”更有实际意义的问题可能是“如何找到你想要的数据”。随着数据量的增加和存储能力的增加 —— 这是个必然的趋势 —— 我们用来处理和检索有用信息的工具能否保持同步,以便在我们需要的时候派上用场?
约翰?D?维拉森诺(美国加州大学洛杉矶分校电子与计算机工程教授)
简短的回答是不会。当然,我并不是说磁盘、终端设备或云存储帐户永远不会被填满。我的意思是,对于大多数应用程序而言,存储成本已经不再是一个障碍。如今,很少有人会说“这些数据很重要,但我们不能保留它们,因为那需要花很多钱在存储上”。
十年前,我通过布鲁金斯学会发表了一篇论文,研究了数十年来存储成本呈指数级下降的趋势所带来的影响。论文中的许多观点在今天仍然适用 —— 考虑到持续的成本降低,可能还更适用。存储变得如此廉价的事实带来了很多积极的结果,比如存储大量照片的能力。但它在隐私和威权政府的影响力方面也会带来负面效应,威权政府可以利用监控数据创建庞大的数据库。
如今,数据面临的最大挑战不是如何存储数据,而是数据本身的质量问题。有大量的数据不够完整,带有偏见,也有的很嘈杂,或侵犯隐私,或是有其他问题。解决这些缺陷需要作为今后几年的研究重点。
伦纳德?克兰罗克(加州大学洛杉矶分校计算机科学杰出教授,他提出了数据包网络的数学理论,数据包网络是互联网的基础技术)
我们是否会耗尽数字存储空间?最有可能的答案是不会!
未来对数据存储的需求是压倒性的。我们生成数据的速度远快于使用现有存储技术来存储数据的速度(据估计,到 2025 年,我们每年生成的字节数将超过可观测宇宙中恒星的数量)。显然,我们需要极大地改变存储数据的方式。
然而,就在十年前甚至几十年前,我们就遇见过这样的挑战,也没有任何理由怀疑我们能够继续保持这样的能力。过去几十年来,基础技术的发展不断带给我们惊喜,从处理速度到通信带宽,以及我们这里提到的数字存储,皆是如此。科学家和工程师们通过发挥聪明才智和创造力,实现了这一场持续的魔术表演。因此,尽管数据存储的需求增长巨大,但不要低估新的解决方案出现的潜力。
我们已经看到,许多技术为解决未来的数据存储需求带来了希望,但每一项技术也都面临着有待解决的挑战。除此之外,我们还可以期待即将出现的技术和解决方案,先进的数据压缩技术也可能带来意想不到的收获。
一项有趣的技术是使用单分子磁铁。当这些由新材料(一种过渡金属)制成的磁铁被磁场磁化后,如果把磁场移除,它们仍能保持磁化状态。过渡金属具有可切换的磁性,如自旋交叉(将一个或多个电子的自旋从上变为下,或反过来),并能在一段时间内保持这种变化。这意味着每个分子可以包含 1 比特的信息,从而提供巨大的存储密度。当然,想要将这种巨大的存储能力(如每平方英寸几百兆兆字节)变为现实,研究人员还需要克服很多障碍,包括:制造分子所需的过冷条件;存储时间过短,目前还只能以秒计;此外,还有相邻磁体互斥的问题。
另一种技术是使用飞秒激光写入,将数百兆兆字节的数据蚀刻到纳米结构的石英玻璃盘上。这些盘可以保存数千年,甚至可能存在数十亿年。尽管目前该技术的读写速度很慢,但不需要过冷条件,而且石英玻璃盘在非常高的温度下依然可以安然无虞。
大自然在很久以前就提供了一种可能满足我们未来数据存储需求的方案 ——DNA 存储。自然母亲知道如何以 DNA 的形式安全地存储大量信息,而 DNA 正是生命的基石。现在,一些研究人员(生物学家、化学家和信息技术专家)正在尝试将数据(如文字、图像、音乐)通过 DNA 碱基对 —— 由腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)4 种碱基组成 —— 编码成合成聚合物。DNA 的可用存储密度远远大于任何电子设备;事实上,1 克 DNA 的数据密度可达 1 泽字节(zettabyte,即 10^21 字节)。要理解如此巨大的数据密度,我们可以想象将人类记录的所有数据存储到一个装满 DNA 的容器中,其体积只需要几个鞋盒大小,而驱动这个 DNA 数据中心所需的能量将非常小。此外,DNA 存储可以保存数千年,同时可以有效地防御黑客攻击。因此,合成聚合物 DNA 的优点是:容量大;体积非常小;持久耐用;低能量需求;无需过冷条件;以及强大的安全性。伴随这些优势的是一些很难克服的障碍,我们发现,用化学方法写或读 DNA 的成本非常昂贵,而且这些操作的速度都太慢了。
综上所述,我们确实有了一些令人兴奋的候选方案,可以解决未来的数据存储需求问题。而且,随着我们一步步解决未来的挑战,目前尚未发现的解决方案可能就会浮出水面。
肖恩?格林斯坦(美国哈佛商学院工商管理教授、哈佛商学院数字计划联席主席)
世界怎么会耗尽存储空间呢?这似乎是不可能的。一个超大规模的数据中心包含几十万台服务器,其存储空间足以容纳整个维基百科 —— 人类有史以来第三大的文字收藏(仅次于美国国会图书馆和大英图书馆)。这表明存储空间是取之不尽的,任何耗尽存储空间的可能性都遥不可及,远远超出了社会永远无法触及的地平线。
但也不完全如此。对数据的新用途不断出现,而这些需求会促使人们更多地利用现有的存储资源。也许最有趣的问题是需求是否会停止增长。我认为至少在未来几十年不会,有两个基本原因。首先,这是互联网的边际要求的;其次,人类的创造力也远未耗尽,会不断推出富有想象力的新应用。
先来说说互联网的边际。任何瓶颈的存在都会将无限的资源变成有限的资源,而每个系统至少都包含一个瓶颈。互联网上有很多这样的瓶颈。一个网络冲浪者搭上了曼哈顿第五大道下高速行驶的地铁,同时想要毫不延迟地发表一篇文章。要做到这一点,就需要所有的组成部分 —— 高速线路、多个天线、缓存内容和系统边际的更多存储空间 —— 都以最好的状态工作。随着视频做得越来越好、越来越大,其内容的数据强度也在增加,因此到达的速度会变慢,性能也会下降。维基百科需要你的捐助,才能使其运营不至于成为瓶颈。不太明显的一点是,数据的运营商想要你的业务,而这份收入中有一部分将用于系统升级。当然,还有边际的前沿存储,存在于你的智能手机、服务器和内容传递网络中。换句话说,现代互联网包含了诱导使用更多存储空间的市场机制。
随着存储成本的降低,人类找到了越来越聪明的方法来对数据资源加以利用。去年的前沿到了明年,可能就会变成日常。曾经有一段时间,人们对发送婴儿和猫的视频,或分享更多的时尚和八卦感到很新奇。未来几年后,自动驾驶汽车的系统或许就能处理这一切。没有人会相信这种独创性会止步不前。去年,一组科学家发布了一个黑洞周围碎片的可视化图像。研究人员收集的数据如此之多,以至于无法通过互联网传输。他们不得不把数据分成许多包裹,并通过邮寄的方式将磁盘邮寄出去。科学家们对黑洞的观察还远没有到达尽头,但更重要的是,这个先例将激励某些聪明的发明家,在地球上寻找能够超越视觉表现界限的东西;当他或她获得这样的图像时,我们都会投以敬畏的目光。
克里斯蒂安?福克斯 [英国威斯敏斯特大学媒体与传播研究教授,《社交媒体:一个批判性的介绍》(Social Media: A Critical Introduction)一书作者]
我们并不是生活在一个“数据和数字社会”,而是生活在大数据资本主义和数字资本主义之下。在这种社会形态中,企业和政治权力的目标是尽可能多地存储关于每个人的数据,以便从人们的生活中获得利益,并将我们的公民身份证券化。如果数据和数字资本主义以一种无限的方式持续下去,并耗尽计算所需的不可再生资源,那么在某个时候,构建计算和存储设备所需的物理资源就可能耗尽。但摩尔定律也降低了数据存储的成本,降低了对量子计算等新计算形式的探索,这缓解了这些限制,并可能导致克服了存储限制的新数据形式和数字资本主义。
然而,关键并不在于技术问题,而是道德和政治问题:我们真的想要将生活的几乎所有方面存储起来吗?如果一个社会将我们对人类生活的思想和活动越来越多地货币化和证券化,那将会有什么样的后果和影响?最大的危险是,数字资本主义将变成数字独裁和数字法西斯主义。因此,解决方案是我们将存储的数据最小化到运行计算机和社会所必需的最小值。为了避免数字法西斯主义的兴起,我们需要数字民主而不是数字资本主义。
埃里克?奥斯特威尔(乔治梅森大学计算机科学助理教授)
我认为,以一种不可能被捕获、存储和 / 或保存所有数据的速率产生数据当然是有可能的,例如欧洲核子研究中心的大型强子对撞机在进行实验时所丢失的所有数据。我认为我们应该关心的是,存储那些可以用来帮助我们了解相关意义(对于我们的生活,对于研究,对于商业利益,等等)的数据。
我之所以这样区分,是因为我认为我们实际上是在存储让我们获得意义的数据,并且经常存储处理过的数据(对数据进行汇总或陈述,或者压缩数据,以及使数据具有更多语义,等等)。这往往意味着我们要猜测我们需要和 / 或想要的哪一部分的数据。
当我们努力增加存储容量,并记录(可能)更加精细的数据时,我们需要认识到,我们的数字足迹可能会成为一个不利因素。作为一名从事数据分析的网络安全研究者,我越来越清楚地发现,我们在网上留下的足迹是不可磨灭的,是不会被时间冲走的。更重要的是,我们的社区数据分析技术(大数据、ML/AI 等)正变得更加有洞察力,其数据集也变得更加互联。我想把这个问题反过来问:我们是否会达到这样一个地步,即人们希望数字存储空间耗尽,这样他们的数字足迹就会随着年龄的增长而消失?问题在于,我们已经在网上分享了几十年的信息,潘多拉的盒子很可能早已打开。
凯文?柯伦(英国阿尔斯特大学网络安全教授兼法律创新中心联席执行主任)
所有的数字数据都存储在硬盘上。和其他技术一样,硬盘容量已经取得了令人难以置信的进步。主要的变化是从旋转硬盘驱动器发展为没有移动部件的固态硬盘,磁盘容量也大幅增加。有趣的是,我们第一次看到因芯片短缺而导致的产品延迟生产,部分是由于新冠疫情。芯片也是硬盘驱动器的组成部分,如果未来出现这种硬盘驱动器核心组件的短缺,那数字存储空间就可能会耗尽。不过,一个方法是回收现有的硬盘驱动器,并基本上覆盖旧的文件。这可能会缓解一些问题,但当然,互联网巨头可能很难收回足够的存储空间。届时,由于数字存储价格的大幅上涨,将只有富人才能存储他们的数据;经济规律也可能在这方面发挥很大作用。