点击上方蓝字关注“尹哥聊基因”
最近微信改版,容易找不到尹哥的文章,大家记得把尹哥设为星标⭐️ 哦~
在数字经济的浪潮下,人工智能、万物互联和数字健康等技术发展一日千里,不仅推动数字算力节节攀升,而且海量数据和存储也呈现出爆炸式增长。数据不仅已经成为了新的生产要素,并且深刻改变着社会生产生活的方方面面。
数据存储作为算力配套和实现数据价值的重要一环,处于技术制高的关键性位置。
我国近年来,无论是政策扶持还是研究重视程度,包括数据存储等算力相关的上下游配套技术都已经成为了社会投入的重点。但是,美、欧、日、韩等国的数据存储产业起步早,并通过各种政策,目前还巩固着在数据存储领域的优势地位。我国现在仍然需要进口大量数据存储。
据粗略估算,去年我国向国外购买数据存储的钱够造19艘航母,面对如此巨大的进口投入,我们不禁要问,存储国产化的路在何方?
01
即使全球一年已经新增2万亿GB存储,但是面对庞大的需求,这些新增存储也只是杯水车薪,大量数据用完即弃。同期对比,我国一年进口存储花费达到5700亿
以健康领域为例,按照国际数据公司(IDC)发布的数据,全球医疗健康领域新增数据量每年增长约30%,在基因测序、远程诊断、医疗成像、数字健康档案等技术推动下,2021年新产生的数据达到4ZB(4万亿GB)[1],相当于平均每人一年产生医疗健康数据500GB。但是,当年全球出货的全部存储量是2ZB(2万亿GB)[2,3,4,5],只有新产生医疗健康数据量的一半。
在当今世界,大健康领域也只是数字领域当中的一块。如果考虑其他方面的数据存储需求,合并需求则全部的新增数据量可能会达到80ZB[6]
我们怎么去理解这件事情?相当于2ZB的存储出货量只能用来存储最必需的内容,我们每年有超过95%的新增数据只能是采用“用完即弃”的策略保存,因此能够保存下来的数据不足5%(表一)。按照IEEE预测,到2025年,能保存下来的数据比例还将进一步下降到2%左右[8]
面对98%数据用完即弃的现状,以及面向未来,随着人工智能(AI)、数字健康等技术推动下,数据一定会爆炸增长。那么,我们到底还有没有能力保存下更多的数据呢?
如果只考虑我们中国的技术水平和产业情况,从存储国产化替代的角度上来考虑缓解或解决问题,我们可以把存储相关的部分元器件、软硬件技术通过国产化来降低成本,让我们来看看相关数据,再看看这是否可行。
按照海关统计数据,2023年我们进口存储金额约5700亿元人民币,人均407元[7],这是一个什么规模的数字?相当于我们每一年花掉的向国外购买存储的钱能造19艘航母。如果在现有技术水平下,我们能够将成本降低50%,对于保存2%甚至将来更低比例数据问题,如果还有别的出路,就只剩自力更生国产替代了
自力更生,做国产化替代有两个好处。第一,是利用国内巨大的市场和相对较低的劳动力成本来直接降低存储成本。第二,存储技术也是重要的半导体技术,只有能够追上国际先进水平,才有可能谈将来如何自力更生。
02
数据存储行业现状,固态硬盘一打三,一家欢喜三家愁
我们先从几个常识说起。
1.对于主流存储,一般性能越高,价格越贵,性能越低,价格越便宜。
2.根据存储的读写速度等指标,形成一个存储硬件的分类。目前不同存储类型的性能和价格之间已经形成了相对稳定的关系(图一)。缓存(L1~L3)和内存(DRAM)作为计算过程的临时加速使用,主要用于服务CPU、GPU,断电数据丢失,不用于数据持久存储;固态硬盘(SSD)、磁盘(HDD)、磁带(Tape)和蓝光(BD)是用于保存数据的主要数据存储类型:
●固态硬盘属于电存储,按照不同材质,提供了较强的灵活性,以及较高的读写速度上限。对于高端存储来说,其性能和价格都比较高,用于保存对性能有要求或者需要经常访问的热数据;
●磁盘属于磁存储,性能和价格都低一些,用于保存需要在线访问且容量要求高,但性能要求低一些的温数据。同时,磁盘相对于固态硬盘,其保存期限较长,而相对于磁带存储,其查找内容的速度较快,综合起来,磁盘还是当前近线存储的最佳选择;
●磁带属于磁存储,性能和价格低,用于保存离线备份数据。磁带的核心问题是其机械结构决定了它只适合连续的读写操作,随机读写和查找很慢;
●蓝光属于光存储,性能和价格低,用于保存离线备份数据。使用场景与磁带接近,但价格比磁带偏高一些。
△ 图一:主流存储价格和性能关系[8],缓存(L1~L3)、内存(DRAM)、固态硬盘(SSD)、磁盘(HDD)、磁带(Tape)和蓝光(BD)
按照IDC发布历年存储容量发货数据[5],主要提供容量的数据存储类型是固态硬盘、 磁盘、磁带和蓝光四种,其中固态硬盘从2010年有统计以来,占总存储容量比例已经连续十几年上升,预计到2025年将达到40%。磁盘、磁带和蓝光容量占比在绝大部分年份都是不断下降,蓝光占比已经低于5%,处在边缘化的位置。按照这个趋势,磁带未来几年占容量比例很可能也会跌破5%,逐渐进入边缘化。磁盘虽然目前容量比例还超过一半,但按照这个下降趋势,未来几年很可能会跌破50%(图二),同时挤占现在磁带的位置。
△ 图二:不同存储类型出货容量统计[5],内存(DRAM)、蓝光(BD)、磁带(Tape)、固态硬盘(SSD)和磁盘(HDD)
虽然就磁盘和磁带的出货情况来分析,在图二中的总容量占比是在缓慢下降,但是如果不用容量而按照数量单位来评估,比如按照磁盘数量和磁带盒数量计算(图三、图四),2022年磁盘和磁带出货数量比峰值年份跌幅都已经达到70%,而且几乎连续下跌十几年。蓝光的情况分析起来较难,因为缺乏统计数据。虽然没有找到单独出货数量统计,但从存储总占比边缘化的情况来判断,应该也是在数量上连续下降(图二)。
△ 图三:磁盘历年出货硬盘数量统计[9]
△ 图四:磁带历年出货数量统计[10]
如果从这几个主要数据存储类型的参与厂商来看参与的数量(表二),我们假设竞争充分与否和参与的厂商数量相关。那么固态硬盘市场在需求、供给和技术迭代都处在了持续快速发展阶段,从存储硬盘供应商和上游各类器件商在投资、研发和生产都很活跃。磁盘、磁带和蓝光随着市场萎缩,行业里面的供应商已经越来越少,硬盘只剩三家。磁带的供应商虽然有三家,但核心的磁头技术因为专利问题,由IBM在独家经营,在多年间垄断了整个市场;蓝光也只有索尼和松下两家主要经营,国内厂商虽然能够生产光盘,但光驱的核心部件还是依赖索尼和松下这两大供应商。
03
在2030存储技术发展路线图中,可以看出西方大厂都在拼命挤牙膏升级,那么国产技术能否追上国际先进技术,将来能否掀桌子硬刚呢?
对于未来一段时间的技术路线,各个存储厂商都使出了挤牙膏的劲。之所以这么说,就是因为核心技术并没有发生本质的改变,大家更多的是靠制成工艺和流水线的变化而提升性能指标
●固态硬盘:
三星:计划在2024年发布280层Gen9代基础上,用6年时间完成5代技术迭代,到2030年实现Gen14的1000层发布,存储密度预计提升5倍(图五)。如果三星的计划真能实现,那么到时,10T的固态硬盘可能就成为标配,而20T的固态硬盘也开始商用了。
△ 图五:三星2023年固态硬盘1000层路线图[11]
长江存储:坦率地说,我们现在受限于各种上游的卡脖子问题,虽然长江存储已经不断地在提升自己的技术水平,但眼下它遇到的是建厂提升产能和得到建厂回报之间不匹配的困境。
2021年,长江的产能是10万片/月,只有三星的20%左右。按照长江存储的计划,他们每2年就将产能扩大一倍,到2025年实现建立3大工厂,提供产能30万片/月的能力。即便如此,它的产能也只是三星产能的50%。建厂太烧钱,国内的需求不足。
希望长江存储能够坚持下去,无论是政府还是国人,用实际行动去支持它。如果长江存储能够解决建厂和收入的问题,就有希望2030年前产能超过三星!至于技术水平的提升,这些都是要在有足够的现场回报的前提下,才能持续不断。
●磁盘:
希捷:为了避开固态硬盘的优势战场,机械硬盘供应商现在主要针对数据中心大容量低能耗场景,提供长期存储解决方案。由于磁盘在吞吐量,访问延时,甚至体积重量上都跟固态硬盘差太多,只能靠“便宜又大份”尽量延缓市场萎缩的脚步。
我们必须得承认的是,机械硬盘的单碟存储容量也仍然在不断地增长。即使机械硬盘容量可以越做越大,按照目前的技术预测,2026年有望达到50T,2030年达到120T(图六、图七),但不可忽略的问题是介质的存储密度。
因为有机械结构的存在,机械硬盘的存储密度被固态硬盘拉开近1个数量级,无论是考虑便携性的移动设备,还是考虑寸土寸金的数据中心可以提升存储密度,固态硬盘都有广泛的应用空间,而机械硬盘的使用范围预计会越来越窄
△ 图六:希捷磁盘容量路线[12]
△ 图七:希捷磁盘2030年存储密度路线[12]
华为:在本月初,突然宣布颠覆性磁电存储研发成功的消息。磁电存储比磁带便宜20%,比磁盘省电90%,这意味着它会很有卖点。通过跟华为这边沟通,以及从之前作为其磁电存储技术合作方,同有科技处确认。相关技术刚刚出来,预计产品将在2024年的下半年出来并开始预售。形成整机售卖,则还要到2025年的上半年。让我们拭目以待,等一年时间到华为磁电存储产品上市再一睹芳容。
●磁带:目前的第9代为容量18T的磁带,按照过去2~3年升级一代,每盘容量加倍的节奏,预计到2030年时将会升级到12或13代,那时单盘磁带容量将达到144~288T(图八),跟磁盘容量升级节奏差不多。但是,现在磁带容量占比逐渐跌破5%水平情况下(图二),容量也不足以帮助磁带占领市场。
实际上由于磁带查找数据所用的单一方式就是绕卷磁带,这种查找数据的方式效率极低。增加了磁带的读写速度,也不会对绕带这种机制作出根本性改变。因此磁带的最大优势其实就是30年的质保和下电存储带来的成本优势
一些数据保存期较长的行业,为了维持其数据保存的低成本,还是会继续使用磁带。只要在下电保存的过程当中有数据解冻的动作,哪怕频率再低,只要这些数据在磁带当中是插花存在的。比如说有10个数据分散在了20本磁带中,你想把这些数据重新找出来,放到磁盘里取用,那磁带就是非常不方便的存储介质,因此磁带只能维持越来越小的业务基本盘。
△ 图八:磁带版本路线图[13]
●光存:
蓝光:按照技术路线的规划,蓝光存储原来有单盘300GB、500GB、1TB三个阶段的产品里程碑,但索尼在2019年发布了第三代600GB光盘后就没有然后了。因为光盘存储所遇到的问题和磁带差不多,在找数据这上面来讲,比磁带要稍微强一些,至少不用倒带。
对于蓝光机来说没有很多的光头,所以实际上盘位的数量是远远大于光头的。当我们查找数据的时候,需要通过机械臂将蓝光光盘取出并放到蓝光光驱里,然后再启动光驱,读取查询数据。因此无论蓝光光盘的读写速度如何,查找数据的速度都远远慢于硬盘。然而增加蓝光光驱的数量就会极大地增加成本,导致它的实际成本比硬盘还高,因为单碟容量比目前平均16T的企业级硬盘又要小得多。按照光存逐渐跌破3%的容量占比的市场趋势,即使发布大1TB容量的光盘,料想对于争取市场作用是不够大的。
我个人认为,光盘出货数量实际上是越来越少。

△ 图九:索尼蓝光归档技术路线图[14]
国产超级光盘: 2月份,中国科学院上海光学精密机械研究所(上海光机所)与上海理工联合发布光存科研成果[14],单盘容量达到200 TB(1.6 petabits)(图十、图十一),终于使光存技术的存储密度回到电存、磁存相同水平(表三),摆脱蓝光相对于电存、磁存密度低的问题。
但是,按照项目负责人说,目前也还只是完成了光存原理和实验验证,是从“0”到“1”的突破[16]。仅从当前的技术上来看,有几处问题。采用紫外的频率来读取数据,实际上数据所存储的刻盘位置非常小,这种纳米级的工艺和 CPU的制程差不多,势必会对震动、划痕非常敏感,因此其读写设备必须非常精密。
例如,我们可看文章对这一部分的介绍,“该光盘实现了点尺寸为54纳米,道间距为70纳米的超分辨数据存储,并完成了100层的多层记录,单盘等效容量约1.6 Pb。经老化加速测试,光盘介质寿命大于40年。研究人员在光盘各层分别写入上海光机所和上海理工大学的标识,从第1层和第100层都可以读出,展示了材料极高的三维性能”。
如果注意读这篇文献,我们会发现每平方厘米上的读写能量消耗是非常大的。如“1bit写入耗能3.64 mJ”,我们可以粗略估算,如果有1.6 Pb的数据全写进去,大约需要的能量约合160万度电。
不开玩笑地说,目前无论是它的制程还是能耗,其实都是光刻机水平,因此它目前还是在理论验证阶段。未来实现产业化,项目负责人的观点是,即使一切都比较乐观的话,大概要5年,即2030年前后,才会有经过理论、工程验证的光驱、光盘产品出来。[16]
△ 图十:超级光盘盘片,左边为空白基盘,右边为光盘通过旋涂技术涂覆了一层已经固化的AIE-DDPR薄膜(一个尚未写入信息的空白光盘)[15]
△ 图十一:超级光盘盘片刻录原理与制程的展示[15]
总的来说,上述所介绍的主流数据存储介质也仅仅反映了数据存储当中的一部分技术、材料和产品。与存储相关的主控、数据通信协议、分布式存储技术,文件存储技术等其实都还没有介绍。而这些对于存储的读写性能的影响也是巨大的,受限于文章的长度,没有办法把它们再一个一个去做介绍。实际上这一块不仅存在核心技术,而且国产化率非常低。大家要牢记,抛开读写性能而谈存储容量的成本是不对的,因为相同容量的存储读写性能相差数倍,其存储设备整机的价格也相差数倍。
就目前的存储介质而言,无论是电、磁、光的哪个方向去做比较,未来一段时间最有发展前景的仍然是固态硬盘,其次是磁盘。我们在这个领域,能够做研发,并把技术产品化的国产化公司也是和独角兽一样非常珍惜。这反映了这个领域其实也是一个技术密集型领域,而且这个领域与算力的发展高度相关。我们在解决算力国产化上非常艰辛,在解决存储的国产化上也是要做好长期准备的。
虽然在未来的十年间,我们每一年还要花几千亿向国外购买数据存储,同时,每年98%的数据也只能匆匆完成使命就被删除,但是,展望十年之后,我相信在电、磁、光三个存储技术方向,主要在国内把主要场景提供出来,为国产化厂商开路,以长江存储、华为、中科院等企事业为代表,自然会打出一片天地来。他们当前已经取得的进展,已经向我们传递了强烈的我国可当自强的信号。
在接下来技术奔跑的路上,不管国外厂商,还是国内厂商,一方面,都只能像逃命一样往前飞奔,才能把握住市场和发展的机会;另一方面,还要有注意技术的极限在哪里,要把有限的资源投入到天花板比较高的技术路线上
04
了解极限的存在,前进的步子可以走得更加踏实
存储的极限不仅在于单碟容量,普通消费者可能并不关心存储密度,但对于巨大化的数据中心而言,存储密度这个指标是非常关键的,因为这意味着你在寸土寸金的机房里,到底能放多少块硬盘。
除此之外,存储的技术极限还有很多方面:响应时间、传输速度、存储寿命等等,我们不能仅仅根据单一的参数就判断一个技术方向的好坏,因为就实际使用而言,一定是讲究一个综合体验最优。
各个专业领域都有技术门槛,这里先根据本人了解的情况整理了存储密度的数据,供各位参考(表三)。
05
总结
20年前,光盘存储曾经占整个存储出货容量的80%[30],而我国又是光盘光驱的主要产地。那时,我们一年就生产了70亿张光盘,妥妥全球存储输出担当。20年后的今天,光存占整个存储比例只有2.5%[5],技术更替带来的影响是多么巨大。
如今,我们每年花掉几千亿进口存储,我们的采购金额和数量甚至达到全球的一半,一些高端存储,甚至我们给钱别人还不卖。好消息是,现在存储的几个主要技术路线,纷纷都有国产化的解决方案了,在产品化上国产化也都已经走了出来,从中低端市场上打入。
未来,乐观主义者总是成功。用超级光盘项目负责人阮昊的话说,科学技术要实现产业化,有较长的路要走,需要科学界、产业界一起努力![16]
参考资料:
[1] Eric Burgener, Phil Goodwin, Silvia Piai. et al. Establishing Uncompromising Data Availability for Healthcare Organizations. IDC, (2021). https://cms.idc-custom.com/wp-content/uploads/2021/08/idc-establishing-uncompromising-data-availability-for-healthcare-organizations.pdf
[2] HDD Shipments Perfectly Flat Y/Y in 2021 at 259 Million Units But Record 1.3ZB Capacity. StorageNewsletter, (2022). https://www.storagenewsletter.com/2022/02/03/hdd-shipments-perfectly-flat-y-y-in-2021-at-259-million-units-but-record-1-3zb-capacity
[3] Anthony Nerantzis. LTO 2022 Media Shipment Report. LTO Ultrium, (2023). https://www.lto.org/wp-content/uploads/2023/05/LTO-2022-Media-Shipment-Report-Press-Release.pdf
[4] Robert Adams. Last quarter, 91.8 million SSDs were shipped, and in total for 2021 – 373.2 million. Trendfocus, (2022). https://trendfocus.com/last-quarter-91-8-million-ssds-were-shipped-and-in-total-for-2021-373-2-million
[5] Thomas Alsop. Global Byte Shipment Share from 2010 to 2025, by Storage Media Type. IDC, Statista, (2018), https://www.statista.com/statistics/815231/worldwide-memory-byte-shipment-share-by-storage-media-type
[6] Petroc Taylor. Volume of Data/Information Created, Captured, Copied, and Consumed Worldwide from 2010 to 2020, with Forecasts from 2021 to 2025 (in Zettabytes). IDC, Statista, (2021), https://www.statista.com/statistics/871513/worldwide-data-created
[7] 2023年中国集成电路进出口分析:连续两年下滑 美国进口额跌幅明显. 腾讯网, (2024). https://new.qq.com/rain/a/20240213A02O1X00
[8] Tom Coughlin, Roger Hoyt, and Jim Handy. Digital Storage and Memory Technology (Part 1). IEEE, (2017).  https://www.ieee.org/content/dam/ieee-org/ieee/web/org/about/corporate/ieee-industry-advisory-board/digital-storage-memory-technology.pdf
[9] StorageNewsletter, and TrendFocus, and The Register, and Forbes. "Hard Disk Drive (Hdd) Unit Shipments Worldwide from 1976 to 2022 (in Million Units)." Statista, Statista Inc., 18 Dec 2022, https://www.statista.com/statistics/398951/global-shipment-figures-for-hard-disk-drives
[10] LTO Ultirum 2022 Media Shipment Report. LTO Ultrium, (2023). https://www.lto.org/wp-content/uploads/2023/04/LTO-Ultirum-2022-Media-Shipment-Report-Slides.pdf
[11] International Roadmap for Devices and Systems (IRDS) 2022 Edition Executive Summary. IEEE, (2022). https://irds.ieee.org/editions/2022/executive-summary
[12] Anton Shilov. Seagate's Roadmap: The Path to 120 TB Hard Drives. AnandTech, (2023). https://www.anandtech.com/show/16544/seagates-roadmap-120-tb-hdds
[13] LTO Ultrium Roadmap. LTO Ultrium, (2024). https://www.lto.org/roadmap.
[14] White Paper: Archival Disc Technology 2nd Edition. Sony, Panasonic, (2020). https://panasonic.cn/wp-content/uploads/2020/05/Archival-Disc-Technology-%EF%BC%9A2nd-Edition.pdf
[15] Zhao, M., Wen, J., Hu, Q. et al. A 3D nanoscale optical disk memory with petabit capacity. Nature 626, 772–778 (2024). https://doi.org/10.1038/s41586-023-06980-y
[16] 新华全媒+丨“超级光盘”的背后. 新华网, (2024). http://www.xinhuanet.com/tech/20240304/f8f23367360d4e5d8b26caa68eddd152/c.html
[17] Achal, R., Rashidi, M., Croshaw, J. et al. Lithography for robust and editable atomic-scale silicon devices and memories. Nat Commun 9, 2778 (2018). https://doi.org/10.1038/s41467-018-05171-y
[18] Han, L., Addiego, C., Prokhorenko, S. et al. High-density switchable skyrmion-like polar nanodomains integrated on silicon. Nature 603, 63–67 (2022). https://doi.org/10.1038/s41586-021-04338-w
[19] Baltic, Romana et al. Superlattice of Single Atom Magnets on Graphene. Nano letters vol. 16,12 (2016): 7610-7615. doi:10.1021/acs.nanolett.6b03543
[20] Natterer, Fabian D et al. Reading and writing single-atom magnets. Nature vol. 543,7644 (2017): 226-228. doi:10.1038/nature21371
[21] Zhang, Kangkang et al. A Gd@C82 single-molecule electret. Nature nanotechnology vol. 15,12 (2020): 1019-1024. doi:10.1038/s41565-020-00778-z
[22] Wang, Y., Zhu, Y., Chen, S. et al. Lateral strain tailoring in manganite homostructures assisted by atomic-flat freestanding membranes. Nano Res. 16, 7829–7836 (2023). https://doi.org/10.1007/s12274-023-5618-x
[23] Gu, M., Li, X. & Cao, Y. Optical storage arrays: a perspective for future big data storage. Light Sci Appl 3, e177 (2014). https://doi.org/10.1038/lsa.2014.58
[24] Riesen, Nicolas, Xuanzhao Pan et al. Towards rewritable multilevel optical data storage in single nanocrystals. Optics express vol. 26,9 (2018): 12266-12276.
[25] Erlich, Yaniv, and Dina Zielinski. DNA Fountain enables a robust and efficient storage architecture. Science (New York, N.Y.) vol. 355,6328 (2017): 950-954. doi:10.1126/science.aaj2038
[26] Dong, Yiming et al. DNA storage: research landscape and future prospects. National science review vol. 7,6 (2020): 1092-1107. doi:10.1093/nsr/nwaa007
[27] Chen, Weigang, Ye Yin et al. DNA information storage for audio and video files. SCIENTIA SINICA Vitae (2019): n. pag.
[28] Wasim Ahmad Bhat et al. Bridging data-capacity gap in big data storage. Future Generation Computer Systems, vol. 87, (2018), 538-548, doi:10.1016/j.future.2017.12.066
[29] Kalff, F., Rebergen, M., Fahrenfort, E. et al. A kilobyte rewritable atomic memory. Nature Nanotech 11, 926–929 (2016). https://doi.org/10.1038/nnano.2016.131
[30] Where in The World is Storage. IDC, (2013). http://www.idc.com/downloads/where_is_storage_infographic_243338.pdf
— END —
继续阅读
阅读原文