快讯
HOME
快讯
正文内容
NAND可模仿什么 3D NAND的层数有限制吗?
发布时间 : 2025-05-04
作者 : 小编
访问数量 : 23
扫码分享至微信

3D NAND的层数有限制吗?

内存供应商正在竞相为 3D NAND 添加更多层,数据爆炸以及对更大容量固态驱动器和更快访问时间的需求推动了3D NAND市场的竞争。

美光已经在完成 232 层 NAND 的订单,而且不甘示弱,SK 海力士宣布将于明年上半年开始量产 238 层 512Gb 三层单元 (TLC) 4D NAND。或许更重要的是,芯片制造商私下表示,他们将利用行业学习为目前正在开发的 3D-IC 堆叠 NAND。

西门子 EDA技术产品经理 Ben Whitehead 表示:“处理器的摩尔定律在过去几年中可以说一直滞后,但对于 NAND 闪存来说,摩尔定律仍然存在并且很好 。” “这是一件好事,因为现代计算和网络对快速存储有着无法满足的需求。”

SK 海力士于 2018 年推出了 96 层 NAND 的 4D 命名法。尽管有这个名字,但该公司并未在四维空间中创建其产品或模仿 tesseract 立方体。但这个词也不完全是营销噱头,它是 3D 架构变体的商品名。

“对于 DRAM,大约需要 10 或 15 年的研发才能取得成果,但对于 3D NAND,发展速度非常快。当你想到通常的开发速度时,你会感到惊讶,”新思科技研发总监林西伟说。“除了技术本身,它还是一款杀手级应用。苹果是第一个放入闪存来存储数据的。今天,我们买 iPhone 还是看内存有多少,而且都是闪存。从那里开始,大数据、人工智能和分析需要高性能计算。闪存正在填补硬盘驱动器和 RAM 内存之间的这一关键延迟差距。由于功耗、外形尺寸和密度成本,你可以看到应用程序,尤其是在数据中心、分析和游戏领域。”

演变与革命

回顾 2D NAND,它具有平面架构,浮栅 (FG) 和外围电路彼此相邻。2007 年,随着 2D NAND 达到其规模极限,东芝提出了 3D NAND 结构。

三星在 2013 年率先推出了其所谓的“V-NAND”。

3D 设计引入了多晶硅和二氧化硅的交替层,并将浮栅交换为电荷陷阱闪存 (CTF)。这些区别既有技术上的,也有经济上的。FG 将存储器存储在导电层中,而 CTF 将电荷“捕获”在电介质层中。由于制造成本降低,CTF 设计很快成为首选,但肯定不是唯一的。

IBM 研究员 Roman Pletka 指出:“尽管所有制造商都转向电荷陷阱单元架构,但我预计传统的浮栅单元在未来仍将发挥不可忽视的作用,尤其是对于容量或保留敏感的用例。”

海力士表示,尽管有摩天大楼式堆叠的创新,但第一代 3D NAND 设计将外围电路保留在一边。

最终,3D NAND 供应商将外围电路移至 CTF 之下。在 SK 海力士的术语中,它现在是 Periphery Under Cell (PUC) 层。一方面,说“4D NAND”比 CTF/PUC NAND 更短更酷。另一方面,最终这是 3D NAND 的另一种变体,每单位的单元面积更小。用于更小尺寸的类似设计有不同的商品名称,例如美光的 CMOS under Array (CuA)。

图 1:SK 海力士对 4D NAND 的解释。

来源:SK 海力士全球新闻编辑室。

图 2:外围电路是 4D NAND 的底层。

来源:SK 海力士全球新闻编辑室。

美光本身在 2022 年 7 月下旬宣布了 232 层 NAND,该产品正在生产中,从而获得了宣传的权利。根据该公司的新闻稿,美光表示,其 232 层 NAND 是存储创新的分水岭,首次证明了在生产中将 3D NAND 扩展到 200 层以上的能力。

“添加这些层的主要作用是增加容量,因为每个人都在寻找更多的 SSD 容量,”Cadence产品营销集团总监 Marc Greenberg 说。“因此,添加更多层基本上意味着可以在单一封装中存储更多千兆字节,并在单一类型的多层 3D NAND 组件上进行存储。添加所有这些层及其背后的技术是一种容量游戏。”

美光还声称拥有业界最快的 NAND I/O 速度 2.4 Gbps,与上一代相比,写入带宽提高了 100%,每个芯片的读取带宽提高了 75% 以上。此外,232 层 NAND 包含六平面 TLC 生产 NAND,美光表示这是所有 TLC 闪存中每个芯片最多的平面,并且能够在每个平面上独立读取能力。

据行业分析师称,这可能是该公告中最令人印象深刻的部分。由于有六个平面,这个芯片可以表现得好像它是六个不同的芯片。

图 3:美光的 232 层 NAND。来源:美光

中国的公司在232 层 3D NAND 模块好像也有进展。

制造:优势与挑战

在去年的 IEEE IEDM 论坛上,三星的 Kinam Kim 发表了一个主题演讲,他预测到 2030 年将有 1000 层闪存。这听起来可能令人头晕目眩,但这并不是完全的科幻小说。“与 NAND 闪存的历史趋势线相比,这已经放缓了,”imec 存储存储器项目总监 Maarten Rosmeulen 说。“如果你看看其他公司,比如美光或西部数据,他们在公开声明中提出的内容,他们甚至比这还要慢。不同的制造商之间也存在一些差异——似乎他们正在延长路线图,让它放慢速度。我们相信这是因为保持空间运转需要非常高的投资。”

尽管如此,竞争风险仍然足够高,以至于这些投资是不可避免的。“主要的前进方向,主要的乘数,是向堆栈添加更多的层,”Rosmeulen 说。“进行 XY 缩小和缩小内存孔的空间非常小。这很难做到。也许他们会在这里或那里挤压几个百分点,把孔放在一起,孔之间的缝隙更少,诸如此类。但这并不是最大的收获。如果你能继续堆叠更多的层,密度只能以目前的速度显著提高。”

图 4:NAND 制造中的 3D 步骤。来源:客观分析

进一步堆叠似乎是合理的,除了整个过程的核心不可避免的问题。

“主要挑战在于蚀刻,因为必须蚀刻具有非常高纵横比的非常深的孔,”Rosmeulen 说。“如果你看看上一代有 128 层,这是一个大约 6、7 或 8 微米深的孔,只有大约 120 纳米的直径,极高的纵横比。蚀刻技术有进步,可以一次性蚀刻更深的孔,但不会更快。您无法提高蚀刻速度。因此,如果工艺流程以沉积和蚀刻为主,而这些工艺步骤并没有提高成本效率,那么添加更多层对于降低成本不再有效。”

蚀刻也只是多个步骤之一。“除了蚀刻之外,你还需要用非常薄的介电层上下均匀地填充这个孔,”Synopsys 的 Lin 说。“通常情况下,由于晶圆的化学性质,沉积几纳米的层并不容易。在这里,他们必须一路向下才能填满。有亚原子层沉积方法,但它仍然具有挑战性。另一个大挑战是压力。如果你建立了如此多的层,这些层会经历一些蚀刻/沉积/清洁/热循环,这可能会导致局部和全局压力。在局部,因为在钻孔后,需要在整个堆栈中切出一个非常深的沟槽。它变成了一个非常高的摩天大楼,摇摇欲坠。如果开始进行一些洗涤或其他过程,很多事情都可能导致两座摩天大楼相互倒塌。那么就失去了收益。并且通过将如此多的材料相互叠放并切割不同的图案,这会产生全局应力并导致晶圆翘曲,这将导致晶圆厂无法处理,因为晶圆必须是平的。”

值得注意的是,蚀刻正在穿过不同材料的层。

Objective Analysis 的 Handy 表示,三星的解决方案是创建极薄的层。“这对整个行业很有用,因为每个人都使用几乎相同的工具来创造这些东西。”

让它更好地工作

闪存的基本概念也存在固有的功能挑战。“人们越来越依赖需要越来越强大的纠错算法来与这些设备一起工作,”Cadence 的 Greenberg 说。

问题是 NAND 闪存设备内置的智能并不多。“通常情况下,SSD 发生在控制器端,”Greenberg 解释说。“控制器正在向 NAND 闪存设备发送命令,NAND 闪存设备会做出响应,但它并没有太多的智能。它只是响应请求,例如针对特定地址的数据块。NAND 闪存设备将简单地响应该数据块。但是在控制器端,你必须首先对接收到的数据进行纠错,然后确定该块中是否存在不可接受的错误数量,然后决定如何重新映射该块地址空间并在其位置放置一个不同的块。所有这些决定都发生在控制器端。”

尽管如此,由纳米级摩天大楼建造的世界重新强调了 ONFI 控制器和 ONFI PHYS 等组件,并为设计人员提出了新的挑战。

“内存工厂可以生产的层数使与这些内存接口的控制器的设计验证问题变得非常复杂——而且它们可能并不那么明显。SSD 控制器必须处理更多的内存通道。将许多管道与越来越快(但永远不够快)的主机接口连接起来会在非常意想不到的地方产生瓶颈,”西门子的 Whitehead 说。“另一个设计验证挑战是功率。长期以来,大多数存储控制器的优先级较低,但现在已转变为关键功能。移动到较小的几何节点会有所帮助,但代价高昂。商业模式不能容忍重新旋转,更不用说供应链难以排长队了。上市时间的延迟让高层管理人员非常清楚。存储的增长动力甚至更多,这需要我们重新思考如何验证设计。AI 加速器需要更大的存储控制器,这可能会很快消耗您的仿真和原型设计能力。边缘智能需要数量级更复杂的设计验证。内存计算,如 CSD,需要测试新的处理器组合,将 RTOS 和 HTOS 与以前看不见的工作负载混合在一起。”

这是人们如此关注验证 IP 的原因之一。

西门子数字工业软件公司的 ICVS 产品经理 Joe Hupcey 表示:“使用此 IP 的自动化可以快速生成测试平台,让设计和验证团队在几分钟内启动并运行。” “这种生产力水平使我们能够对整个设计进行架构探索,从而尽早对所选择的权衡取舍充满信心。同时,它还建立了自动跟踪指标的框架——如代码、功能和场景覆盖率,使团队能够衡量他们的进度并拥有做出签核决定所需的数据。最后,基于我们在 CXL/PCIe 协议方面的专业知识,我们看到通用芯片互连快速 (UCIe) 等新兴标准在使团队能够协作以快速设计和验证这些大规模可扩展内存模块方面发挥着关键作用。”

此外,Imec 正在探索 3D NAND 的潜在新结构。它展示了所谓的“沟槽架构”,这是一种设计变体,其中存储单元是沟槽侧壁的一部分,两个晶体管位于沟槽的相对两端。Imec 铁电体项目总监 Jan Van Houdt 解释了它的价值:“与目前使用的环栅(或圆柱形)架构相比,3D 沟槽架构具有双倍密度的潜力。”

然而,他接着指出了一些缺点。“有两个高纵横比(=具有挑战性的)蚀刻步骤而不是一个,以及在闪光情况下隧道氧化物中的电场较低。第二个缺点在使用铁电 FET 时不存在,这使得沟槽版本对铁比对闪存更有吸引力。”该设计仍处于原型阶段。

结论

2016 年,专家指出,由于技术问题,3D NAND 可能会在 300 层或接近 300 层时失去动力。这似乎已被今天的谨慎乐观所取代。

“在 SK海力士的 238 层之后我预计未来几年层数将以大致相同的速度增加,”IBM 的 Pletka 说。“然而,从技术角度来看,由于高纵横比蚀刻工艺,增加层数受到挑战,而且资本支出也受到挑战,因为制造芯片的时间随着层数的增加而增加。这就是为什么我们将通过制作更薄的层、横向缩放(例如更密集地放置垂直孔)以及使用更有效的布局(例如共享位线和逻辑缩放)来看到新的缩放方向(例如,使用拆分门架构或存储更多每个单元的位数)。有了这些技术,预计 NAND 闪存的存储密度至少在未来 5 到 10 年内会以类似的速度增长。”

“当人们说我们不能超过这个层数时,没有物理限制,”Objective Analysis 的首席分析师 Jim Handy 说。“在半导体领域,总是有人说我们做不到。我们不能在 20 纳米以下进行光刻。现在,他们正在研究 1 纳米。三星谈到了 1000 层。”

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

前景可观的存算一体技术,到底有多难商用?

没有一家公司的存算一体技术解决方案受到广泛的市场认可。

最近,随着5G商用和云计算需求的迅猛增长,建设新一代适用各类AI场景的大规模数据中心成为各大运营商和巨头公司接下来的工作重点,其中,提升性能和降低成本是大家最为关心的话题之一。

今年年初阿里达摩院发布了2020年十大科技趋势,它认为存算一体是突破AI算力瓶颈的关键技术。 因为利用存算一体技术,设备性能不仅能够得到提升,其成本也能够大幅降低。

然而尽管存算一体技术方向广受认可,英特尔、Arm、微软等公司也均参与到该技术方向的投资,也有多家公司给出了可行的存算一体解决方案,但有一个不争的事实是,没有一家公司的存算一体技术解决方案受到广泛的市场认可。

简单来说,虽然“存算一体”概念很容易理解,即计算与存储两个模块的融合设计以实现对数据的高效处理,但落到场景和商业发展推进过程中,它面临的产业矛盾和难处远超业内的想象。

存算一体技术有多复杂?

存算一体技术虽然极具前景,但其实非常复杂,因此很多大公司都选择投资初创公司来完成这件事,而不是自己从头去开发。

如美国著名的存算一体AI芯片初创公司Mythic,因其在存内计算芯片(IPU)有显著的研究进展,在2019年刚刚结束的B+轮融资中,它就受到了软银、美光等投资者的支持,此前它还获得了美国国防部的资金支持。此外,美国另一家专注于语音识别的存算一体AI芯片初创公司Syntiant,它的背书者们——微软、英特尔、亚马逊、博世等,也是广泛分布在计算和存储领域的巨头公司,甚至高通也邀请Syntiant来做可穿戴设备芯片的语音解决方案。

在国内,现在在这一领域有所探索的,包括知存科技、闪亿半导体、忆芯科技等,也都是初创公司。

可以看见,大公司更倾向于选择“站队”,在巨头们中,除了下游大力推进基于ReRAM的存内计算方案的台积电,IBM是唯一公开自己存算一体技术布局的公司。

在相变存内计算方面,IBM已经有了多年的技术积累,因此它也可以代表整个存算一体技术产业的先进水平。但尽管在核心部件PCM器件上有了十余年的研究积累,并且IBM在2016年就透露了其关于存内计算的研发计划,提出了混合精度内存计算的新概念,至今为止,IBM也只发布了基于该项技术的8位模拟芯片,定位是处理深度神经网络。

与传统芯片相比,该芯片在成本和功耗上有非常显著的改进,包括存储与计算模块之间的通信成本也大大降低了,但是它的弱点也很明显:因为AI训练需要保持梯度计算的保真度和权重更新,现有AI芯片大多在16位精度以上,8位的精度看起来是没有办法广泛使用的。

这也很让人怀疑,费了大力气研发出来的全新架构芯片,到底能不能走出实验室?

不得不直面的“困境”

存算一体技术商用真的那么难?

受计算机冯·诺依曼计算机体系架构影响,计算和存储一直以来是相互分离的设计。但是随着大数据时代的到来,以数据为中心的数据密集型技术成为主流系统设计思路,我们的关注点也不再仅限于数据的计算和加工,而更为看重的是对数据的“搬运”,即从根本上消除不必要的数据流动,这催生了计算与存储的融合(存算一体)。

简单来说,在传统计算机的设定里,存储模块是为计算服务的,因此设计上会考虑存储与计算的分离与优先级。但是如今,存储和计算不得不整体考虑,以最佳的配合方式为数据采集、传输和处理服务。这里面,存储与计算的再分配过程就会面临各种问题,而它们主要体现为存储墙、带宽墙和功耗墙 问题。

以存储墙问题为例,因为计算与存储各自独立演进,且传统的观点认为计算系统性能受限于计算能力,因而过去几十年产业界在计算方面的投入巨大。有数据显示,过去二十年,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右。结果长期下来,不均衡的发展速度造成了当前的存储速度严重滞后于处理器的计算速度,内存瓶颈导致高性能存储器难以发挥应有的功效,遭遇了所谓的存储墙问题。

因此,存算一体技术的提出不仅仅要打破人们对传统存储和计算的认知,它还要解决这些已有的“历史遗留”问题,实现存算之间更加低成本的“无缝对接”。

目前,业内提出了几种可行的技术解决方向,其中计算型存储、存内计算、3D堆叠和类脑计算 颇受关注,但究竟哪一种可行,众说纷纭。

图 | 3D堆叠

以现在最为火热的存内计算技术来说,为了推动这项技术的发展,近两年的芯片设计顶会ISSCC已经为其设立了专门的议程,同时2019年电子器件领域顶级会议IEDM有三个专门的议程共二十余篇存内计算相关的论文。

其实存内计算的核心思想很简单,就是把带权重加乘计算的权重部分存在内存单元中,然后在内存的核心电路上做修改,从而让读出的过程就是输入数据和权重在模拟域做点乘的过程,相当于实现了输入的带权重累加,即卷积运算。而同时,由于卷积运算是深度学习算法中的核心组成部分,因此存内计算非常适合AI,对未来AI芯片的存算一体和算力突破都有帮助。

但是不同于传统的数字电路计算,存内计算是用模拟电路做计算,这对存储器本身和存内计算的设计者都是一个全新的、需要探索的领域,IBM所研究的正是这个方向,里面的难度可想而知。

不仅如此,随着数据量的加大,功耗、存算之间的通信等方面都需要变革,以通信的硬件实现工艺来看,是采用光互联技术还是采用3D堆叠的新型封装实现高性能互联,这就是一个大问题,因为采用不同的技术将会导致整体解决方案天壤之别。

AI芯片公司还是存储芯片公司,存算一体技术应该由谁来做?

可以说,现在对于业内而言,树在大家面前的首要问题就是达成技术方向上的共识,而想要达成技术共识之前,可能大家首先要解决的是,存算一体到底由AI芯片公司来做还是由存储公司来做?

由AI芯片公司来做,技术方向更多偏向于计算型存储或类脑计算,而由存储公司来做,存内计算方向则会更容易被发展和推动。

上文介绍的存内计算是从存储的角度去做计算上的融合,尤其伴随SSD产品(由NAND flash构成)的兴起,因嵌入了ARM核和DRAM,NAND flash、ARM和DRAM、控制器和内部总线实际上构成了一个计算机系统,这让存储产品本身就可以做计算任务,因此也为存算一体提供了发展平台。国内就有诸多初创公司在探索这个方向,尤其是由于AI的引入,各种数据的Key-Value只要直接存储在硬盘里,AI需要的数据就可以自动完成分类,可以显著提升非关系数据库的性能。

而计算型存储则是将存储做到计算芯片上,如现在很多处理器公司都在做片上存储这件事,IBM设计的Blue Gene Active Storage(BGAS)结点就是一种‘存储上的计算’系统,每一个BGAS结点包含32个处理器,每个处理器通过PCIe接口连接2TB的SLC NAND非易失闪存介质,大致就是这样一个思路 。

当然不仅仅如此,超越冯·诺依曼架构之上,人的大脑就是一个典型的存储计算系统,而仿照人脑的仿生系统也被认为是最有可能颠覆现有技术的终极发展方向。

作为电子复兴计划的一部分,DAPRA看中的就是这个更高级的系统——通过将电子元件编程为离散阻值状态并将不同权重的电子元件相互卷积以建立一个类似突触和神经元的系统,即神经拟态计算,又被称为类脑计算。此前,国内清华大学类脑计算团队打造的“天机芯”就是被称为异构融合类脑计算芯片,复旦大学也在单晶体管逻辑架构上有突破性的进展,为存算一体发展奠定了技术基础。然而需要指出的是,DAPRA团队在这项研究上已经涉及了超过1800种混合材料,其难度之高可想而知,而后面架构搭建等都是商用道路上必须要迈过去的坎,因此可以说,类脑的存算一体系统遥不可及。

尽管类脑遥不可及,退回到现有的芯片设计上,存算一体的挑战也是十分之多,如器件方面,现有的浮栅器件存储就不适合存内计算;在芯片的工艺上,存算一体的设计和流片周期都将会很长,甚至连现有的EDA工具,目前尚没有支持存算一体设计的。

总体来看,存算一体有IBM、知存科技等数十家大大小小企业在投入和探索,它们广泛分布在存储、计算等领域里,几大技术方向也都在发展中。但是因可探索的方向很多,且没有人知道哪一种是最适合商用的方向,可以说整个市场还处在早期的百家争鸣状态。

降低成本,市场驱动存算一体

说到这里,可以发现存算一体的未来商用发展前景是极其不明晰的。但看向应用端,存算一体的市场发展驱动却是非常强烈的。

以数据中心为例,百亿亿次(E级)的超级计算机成为各国比拼算力的关键点,为此美国能源部启动了“百亿亿次计算项目(Exascale Computing Project)”,希望于2021年至少交付一台E级超算;中国则联合国防科大、中科曙光和国家并行计算机工程技术研究中心积极开展相关研究,计划于2020年推出首台E级超算。但要想研制E级超算,科学家面临的挑战之中首当其冲的就是功耗过高问题。

随着速度和性能要求的不断提高,如果按现有设计方法,通过不断增加处理器数量来研制超算,其体型和规模会越来越大,数据在存储器和处理器之间进出所耗费的功率会越来越多。以现有技术研制的E级超算功率高达千兆瓦,需要一个专门的核电站来给它供电,而其中50%以上的功耗都来源于数据的“搬运”, 本质上就是冯·诺依曼计算机体系结构计算与存储的分离设计所致。

如何降低功耗成为超算中心必须要解决的问题,各国科学家都在致力于降低超算功率,其中一些可行的技术方案包括让存储器更靠近计算器,减少数据行进距离;让高性能存储器向三维扩展而不是朝二维延伸;超算与闪存的结合等,而这些都隶属于存算一体的技术方向。

另一方面,在边缘计算和物联网端,因存算一体能够大幅提升性能和降低功耗, 因此也被大家寄予厚望。

当然,不仅仅是成本,如阿里达摩院在发布的技术报告所言,AI的出现与存内计算格外匹配,存算一体也将会改善现有的AI算力瓶颈。

更多优质内容,请持续关注镁客网~

相关问答

闪存都有那些种类?定义是什么?又是怎样分别的?

[回答]闪存是电子可擦除只读存储器(EEPROM)的变种,EEPROM与闪存不同的是,它能在字节水平上进行删除和重写而不是整个芯片擦写,这样闪存就比EEPROM的更新速...

中国的半导体技术怎么样?在世界上处于什么水平?

半导体技术是指半导体加工的各种技术,包括晶圆的生长技术、薄膜沉积、光刻、蚀刻、掺杂技术和工艺整合等技术。在半导体领域中,半导体设备的研发是重中之重,...

华为的技术为什么领先世界这么多?

从网上报道的资讯来看,华为在全世界手握多项领先世界的技术,比如5G、芯片等,至于原因,主要和任正非早期的明确战略布局有很大关系,因为任正非很清楚,企业要...与...

 中国书画论坛  mijian 
王经理: 180-0000-0000(微信同号)
10086@qq.com
北京海淀区西三旗街道国际大厦08A座
©2025  上海羊羽卓进出口贸易有限公司  版权所有.All Rights Reserved.  |  程序由Z-BlogPHP强力驱动
网站首页
电话咨询
微信号

QQ

在线咨询真诚为您提供专业解答服务

热线

188-0000-0000
专属服务热线

微信

二维码扫一扫微信交流
顶部