eMMC芯片磨损导致MCU和车辆无法正常运作| 这是怎么回事?

demi的头像
demi 发布于:周三, 01/13/2021 - 11:21 ,关键词:

监督成本| eMMC NAND闪存技术和用例需求

ODI最近对较旧的Teslas Model S和Model X车辆提出的信息要求突显了工作负载疏忽,其中基于NVIDIA Tegra 3处理器和集成8GB eMMC NAND闪存的主控制单元(MCU)遇到了问题。当引入新的固件更新为电动汽车(EV)带来附加功能时,问题变得更加复杂。这充当进一步激发NAND闪存磨损进度的燃料。尽管在一开始固件不是问题,并且记录的数据具有足够的内存来处理工作量,但每次固件升级都带来了新功能,从而减少了每次更新的存储空间。应ODI的信息请求,特斯拉列出了2,399项投诉和现场报告,7,777项保修索赔以及4,746项与MCU替换方案有关的非保修索赔。倒车时,故障的MCU导致后置摄像头图像显示遗失。随着NAND闪存全部耗尽,驾驶员不能再使用车辆的某些功能,例如HVAC(除雾),与ADAS相关可听得见的提示音,自动驾驶仪和转向信号灯,严格地来说尽管车主仍然可以驾驶车辆,但不能再充电,使汽车无法运行。

eMMC模块因为是以NAND闪存技术为基础而具有预定的使用寿命。它们具备有限的程序/擦除(P/E)周期,即使公司最初按照这些规范进行设计,他们也必须预见到同一系统随着时间的推移必须应对不断增加的工作负载挑战。最后,这问题有三个方面。缺乏对NAND闪存技术的了解,以及对更加复杂和多面的用例了解,并且假设驱动器的使用期限完全取决于NAND闪存技术–而不是正在使用的闪存控制器。

了解NAND闪存技术

根据特斯拉维修专家的说法,由于eMMC中的NAND闪存单元结构,在较旧的Model S和X组件中发现的基于嵌入式NAND的eMMC磨损。在一定程度上是对的。不同类型的NAND闪存技术具有不同(但始终是有限的)的P/E周期数或他人所称的“写入周期”。

  • SLC NAND闪存技术大约10万次P/E周期
  • MLC NAND闪存技术大约10 000-3500 P/E周期
  • TLC NAND闪存技术大约3000个P/E周期
  • QLC NAND闪存技术大约1000-100次P/E周期

这意味着一旦这些周期用完,驱动器将再也无法可靠地存储数据。根据特斯拉的报告,Hynix单元“针对eMMC中每个NAND闪存块,额定3,000个编程/擦除周期”。

要了解NAND闪存单元为何总是具备有限的P/E周期,必须了解其基础技术。NAND闪存是一种非易失性存储器(NVM)技术,它通过电荷陷阱技术或浮栅MOSFET晶体管将数据存储在制成的存储单元阵列中。通过在晶体管的控制栅极上施加高电压,同时将源极和漏极接地,沟道中的电子可以获得足够的能量来克服氧化物势垒,并从沟道移入浮栅。在浮栅中捕获电子的过程是闪存设备的编程(或“写入”)操作,该操作对应于逻辑位0。相反,擦除操作从浮栅中提取电子,从而切换存储在其中的数据NAND闪存单元磨损,因为编程和擦除周期最终会损坏浮栅和基板之间的隔离层。这减少了数据保留,并可能导致数据丢失或意外编程的单元。

了解用例的工作负载

特斯拉电动汽车对于任何存储应用都是一个充满挑战的环境,这不仅是因为汽车质量对温度和功能安全性的要求,而且因为每辆汽车的使用方式都不同。在这种情况下,eMMC模块会受到每日行驶时间,每日充电时间,每日音乐流式传输时间以及一系列其他因素的影响。此外,极其重要的功能和特性取决于MCU能够可靠地执行其工作。这个生态系统中的eMMC具有非常独特的工业级工作负载,只有使用符合工业标准设计的高质量闪存控制器才能适当取得。

特斯拉认为“以每块0.7的额定每日P/E周期使用率计算,在设备中每块平均获得3,000个P/E周期需要11到12年的时间,以每块 1.5的每日P/E周期使用速率的第95个百分位,在设备中平均累积3,000个P/E周期需要5到6年时间。”归根结底,复合固件更新的苛刻性质使这些驱动器比预期还早崩溃。这就引出了一个问题,为什么这些MCU这么早崩溃?

了解NAND闪存控制器的作用

闪存控制器在高端存储系统中的作用常被忽略。在NAND闪存经常引起关注的地方,许多人忽视了评估控制器在管理其应用程序方面的真实能力,而所选闪存则预定义了P/E周期。尽管闪存技术在定义驱动器的使用寿命方面起着重要作用,但所选的控制器应掩盖闪存的所有固有缺陷,从而延长其使用寿命,确保不会出现任何故障设备或数据损坏。

例如,闪存控制器可以针对任何特定的存储设备执行最佳类型的纠错编码(ECC),完全取决于所选NAND闪存的特性以及控制器中可用的处理性能。在不同类型的NAND闪存中,不同类型的错误也更为常见,例如多层单元(MLC)中更容易出现读取干扰错误,而其他控制器功能(如损耗均衡)和垃圾回收的时间也会受到NAND闪存中过度配置的影响。因此,控制器需要仔细匹配NAND闪存的特性,如果忽略这一点,驱动器在预测的时间之前提早崩溃也就不足为奇了。这是一项昂贵的疏忽,选择正确的闪存控制器是设计高效可靠的存储系统(如eMMC模块)必不可少的一个部分。

归根结底,在工业中–故障系统和数据损坏不像在其他市场中那样被接受,因为期望寿命和故障成本更为急切。像eMMC模块这样的存储系统需要针对其独特的工作负载进行设计,并进行适当的管理,以避免在其特定领域发生故障。最后,闪存控制器在掩饰所选NAND闪存技术的缺陷方面起着非常重要的作用,应被视为核心组件,而不仅仅是NAND闪存的支援。


Lena Harman

E-mail: lharman@hyperstone.com

Job Title: Marketing Coordinator

Biographical Statement

Lena Harman is responsible for digital marketing, online strategy and the optimization of online platforms at Hyperstone. She holds a double degree in Communications and International Studies from the University of Technology, Sydney.

围观 8