JESD218B中文寿命测试方法部分Word格式文档下载.docx
《JESD218B中文寿命测试方法部分Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《JESD218B中文寿命测试方法部分Word格式文档下载.docx(10页珍藏版)》请在冰豆网上搜索。
是可接受的功能失败数量
'
data_errors:
是可接受的数据错误数量
min(x,y):
是x和y的最小值(也见和UBER:
见(表1)
TBW:
是总写入Bit量
TBR:
是总读取Bit量(见:
是SSD的取样量
UCL():
是表2定义的信心上限公式(见JESD47)
一个常见的抽样计划称为accept-on-zero计划,因为如果没有失败,测试就会通过,如果失败大于零,测试就会失败。
对于accept-on-zero计划,UCL值是。
注意:
方程2和3分别表示两个单独的取样大小要求和验收标准。
在特定情况下,两个方程中的一个是取样大小限制方程。
哪个方程是验收标准的极限方程,取决于测试过程中出现的功能故障和数据错误的数量。
举例:
FFR=3%,UBER=10-16,TBW=100,要求所有的数据都要进行写入、读取并经过一致性校验,遵守accept-on-zero计划。
SS≥=(公式2)
&
SS≥(100ⅹ1ⅹ8ⅹ1012ⅹ10-16)=(公式3)
因此,所需的取样量为31(两个结果中较大的一个)。
如果选取31个样本量,若31个SSD无功能故障且满足公式3的UBER要求,则通过验证。
最后一项这样计算:
UCL(data_errors)≤100ⅹ1ⅹ8ⅹ1012ⅹ10-16ⅹ31=(公式3)
查看表2可以得出:
可以接受最多一个数据错误。
因此,如果没有功能故障且小于或等于一个数据错误,则测试通过。
UBER是以读取的bit量来定义的(见,但为了endurance测试,公式3却计算了TBW、TBR的最小值。
理由有两方面。
首先,许多数据错误对于SSD的重写来说是暂时的,但是对于重复的读取来说是可重复的。
这意味着,一个有损坏数据的扇区如果进行重写可能会因为没有发现错误而通过测试,但是读取多次没有失败的扇区不太可能检测到额外的错误。
这意味着,如果读操作的频率低于写操作,那么可能会遗漏许多数据错误。
只有在重写这些扇区之前读取所有写入的数据,才会检测到所有数据错误。
如果TBR小于TBW,则应该增加UBER,因为可能会出现未检测到的瞬时数据错误。
使用TBR代替TBW可以实现这个目标。
其次,这个标准是与一个可供参考的读写比列对齐的。
如果TBR等于TBW,则UBER可能被认为是每比特读或每比特写的错误率都是等价的。
如果endurance测试中的TBR大于TBW,则UBER基于TBW。
在endurance测试期间,可以对相同的写入数据进行多次读取,但不得用于增加公式3的右侧。
Categorizationoffailures
失效ssd分为三类:
非endurance失效、endurance功能失效和endurance数据错误。
非endurance失效将被排除在endurance验收的考虑范围之外,但如果与驱动器质量的其他部分有关,当然应该考虑。
根据FFR验收准则(公式2)来控制功能故障的数量,根据UBER验收准则(公式3)来控制数据错误的数量。
只有当有令人信服的证据表明,失败不是由对驱动的写操作到达endurance极限或随后的retention压力引起的,失败才能被归类为非endurance失败。
在写入数据的电路路径之外的故障(例如,孤立于电源和电容器的故障)可视为非endurance故障。
写入数据电路路径中的故障,特别是主控和flash中的故障,通常被认为是endurance故障,但也有例外。
如果失败的原因与写入的数据量无关,则写入数据电路路径下的失败可能被视为非endurance失败(例如,如果在控制器中发生氧化击穿事件,这是在长时间偏压和温度异常下的结果,而不是TBW)。
当驱动器发生灾难性故障或仅遭受单个损坏扇区时,endurance故障在功能故障和数据错误之间的划分是明确的。
对于涉及多个数据错误或部分驱动功能故障的中间情况,制造商在决定归属时可以使用酌情权。
EnduranceStressPhase
SSD使用规范指定的工作负载进行读写到完整的endurance规格(TBW)。
endurance时间是使用endurance设备达到TBW额定值所需的时间。
如果由被测系统或SSD本身之间的性能差异导致某些SSD在给定的endurance时间内比其他SSD接收更多的写操作,那么每个SSD写入的平均数据量应达到endurance规格(TBW)。
应记录测试中所有驱动器错误,即使这些错误是暂时的;
仅在endurance测试结束时对驱动器进行测试是不可接受的。
理想情况下,读取并验证数据需要测试系统检索先前写入SSD的数据,并将该数据与测试系统存储的单独主副本进行比较。
对于某些测试系统,这样完整的数据验证是不可能的。
在这种情况下,只要已知SSD具有较强的错误检测能力(>
90%),测试系统依靠SSD的错误检测能力对数据进行验证就足以进行endurance验证。
,
样本分为两组。
一组在低温下承受endurance压力,另一组在高温下承受endurance压力。
endurance压力的低温和高温由表3和表4的SSD分类定义。
当不同SSD的温度不同时,例如因为处于endurance测试环境中位置不同导致的温度差异,应使用平均温度。
低温(25℃)endurance分支的目的是评估使用温度较低但不至于低到需要制冷的耐受能力。
因此,在这种情况下,测试温度被认为是环境温度,而不是SSD本身的温度。
最佳的做法是使用足够的空气循环,以达到最低的温度与实际的室温一致。
高温endurance分支的设计意图有两方面:
1)评估使用温度上限附近的耐受能力;
2)加速恢复影响达到与使用条件相匹配的程度。
对于第一点,表3指定使用的温度至少与表1中定义的使用温度相同。
关于第二点,众所周知,NAND闪存由每次p/e周期所造成的损害都会在p/e周期之间的延迟期间部分恢复或愈合(参见JESD22-A117)。
因此,在短短几周内进行的endurance压力测试所造成的净损伤要比正常使用几年所造成的损伤大。
这种更高的净损害的主要影响是,与实际使用中可能存在的功能相比,降低了数据保留功能。
为了避免这个问题,表3和表4指定了已经计算好的目标压力温度,以便闪存恢复量与表1中指定的实际使用条件相匹配。
目标温度随endurance压力时间的变化而变化,因为温度的作用是加速闪存恢复率,所以较长的压力时间不需要像较短的压力时间那样高的温度。
假设以anactivationenergyofeV为前提(详见附件A(规范):
CalculationsofTemperature-AcceleratedStressTimesforthedetailedcalculations),根据表4中的目标时间/温度值,则endurance压力时间等效于表1中ActiveUse下温度和小时/日的年。
虽然在实际使用中,寿命极限预计在3-5年后才会达到,并且本标准的目的是匹配实际使用,但是却针对了更严重的情况来进行计算,即全TBW仅发生在年内。
这是一个保守的假设,因为更短的压力时间只允许更少的P/E之间的恢复,因此会在压力结束时导致更高的净损害。
这个假设是为了在eV加速模型中为高温数据保持防止可能的误差增加保证。
延后时间可能包括设备被下电,或上电却没有写入数据的时间。
如果设备已上电,制造商应确保设备不会进行任何在实际使用过程中不可能进行的后台维护动作。
使用DirectMethod时,无论何时endurance测试的有效部分(不包括延后时间)需要在1000小时内完成。
高温下的延后时间不允许使用到低温分支。
除了写入和读取数据之外,还可以在endurance测试中添加其他压力和操作,以适应超出耐久能力验证的目的,只要这些压力和操作不与本节中指定的延后时间限制冲突。
例如,可以添加电源中断来测试设备处理此类中断的能力。
HighTemperatureRetentionStress
在endurance压力测试后,将设备下电并在高温下烘烤,以确定数据保持能力。
只有对在高温下工作有压力的设备才能烘烤。
在烘烤前将数据全部写入设备中,烘烤后再读取全部数据。
数据保持导致的数据错误数量将被添加到endurance压力测试导致的数据错误数量中,总数应满足UBER的验收标准(见公式3)。
表3显示了retention验证所需的条件。
烘烤给出了两个等价的选项,它们都被认为是等价的。
在anactivationenergyofeV和retention要求所属类的假设下,选择限制的retention温度和时间作为数据保留时间,而这个时间被用来对应非易失性存储器数据退化通用的温度加速机制。
如果SSD(非易失性存储器除外)的某个部件不能承受指定的温度,则该部件可能会被移除或替换,以进行retention烘烤。
@
如所述,高温endurance压力测试需要在由表4中目标值的不同而决定的时间/温度对下运行,这可能需要调整retention烘烤时间或温度。
是否做出烘烤时间或温度的调整由制造商决定。
如果要对烤盘温度进行调整,烤盘温度将根据实际endurance温度与表4所示温度的差值进行调整,但温度不能降低超过7℃。
例如,假设消费级SSD的endurance压力测试是在48℃下承受超过1000小时的情况下完成的,而表4指定的该压力时间内的压力温度应该为55℃。
那么烘烤条件就要从66℃下的96小时(表3)变为59℃下的96小时。
如果endurance压力温度较低,则不允许进一步降低,因为最大允许降低7℃。
如果endurance压力温度高于表4要求,则用全偏移量来提高烘烤温度,不限于7℃。
如果要对烘烤时间进行调整,则按以下因素调整时间:
AdjustmentFactor=(Actualstresstime)/(StresstimeinTable4forthatstresstemperature)(4)
调整系数不能小于
在前一个例子中,表4指定了温度为49摄氏度时的压力时间为2200小时。
调整系数将是(1000/2200),由于受到的限制,四舍五入为。
从表3可以看出,66摄氏度下的烘烤时间是调整前96小时,则调整后为48小时。
如果压力温度高于表4所要求的温度,增加烘烤时间将是强制性的,没有上限。
这两种调整方法被认为是等效的,由制造商自行决定。
限制烘烤时间和温度的降低是为了防止压力条件扩展到时间和温度范围,而这个时间和温度范围,将导致用于数据保持的加速度模型可能变得不准确和乐观。
Roomtemperatureretentionevaluation
并非所有造成数据丢失的机制都是由温度加速导致的,因此需要进行第二次室温评估。
这一要求仅适用于质量合格系列中的第一个产品;
后续产品除外。
执行此评估可以接受两种方法:
驱动级和组件级。
这两种方法都需要数学推断,因为通过更高的温度实现时间加速是不可能的。
这些推断的本质要求访问驱动级或组件级的误码率数据,而这些数据可能只有制造商可获得。
{
使用这种方法,可以测量在合格retention期内误码率的增长率,并将这种趋势推断为所需的retention时间。
该方法的细节载于附件B(标准):
AssessmentofRoom-TemperatureDataRetention。
Drive-levelmethodforroomtemperatureretentionevaluation
如图1所示,这些SSD受到室温数据保持压力的影响。
该步骤仅在承受高温endurance压力的SSD上执行。
这些SSD将写入数据,然后在室温下保存至少500小时(为了提高准确性,建议使用更长的时间)。
这些SSD将被读取回来,并测量已经绕过内部错误校正的误码率。
外推是按照JEP122的方法进行的。
这种方法有两种变体是可以接受的。
第一种是在几个时间点(例如48、168和500小时)测量SSD的误码率,并推断出趋势。
第二种是仅在retention周期结束时测量误码率,然后使用非易失性存储组件(flash)特性所获得的时间依赖性来推断误码率。
如果SSD使用多种类型的非易失性存储组件(即,不同组件产品编号)则每个外推分别进行。
如果retention测试是针对所需的全部retention时间(如企业级ssd的3个月)进行的,则不需要外推;
SSD可以简单地测试数据错误。
Component-levelmethodforroomtemperatureretentionevaluation
使用这种方法,(和JEP122)中描述的外推方法是使用来自非易失性内存组件(flash)的原始误码率数据执行的,而不是使用实际SSD。
在endurance压力完成后,将确定SSD内非易失性存储组件(flash)经历的P/Ecycle数量,以及从一个组件或位置到另一个组件或位置在计数周期内的变化。
相同类型组件的保持数据应在相同数量的P/Ecycle和相同数量的变化之后获得。
组件级别的保持数据应该从此类组件的至少三个非连续生产批次中获得。
组件样本不需要和使用方法计算的SSD全部样本一样多数量
Extrapolationmethod
如果使用DirectMethod需要超过1000小时endurance压力的话,则采用ExtrapolationMethod。
在该规范的这个版本中,只定义了一种ExtrapolationMethod。
本节描述可接受的ExtrapolationMethod。
ExtrapolationMethod可能需要特殊的方式用来做SSD内部操作,这使得此类方法仅适用于SSD制造商。
ExtrapolationMethod的使用应备有证明文件,并在制造商和买方之间达成一致。
ShortStrokeExtrapolationMethod
SSD的容量被人为地降低,这样一些flash或block就不会被写入,而剩下的那些则会被更快地循环(P/E)。
通俗地说,这种方法通常被称为“shortstroke”,类似于使用硬盘驱动器只访问存储磁片一部分的技术。
对于SSD的endurance验证,该方法与DirectMethod(见相同,不同之处是整个SSD受到压力,直到flash组件的受力部分达到目标P/Ecycle数(DirectMethod)。
目标P/Ecycle数定义为标准工作负载在真实的TBW额定值下预期的P/Ecycle数。
例如,假设100GBSSD的endurance等级为100tbw。
进一步假设,使用标准工作负载写入100GB数据将在flash上产生两个P/Ecycle是能够确定的(即,即有一个写放大因子为2)。
最后,假设SSD内部控制特性设计为将不同的flash和block的平均P/Ecycle数保持在±
10%。
在这种情况下,预计100TBW结束时的P/Ecycle为1000,范围为900-1100。
造成相同结果(900到1100个P/Ecycle)的short-strokeendurance测试将被认为能把SSD带到目标P/Ecycle数。
不需要通过增加样本量来补偿减少的设备容量。
方程
(2)和(3)仍然适用,但有一项是需要理解的:
方程(3)中的TBW项是实际写入减少容量后的tb,而不是设备的TBW额定值。
具体来说,要求是:
UCL(data_errors)≤min(TBWA,TBRA)ⅹ8ⅹ1012ⅹUBERⅹSS(3)
其中TBWA是在endurance压力下写入每个降低容量设备的实际tb数,TBRA是读取的实际tb数。
为了使用这种方法,制造商应确保减少容量的方法不会严重扭曲SSD的正常内部工作。
例如,可能需要减少空闲存储块的数量,这个数量要确保写入放大因子和SSD容纳坏块能力不变。
简单地减少写入数据的逻辑范围通常是不够的,因为SSD控制器和固件将使用完整的非易失性存储(flash)容量,如果(SSD控制器和固件)没有被指示(通过修改的固件)不要这样做。
Enduranceverificationgivenalternativerequirements
和描述了验证SSD满足表1中定义的JEDECSSD类的endurance和retention要求的条件。
在某些情况下,可由制造商and/or买方指定可供替代的要求。
在这种情况下,本标准中的公式和表格可以用来计算可供选择的样本量和压力条件。
例如,3%的FFR可以被看作是五年平均失败率(AFR)为%,或者5年平均失败率(MTBF)除以,即大约150万小时。
给定了对故障率的替代要求,可以基于这种推理选择FFR,并使用本文中的样本量和接受方程。
另一个例子是SSD的操作温度可能不同于JEDECSSD类的指定温度。
在这种情况下,压力时间和温度可以根据本标准中描述的Arrhenius加速模型进行调整(见附件A(规范性):
CalculationsofTemperature-AcceleratedStressTimes)。
替代要求和验收标准由制造商和买方商定。
7ApparatusandPrecautions
Apparatus
这个测试所需的设备应由一个受控的温度室组成,这个温度室能够将温度维持在指定温度条件5摄氏度范围内。
在温度室内应提供电缆、机架and/or其他安装和连接手段,以便在指定的电路配置中对设备连接器进行可靠的电气接触。
电源和偏置网络应该能够在整个测试过程中保持规定的运行条件。
此外,测试电路的设计应确保异常或故障设备的存在不会改变其他测试设备的指定条件。
应注意避免瞬态电压峰值或其他可能导致电、热或机械过度受力可能造成的损坏。
Precautions
应采取预防措施,确保没有设备会因热失控而损坏,并防止电气损坏。
应在每个测试间隔的开始和结束时监控测试设置,以确定所有设备被压力到指定的条件。
在进一步接触温度之前,应注意和纠正每个设备上的偏置电压和电流。
如果在一个测试间隔结束时检查到设备没有被正确的偏置时,应当确定设备是否改变,或者测试电路是否改变,以便确认数据的有效性。
】
由于NANDflash损伤在P/Ecycle之间会部分恢复,特别是在高温下,因此应尽量最小化endurance压力结束后与retention烘烤前写入数据之间的延迟,当SSD在高温室时尤其如此(从高温室中取出后在室温下的延迟并不严重)。
本标准要求的endurance极限(见只能平均达到,所以在相同的压力时间内运行所有SSD,并且当平均达到endurance极限时立即将它们移出是可能的。
8Summary
下列细节应在适用的设备规范and/or制造商的内部压力测试规范中指定,并说明其原理:
a)特殊安装(如适用)。
b)测试条件。
c)偏置条件。
d)测试前、中测试点(若适用)和测试后的测量。
e)选择的workload。
f)endurance时间和温度,以及如果使用rampedtemperature方法采用的temperature-ramp条件
g)endurance期间插入的所有中间测试点导致的延后时间和温度
h)数据retention模式,持续时间和温度。
i)UBER和功能故障需求的计算细节,包括任何推断
j)若采用的ExtrapolationMethod,则应详细说明所采取的步骤。