你的位置:首頁 > 測試測量 > 正文

從業(yè)20年工程師講述軟錯(cuò)誤是怎么損壞存儲器中信息的?

發(fā)布時(shí)間:2015-06-16 責(zé)任編輯:echolady

【導(dǎo)讀】本文由從業(yè)20年工程師傾情講述軟錯(cuò)誤是如何發(fā)生,如何破壞半導(dǎo)體存儲器中的重要信息。有此問題引出軟錯(cuò)誤的來源及其發(fā)生概率問題。軟錯(cuò)誤影響著存儲單元中的每個(gè)存儲位,改變它們的狀態(tài)。但是存儲器中的片上糾錯(cuò)碼卻可以消減軟錯(cuò)誤的影響。

近年來,半導(dǎo)體技術(shù)取得了巨大進(jìn)步,但這種進(jìn)步也帶來了新的問題。當(dāng)今的CMOS工藝已縮至很小的尺寸,以至于地外輻射和芯片封裝正導(dǎo)致越來越多的故障。由于這些故障是可逆的,它們被稱為軟錯(cuò)誤。軟錯(cuò)誤首次出現(xiàn)于1978年,由于受鈾污染的封裝模塊,英特爾公司無法向AT&T交付其生產(chǎn)的芯片。20世紀(jì)70年代,軟錯(cuò)誤主要與動態(tài)RAM(DRAM)有關(guān),這是因?yàn)樗鼈兊男酒庋b材料含有微量的放射性污染物。

軟錯(cuò)誤是指高能粒子與硅元素之間的相互作用而在半導(dǎo)體中造成的隨機(jī)、臨時(shí)的狀態(tài)改變或瞬變。但與硬錯(cuò)誤不同的是,一個(gè)簡單的復(fù)位/重寫操作可以恢復(fù)受影響器件的正常運(yùn)行。數(shù)字和模擬電路、傳輸線路和磁存儲器中都可能發(fā)生軟錯(cuò)誤,但半導(dǎo)體存儲器最易出現(xiàn)軟錯(cuò)誤,其原因是它們的單元尺寸較大,而且每個(gè)位保持某種狀態(tài)的時(shí)間較長(因此增加了風(fēng)險(xiǎn))。 軟錯(cuò)誤有可能翻轉(zhuǎn)一個(gè)或多個(gè)位,這取決于誘發(fā)粒子到達(dá)器件時(shí)的能量。一個(gè)高能粒子與半導(dǎo)體襯底之間的相互作用將產(chǎn)生多個(gè)電子空穴對。它們在耗盡區(qū)中產(chǎn)生的電場將導(dǎo)致一次電荷漂移,從而導(dǎo)致電流擾動。如果這個(gè)電流移動的電荷跨越了存儲單元(每個(gè)單元存儲一個(gè)位)的臨界電荷,所存儲的數(shù)據(jù)就有可能翻轉(zhuǎn),從而導(dǎo)致下一次被讀取時(shí)出現(xiàn)錯(cuò)誤。

軟錯(cuò)誤分為兩級-芯片級和系統(tǒng)級。當(dāng)芯片中的放射性原子衰變并釋放出阿爾法粒子時(shí),芯片級軟錯(cuò)誤將發(fā)生。它們通常是由高能粒子的輻射導(dǎo)致的(在下文中解釋)。這些阿爾法粒子與某個(gè)存儲單元碰撞,從而導(dǎo)致其改變狀態(tài)。當(dāng)所傳輸?shù)臄?shù)據(jù)遇到噪聲時(shí),系統(tǒng)級軟性錯(cuò)誤將發(fā)生。這種錯(cuò)誤通常在數(shù)據(jù)位于總線而非存儲器中時(shí)發(fā)生??刂破鲗⒃肼暯庾x為數(shù)據(jù)。這個(gè)錯(cuò)誤數(shù)據(jù)最終被視為正確數(shù)據(jù),從而導(dǎo)致尋址或處理錯(cuò)誤。

用于衡量軟錯(cuò)誤發(fā)生率的軟錯(cuò)誤率(SER)決定了器件因高能粒子發(fā)生故障的概率。由于軟錯(cuò)誤是隨機(jī)的,軟錯(cuò)誤的發(fā)生并不決定存儲器的可靠性,而是決定其故障率。在那些采用了軟錯(cuò)誤應(yīng)對機(jī)制的系統(tǒng)中(主要是高安全性和高可靠性系統(tǒng)),如果一個(gè)軟錯(cuò)誤(被稱為“所檢測到的不可恢復(fù)的錯(cuò)誤”-DUE)被檢測到,系統(tǒng)將重啟,以避免損壞重要數(shù)據(jù)。如果未重啟,它最終將成為一次無記載數(shù)據(jù)損壞(SDC)。SDC要比DUE危險(xiǎn)得多,因?yàn)镾DC會導(dǎo)致數(shù)據(jù)丟失,而DUE只會導(dǎo)致系統(tǒng)在短時(shí)間內(nèi)不可用。在大量的消費(fèi)電子設(shè)備中,軟錯(cuò)誤的風(fēng)險(xiǎn)并不很大,它們更可能因軟件錯(cuò)誤或部件損耗發(fā)生故障。

軟錯(cuò)誤的發(fā)生概率
取決于眾多因素,如入射粒子、撞擊區(qū)域和電路設(shè)計(jì)等。電容和電壓更高的電路更不容易出現(xiàn)軟錯(cuò)誤, 但這會招致更慢的邏輯門和更高的功耗。因此,隨著芯片工藝的不斷進(jìn)步,軟錯(cuò)誤的發(fā)生概率也越來越大。電容和電壓的組合被稱為臨界電荷(Qcrit)。它被定義為一次粒子撞擊導(dǎo)致電路發(fā)生故障所必需擁有的電荷。由于邏輯電路中的每個(gè)節(jié)點(diǎn)都有其獨(dú)特的電容和輸出距離,因此,Qcrit通常以節(jié)點(diǎn)為單位測量。此外還必須注意,Qcrit 會隨溫度緩慢變化。

電路軟錯(cuò)誤 = k X 通量 X 面積 X e-Qcrit/Qcoil

其中,k = 取決于具體工藝的常數(shù)

通量 =中子通量

面積 = 對軟錯(cuò)誤敏感的電路面積

Qcoll = 所采集電荷與所生成電荷的比率

該模型被稱為中子誘發(fā)型電路軟錯(cuò)誤的Hazucha & Svensson模型。

導(dǎo)致軟錯(cuò)誤的原因

阿爾法粒子

阿爾法粒子由兩個(gè)質(zhì)子和兩個(gè)中子組成,類似于一個(gè)氦核。它們由放射性原子核在阿爾法衰變過程中釋放。 阿爾法粒子擁有數(shù)個(gè)MeV的動能,低于中子。阿爾法粒子擁有一個(gè)致密的電荷層,在穿過半導(dǎo)體襯底時(shí)將產(chǎn)生多個(gè)電子空穴對。如果這種擾動足夠強(qiáng),它就有可能翻轉(zhuǎn)某個(gè)位。由于這種情況通常只會持續(xù)幾分之一納秒,因此很難被檢測出。

芯片被封裝在含有微量放射性污染物的材料,如錫球或加工材料中。塑封材料、封裝和其它裝配材料中的微量鈾- 238、鈾- 232的放射性衰變會產(chǎn)生低能阿爾法粒子。然而,我們幾乎不可能維持實(shí)現(xiàn)大多數(shù)電路的可靠性能所需的理想材料純度(小于0.001次/小時(shí)/平方厘米)。微量的環(huán)氧樹脂可為芯片屏蔽阿爾法輻射,從而降低軟錯(cuò)誤的發(fā)生概率。
[page]
宇宙射線

制造商已設(shè)法控制了釋放阿爾法粒子的污染物,但他們卻無法抗擊宇宙輻射。事實(shí)上,在現(xiàn)代半導(dǎo)體器件中,宇宙射線是最可能導(dǎo)致軟錯(cuò)誤的原因。宇宙射線中的主要粒子通常不能抵達(dá)地球表面,但它們會產(chǎn)生一串高能次級粒子,其中大多數(shù)是高能中子。中子不帶電荷,因此不會導(dǎo)致軟錯(cuò)誤,但卻能被芯片中的原子核俘獲,從而生成阿爾法粒子,繼而導(dǎo)致軟錯(cuò)誤。中子所經(jīng)歷的衰減很小,可穿透厚達(dá)5英寸的混凝土。

由于大氣屏蔽效應(yīng)隨著海拔的升高而減弱,宇宙輻射將隨之增加。因此,飛機(jī)和衛(wèi)星中的存儲器模塊極易出現(xiàn)軟錯(cuò)誤,軟錯(cuò)誤率是地面模塊的數(shù)百倍甚至數(shù)千倍。此外,由于上述大氣屏蔽效應(yīng)的減弱,位于極地的存儲模塊也極易出現(xiàn)軟錯(cuò)誤。為減少軟錯(cuò)誤,高風(fēng)險(xiǎn)應(yīng)用中所使用的模塊需要經(jīng)過一個(gè)名為輻射硬化的工藝。盡管如此,由于生產(chǎn)輻射硬化芯片需要大量測試(和時(shí)間),它們一般都屬于舊的工藝節(jié)點(diǎn)。

熱中子

由于存在中子俘獲反應(yīng),欠缺動能的中子是軟錯(cuò)誤的一個(gè)重要來源。(硼磷硅玻璃介電層中大量存在的)硼同位素(10B)原子核俘獲一個(gè)熱中子后將釋放一個(gè)阿爾法粒子、鋰原子核和伽馬射線。阿爾法粒子和鋰原子核都能導(dǎo)致軟錯(cuò)誤。硼在生產(chǎn)中被用于降低玻璃的融化溫度,因此具備更好的回流和整平特性。

在重要設(shè)計(jì)中,貧硼(只含11B)可用于降低軟錯(cuò)誤率,通過使用磷硅玻璃(PSG)氧化層替代硼磷硅玻璃(BPSG)來實(shí)現(xiàn)。貧硼對于腫瘤放射治療中使用的醫(yī)療電子設(shè)備尤其重要。中子和治療中使用的光子束相結(jié)合將形成一個(gè)熱中子通量,從而導(dǎo)致極高的軟錯(cuò)誤率。盡管如此,熱中子并非目前導(dǎo)致軟錯(cuò)誤的主要原因,制造商已通過150nm工藝節(jié)點(diǎn)消除了含硼酸介電層。

消減軟錯(cuò)誤的影響

改進(jìn)工藝和存儲單元布局

我們可以通過增加存儲單元中所存儲的臨界電荷提升存儲器的可靠性。此外,我們還可以使用一種可消減擴(kuò)散層厚度的工藝提高存儲器抵御軟錯(cuò)誤的能力。該工藝可縮短帶電粒子在存儲單元中存在的時(shí)間。三阱架構(gòu)也可用于將電荷驅(qū)離有源區(qū)。該工藝形成一個(gè)與NMOS耗盡區(qū)相反的電場,迫使電荷進(jìn)入襯底。它僅適用于NMOS區(qū)發(fā)生軟錯(cuò)誤的情況。

系統(tǒng)層面的消減技術(shù)

在系統(tǒng)層面上,設(shè)計(jì)人員可以使用外部糾錯(cuò)碼(ECC)邏輯消減軟錯(cuò)誤的影響。在該技術(shù)中,用戶使用額外的帶奇偶校驗(yàn)位的存儲芯片檢測和糾正錯(cuò)誤。正如人們所料,系統(tǒng)層面的消減技術(shù)較為昂貴,而且增加了FPGA軟件的復(fù)雜性。

改變芯片設(shè)計(jì)和架構(gòu)

這是抗擊軟錯(cuò)誤的最佳方法。芯片設(shè)計(jì)人員可以通過將ECC算法植入到芯片中消減軟錯(cuò)誤的影響。在寫操作時(shí),ECC編碼器算法為存儲器中存儲的每一個(gè)可尋址的數(shù)據(jù)字寫入奇偶校驗(yàn)位。在讀操作時(shí),ECC檢測算法使用奇偶校驗(yàn)位確定數(shù)據(jù)位是否已經(jīng)改變。如果出現(xiàn)單位錯(cuò)誤,ECC糾錯(cuò)算法將確定相關(guān)位的位置,然后通過將該數(shù)據(jù)位翻轉(zhuǎn)至其互補(bǔ)值協(xié)助糾錯(cuò)。

盡管如此,ECC不能獨(dú)立應(yīng)對多位翻轉(zhuǎn)錯(cuò)誤。因此,設(shè)計(jì)人員必須采用位交織技術(shù)。該技術(shù)組織位線的方法是將物理上相鄰的位映射到不同的字寄存器上。位交織距離將映射到同一個(gè)字寄存器上的兩個(gè)連續(xù)位分開。如果位交織距離大于一次多單元撞擊的擴(kuò)散范圍,它將在多個(gè)字中導(dǎo)致單位翻轉(zhuǎn),而不是在一個(gè)字中導(dǎo)致一次多位翻轉(zhuǎn)。

軟錯(cuò)誤是怎么損壞存儲器中信息的
 
典型的位交織距離取決于具體工藝。中子測試和隨后的物理MPU分析用于確定每種工藝節(jié)點(diǎn)的安全交織距離。在一個(gè)位交織存儲器中,單位錯(cuò)誤糾正算法可用于檢測和糾正所有錯(cuò)誤。ECC算法僅適用于受影響數(shù)據(jù)字的副本。存儲器中的數(shù)據(jù)仍然含有已翻轉(zhuǎn)的位。如果存儲器中的這個(gè)已翻轉(zhuǎn)的位沒有被糾正,同一個(gè)數(shù)據(jù)字中的另一次位翻轉(zhuǎn)就可能導(dǎo)致一次多位翻轉(zhuǎn)。因此,ECC邏輯必須指示出單位翻轉(zhuǎn)的發(fā)生和糾錯(cuò)。然后,系統(tǒng)可以使用該信息識別該事件,并回寫糾正后的數(shù)據(jù)。這種技術(shù)被稱為存儲器刷洗技術(shù)。

隨著半導(dǎo)體芯片變得越來越小,發(fā)生軟錯(cuò)誤的風(fēng)險(xiǎn)也在不斷升高。存儲單元的Qcrit會隨著其尺寸的縮小而減少,這使得其更易翻轉(zhuǎn)。因此,很多專家預(yù)測,軟錯(cuò)誤將成為這種趨勢的制約因素,而且最終將達(dá)到飽和點(diǎn),除非我們開發(fā)出能夠克服軟錯(cuò)誤的新技術(shù)。此外,隨著技術(shù)進(jìn)入人類生活的更多領(lǐng)域,人們對于可靠性的要求只會越來越高。這種趨勢催生了對存儲器模塊的片上ECC的需求。所有存儲器廠商都已開始推出具備片上ECC功能的芯片,以滿足市場對高可靠性存儲器的需求。SRAM領(lǐng)域的全球領(lǐng)導(dǎo)者賽普拉斯公司擁有一個(gè)基于ECC的異步SRAM系列,該系列是當(dāng)今市場上可靠性最高的異步SRAM。具備ECC功能的16Mbit異步SRAM已開始投產(chǎn),4Mbi版本也已開始提供樣品。

相關(guān)閱讀:

霍尼韋爾半導(dǎo)體封裝新材料,顯著減少軟錯(cuò)誤故障頻率
三星爆存儲器存隱患,都是谷歌的錯(cuò)嗎?
專家發(fā)言:快閃存儲器儲存陣列強(qiáng)勁成長

要采購存儲器模塊么,點(diǎn)這里了解一下價(jià)格!
特別推薦
技術(shù)文章更多>>
技術(shù)白皮書下載更多>>
熱門搜索
?

關(guān)閉

?

關(guān)閉