1 / 15

“Soft Errors in Advanced Computer Systems”

“Soft Errors in Advanced Computer Systems”. Robert Baumann (IEEE Design & Test of Computers, May-June 2005). Introdução. Aumento da integração, aumento da sensibilidade dos dispositivos Fenômenos observados por duas décadas: Partículas-alfa: U e To

idana
Download Presentation

“Soft Errors in Advanced Computer Systems”

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. “Soft Errors in Advanced Computer Systems” Robert Baumann (IEEE Design & Test of Computers, May-June 2005)

  2. Introdução • Aumento da integração, aumento da sensibilidade dos dispositivos • Fenômenos observados por duas décadas: • Partículas-alfa: U e To • Nêutrons de alta energia: radiação cósmica • Interação nêutrons de baixa energia: 10B (borophosphosilicate glass – BPSG) • Erros não esperados em tecnologias >65ηm

  3. Geração de cargas • A magnitude da perturbação de um íon depende de sua Linear Transfer Energy (LET), medida em [MeVcm²/mg] – depende da massa e da energia da partícula e do material pelo qual ela está ‘passando’ • Em um substrato de Si, cada 3.6 eV de energia produz um par elétron-buraco

  4. LET x Distância

  5. Geração de cargas • Quão mais longe da junção NP, menor a carga coletada (Qcoll) e menor a chance de causar um erro • Hoje nodos não isolados – mar de nodos, próximos uns dos outros causam o compartilhamento das cargas e ação bipolar parasita entre as junções • Pode influenciar o montante Qcoll, além do tamanho e localização de erros de V e I

  6. Magnitude de Qcoll • Depende de: • tamanho do dispositivo • ‘biasing’ dos nodos do circuito • estrutura do substrato • dopagem • tipo do íon (energia, trajetória e ocorrência) • estado do dispositivo • Mas, Qcoll é a ‘metade da história’...

  7. Magnitude de Qcoll • Sensibilidade depende dos seguintes fatores: • capacitância dos nodos • tensão de operação • resistência dos transistores • Todos estes fatores influenciam Qcrit: montante de carga necessário para disparar e alterar um estado de um nodo

  8. Magnitude de Qcrit • A resposta do dispositivo à injeção de cargas é dinâmica e depende da magnitude do pulso de radiação e de características temporais • Por isso, o efeito é difícil de ser modelado para a determinação de Qcrit, que não é constante • Qcoll>> Qcrit : soft error induzido • Qcoll< Qcrit : soft error não ocorre

  9. Soft Error Rate – SER • Medida para determinar a taxa de existência de erros ocorridos num dado dispositivo • Failure in Time – FIT: um erro a cada 109 horas de operação • Grande preocupação quando não corrigidos: a taxa de erros supera as características de mecanismos confiáveis

  10. Memory SER • DRAM bit SER diminuiu cerca de 1000x em 7 gerações, mas DRAM system SER permanece + ou - constante • SRAM bit SER e SRAM system SER diminuíram pelo não-uso do BPSG • aumento da densidade de SRAM: a saturação SRAM bit SER não traduz em SRAM system SER

  11. Memory SER

  12. Mitigating Soft Errors • Duas causas de soft errors são facilmente contornáveis: • Partículas-alfa: purificando o processo • Interação nêutrons de baixa energia: evitando o uso do BPSG • Porém, uma causa não é contornável: • Nêutrons de alta energia: radiação cósmica sempre há em qualquer lugar • Esta última, é determinante do SER

  13. Suavização de erros • Modificações no processo e ajustes na tecnologia disponível: isolamento por poços e guard rings; processos caros • Simplificações no projeto ou ajustes do layout: aumentar Qcrit sem alterar Qcoll ; aumento do atraso e área utilizada • Detecção e correção de erros: paridade e SEC/DED; alta complexidade e latência introduzida

  14. Suavização de erros • Design and layout tricks: redundância e votador; custo de área pode ser contornado com um votador multiplexado no tempo • Redundância de todo o sistema: replicação completa, execução em paralelo; reinício da execução ou votador (+ caro, mas a taxa de erros cai a praticamente zero)

  15. Perspectivas • 1 FIT = 1 erro por bilhão de horas de operação • 50k FIT para SRAM de alguns Mb (estimado) ≈ 1 erro a cada dois anos de operação • A quantidade de erros cresce conforme a quantidade de chips no sistema • O nível aceitável de erros para atender as expectativas de confiabilidade do consumidor depende muito mais da aplicação final que dos componentes utilizados nos dispositivos

More Related