梅根 · 凯西1, Ed Wyrwas2, 和丽贝卡奥斯汀1 1NASA GSFC , 飞行数据系统和辐射效应分支 / 代码 5612SSAI , Inc , 为 NASA GSFC 执行的工作 首字母缩略词 NASA – 国家航空与航天管理局 NCS2 – 神经计算棒 2 NEPP – NASA 电子部件与封装计划 NSRL – NASA 空间辐射实验室 SEE – 单事件效应 SEFI – 单事件功能中断 SEL – 单事件闩锁 SEU –单事件翻转 TPU – 张量处理单元 TSMC – 台湾积体电路制造公司 VPU – 视觉处理单元 AI – 人工智能 ASIC – 专用集成电路 COTS – 商业现货 CUVIS – 紧凑型紫外到可见光成像光谱仪 DAVINCI – 深层金星大气探测仪和化学物质及成像调查 GPU – 图形处理单元 LBNL – 律rence 巴克利国家实验室 MGH – 麻省总医院 背景 •COTS AI 边缘处理 ASIC 作为 GPU 子任务的一部分 , 在过去的几年中一直在 NEPP 雷达上 •在2021年秋季,我们接到了CUVIS仪器团队(DAVINCI任务的一项技术演示)成员关于对候选AI边缘处理ASIC进行辐射测试的请求。 • 测试的零件为: •Google 珊瑚加速器模块•Google Edge TPU•英特尔神经网络计算棒 2•英特尔 Movidius Myriad X VPU •这两种嵌入式解决方案专门设计用于在小型、低功耗的形式因素中进行AI推理,并且最近已被集成到太空飞行平台中。 •它们提供了必要的AI计算能力以支持较低复杂度的算法,同时满足其尺寸、重量、功率和成本要求。 制造过程节点 •英特尔 Movidius Myriad X VPU 采用 16 nm finFET 工艺制造 •Google Edge TPU 被认为采用 16 或 12 nm TSMC finFET 工艺制造(未经证实) • Cloud TPU 的节点大小公开可用 : •TPUv1 使用 28 - nm 节点•TPUv2 和 TPUv3 使用 16 - nm 节点•TPUv4 使用 7 - nm 节点 •TPUv2 和 TPUv3 与 Edge TPU 在同一时间内发布 , Edge TPU 可能使用类似的 16 纳米工艺 •假设Google TPUs是在16nm或12nm工艺下制造的,这些部件预计会表现出与IntelVPUs类似的辐射响应。 关于模型 : 基于空间的应用程序 •基于空间的 AI 模型专注于高光谱图像分类 •将光谱输入到多层感知器(MLP) 分类器•将光谱和空间信息输入到卷积神经网络 (CNN) •将行星的光谱信息输入一个生成对抗网络(GAN)设计的回归模型,该模型用于系外行星大气参数检索(例如,化学成分混合比、温度剖面或云属性)。•两者均基于开源的Salinas高光谱数据集[14]运行,估计图像中每个像素的土地使用类别概率。 • 此应用程序是为 CUVIS 仪器开发的 •它将使研究人员能够实时分析机载数据、生成完整数据集以供全面返回,并帮助标识和优先处理需要高分辨率数据返回的数据。 关于模型 : 商业应用 •这些商业 AI 模型中的第一个是 MobileNetV2 , 经过训练可以在 ImageNet数据集上执行图像分类 •特别为移动应用设计,参数和操作显著少于其他先进的网络(如ResNet50)。 •第二种模型是一种基于MobileNetV2骨干的单-shot检测器(MobileNetV2-SSD),该模型经过训练以在Common Objects in Context(COCO)数据集上进行物体检测。 •对图像中的多个对象进行分类,并同时估计这些对象在图像中出现的位置的矩形边界框。 辐射测试 单事件效果 总电离剂量 •用 1.1 - MeV 伽马射线辐照 GSFC 的辐射效应设施•16.9 rad / s(英特尔) 和 15.8 rad / s(谷歌) 的剂 •重离子参见 NSRL(Google) 和 LBNL(英特尔) 辐照•高能质子 SEE 在 MGH 辐照 量率 •英特尔和谷歌设备各 14 台 • 2 个控件 , 6 个偏置和 6 个无偏置 TID 结果 TID 结果: 英特尔神经计算棒 2 •通过 10 krad(Si) 在任何设备中均未观察到 TID 的影响•算法精度不变 , 表明模型的记录输出作为剂量的函数不变 •在 10 至 20 krad(Si) 之间 , 在有偏置和无偏置的 DUT 中都观察到不同的行为 •在偏置器件中 , 大约 6 krad (Si) 后 , 电源电流下降 100s 的 mA •单个电源向所有六个 DUT 提供电压 , 因此电流在所有偏置器件上累积•波动以〜 120 - 130 mA 的倍数变化 , 这是单个设备的电流消耗•表示某些设备出现间歇性故障就地 •但是 , 偏置设备能够通过 USB 连接到主机并正常运行•此外 , 所有算法的精度与辐照前的值相比仍然没有变化 TID 结果: 英特尔神经计算棒 2 •在20 krad(Si)剂量点,未偏置的器件被放置在铅/铝盒内的照射室中,并进行几分钟的偏置,以确定在偏置器件中观察到的电流波动是否可能是由于热变化引起的。 •供应电流保持稳定,因此随后对部件进行接地,并暴露源以开始照射。 •在该剂量步骤结束后 , 三个无偏差的 DUT 在功能上失败 •他们无法通过 USB 连接 , 并且在施加偏置电压时没有电流 •存活下来的(无论是偏置还是未偏置的)DUT 在较小的增量剂量步骤(直至25 krad(Si))下均正常工作,尽管在偏置的DUT中检测到电流的偶尔变化。 TID 结果: 英特尔神经计算棒 2 •在开始将偏置设备的剂量提升至25 krad(Si)的过程中不久,观察到供应电流出现立即下降。 •辐射暂停 , 设备进行了电源循环 , 但电流没有恢复到标称水平 • 在剩余的步骤中保持相同的较低电流 •运行结束后,所有带有偏见的设备均无法通过USB连接到主机计算机——所有六台DUT均功能失效。 TID 结果 : 英特尔 NCS2 结论 •对原始数据的后处理表明 , 算法精度没有变化 •所有设备故障均表现为无法通过USB进行通信,表明电路中的USB控制器部分出现故障。 • 进行了辐照后失效分析 •电压表指示电压调节器正常工作•卸下电压调节器并直接施加电源电压不会改变性能 •这些设备包含多个商业芯片——Myriad X 处理器不是影响 Intel Neural ComputeStick 2 TID 性能的限制因素。 TID 结果 : Google Coral Edge TPU •所有 DUT(偏置和非偏置) 标称执行高达 25 krad(Si) •30 krad (Si) 后 , 所有 6 个偏置 DUT 都无法通过 USB 通信 •PGOOD 指示片上电压调节器在标称 1.8 V 时测得的电压符合预期 •算法精度不变 , 表明模型的记录输出不变 •通过 60 krad(Si) , 无偏器件正常运行 , 所有器件的测量精度相同 •在 75 krad(Si) 时 , 未偏置的 DUT 与无法通过 USB 进行通信的偏置设备类似地失败。 •PGOOD 电压也是标称 1.8 V , 算法精度不变 见结果 观察到的 SEE 签名 •观察到的 SEE 类型 : •SEUs表现为算法准确性方面的变化,这些变化可能最终导致图像分类错误,也可能不会。 •SEFIs 表现为算法准确性中的持续错误,导致分类不正确,或者表现为无法通信(设备会“挂起”),或模型失效,但程序能够继续到下一个模型。 •即使在功率周期之后 , 在概率向量中仍表现为持续错误的停滞位 •卡滞位最有可能在用于模型权重或输入数据的高速缓冲存储器中 SEE Signatures: SEU 查看签名 : 可恢复的 SEFI 查看签名 : 可恢复的 SEFI 参见结果 : 重离子 •Myriad X 被解封 , NCS2 在 LBNL 测试•在最大测试 LET 为 49.3 MeV - cm 时没有观察到 SEL2/mg•SEU 和 SEFI LET~ 1.16 MeV-thcm2/mg•16 MeV / n 束流调谐中没有较轻的离子•没有观察到卡住的钻头 •Google Coral TPU 无法解封 , 因此在NSRL 对设备进行了测试•在最大测试 LET 为 57.3 MeV - cm 时没有观察到 SEL2/mg•SEU 和 SEFI LET~ 1.96 MeV-thcm2/mg•在 0.5 MeV - cm 处未观察到 SEE2/mg•在 57.3 MeV - cm 的 LET 处观察到卡住的钻头2/mg 重离子 SEFI 横截面: 英特尔 NCS2 对于太阳最小值期间的地球同步 / 行星际任务 ,预期利率为 0.083 SEFI / 天 重离子 SEFI 横截面 : Google Edge TPU 对于太阳最小值期间的地球同步 / 行星际任务 ,预期利率为 0.017 SEFI / 天 查看结果 : 高能质子 •两种器件均在 MGH 下测试 , 质子为 60 - 、 125 - 和 200 - MeV • 未观察到 SEL 或卡住位 •与用重离子辐照时观察到的 SEU 和 SEFI 特征相同 对于太阳最小值期间的地球同步 / 行星际任务 ,质子对预期速率的贡献为 0.0035 SEFI / 天 质子 SEFI 横截面 : Google Edge TPU 对于太阳最小值期间的地球同步 / 行星际任务 ,质子对预期速率的贡献为 0.00035 SEFI / 天 见结论 •AI 模型的实施在英特尔 NCS2 和 Google Edge TPU 中产生了非常相似的SEE 签名和行为 •设备的框图有限 , 因此每种类型的确切原因 / 敏感位置未知 •每种设备类型的重离子诱导的 SEFI 横截面相似 •然而,在测试的最高 LET 值下似乎出现了范围问题,因此这些设备中可能存在其他类型的 SEE(辐射引起的电荷俘获效应)。 •高能质子与重离子观察到相同的 SEE 特征 •英特尔 NCS2 的质子横截面比 Google Edge TPU 高大约一个数量级 •由于质子导致 SEFI 的预期数量成比例增加