特斯拉宣布了百万核Dojo超级计算错误检测技术,
发布时间:2025-06-09 10:05
6月7日的Home报道说,特斯拉昨天发表声明,说对用户介绍了百万核Dojo超级计算系统的故障核心检测技术。据报道,公司开发的压力工具可能会在处理器甚至群集中无需关闭的静音数据(SDC)中轻松地看到易于 - 到轨道错误。特斯拉说,道场目前只是世界上两个最大的处理器之一。该晶圆级芯片由完整的300mm晶圆制成,单芯片尺寸达到其物理极限。由于Dojo大芯片的超高复杂性,即使在制造过程中,也很难看到100%的缺陷谷物,而在安静数据中发现错误也更加困难。尽管在所有硬件中不可避免的是SDC,但Dojo处理器具有8,850个核心,18,000A Kasalphabet和15,000W的超高电力消耗,这会严重增强其影响,因此所有核心都应按设计,否则,否则就应该运行单个数据误差可能会破坏持续数周的全职时间来完成AI培训结果。 Tesla calls the wafer-level dojo processor "Training Modules", each contains 25 645mm² D1 chip, wrapped in TSMC info_sow technology, incorporates 354 customized 64-bit RISC-V Cores (including 1.25MB SRAM for data storage and instructions) cluster and interconnected by a mechanical network) that provides 10TB/s bandwidth.每个D1还支持4TB/S离芯片外带宽,因此一个单个“训练模块”总共具有8,850个核心,支持8/16/32/64位整数和多个数据格式。为了应对核心故障的VELUEIB,特斯拉首先采用了差异-Fuzz的测试技术:开发随机指令集并同时将其发送给所有内核,并通过比较输出结果来确定差异。但是,由于主机和训练模块之间的通信开销太高,因此该过程持续太长。为了提高效率,特斯拉S找到了一种改善其发现技术的方法。该过程主要由三个创新完成:分配0.5MB的每一个核心的随机指令特定负载,使用训练模块中的高带宽通信(而不是主机通信)来实现核心之间的负载和连续实现,从而增加了条约的数量,增加了4.4GB的重置而无需重置时间,而无需重新释放芯即可逐渐释放多个环境,从而使较大的环境越来越多地散发出频率的范围,从而增加了频率的范围。该公司表示,由于实施时间的增加而导致的速度损失低于提高发现的可靠性。 XOR操作是SRAM指定区域中寄存器值的理由,这将缺陷计算的单位识别可能性增加了10次(通过缺陷核心测试)和性能损失。特斯拉说,这项技术不仅适合培训模块级别或机柜水平包括12个模块,但也在集群级别运行,以在数百万个操作核心水平上实现故障的位置。特斯拉的报告表明,调整跟踪系统的优化应力检测到Dojo群集中的大量故障核心。发现时间分布是极化的:执行1GB-100GB负载指令(秒至分钟)时发现大多数缺陷;那些难以检测缺陷的人需要超过1000GB的说明(几个小时)。应该强调的是,压力工具测试是轻巧和自尊的,并且支持背景考试而无需离线。最终,只有失败的核心被禁用,并且每个D1芯片可以忍受一些重大失败而不会影响整体功能。特斯拉宣布,除了发现有缺陷的核心外,压力工具还可以检测到罕见的D LevelSeSign,并通过软件调整来安排它们。和监测系统的广泛扩展,也发现并解决了许多基础软件问题。它在官方网站上在家中学到了压力工具与Dojo的运行群集完全集成在一起,以在AI培训期间实施硬件健康监测。特斯拉说,失败的速度紧随其后的是与Google和Meta发布的数据相当,表明跟踪和硬件工具处于同一行业水平。