OpenAI 将其大型 ChatGPT 故障归咎于“新 telemetry 服务”

评论 · 33 浏览

OpenAI 因一个“新 telemetry 服务”出了问题,导致了其历史上最长的服务中断。周三,OpenAI 的人工智能聊天平台遭遇了这次故障。

OpenAI 将其历史上最长的一次中断归咎于一个“新部署的遥测服务”出现了问题。

周三,OpenAI 的 AI 助手平台 ChatGPT、视频生成器 Sora 以及开发者面向的 API 遭遇了严重的服务中断,始于太平洋时间下午 3 点左右。

OpenAI 很快承认了这一问题,并开始着手修复。

但恢复所有服务大约花了该公司三个小时。

在周四晚发布的事后分析中,OpenAI 表示此次中断并非由安全事件或最近的产品发布引起,而是由于周三部署的一项用于收集 Kubernetes 指标的遥测服务。

Kubernetes 是一个开源程序,用于管理容器,即包含应用程序及相关文件的包,这些包用于在隔离环境中运行软件。

“遥测服务影响范围广泛,因此这项新服务的配置无意中导致了……资源密集型的 Kubernetes API 操作。

”OpenAI 在事后分析中写道,“我们的 Kubernetes API 服务器不堪重负,导致大多数大型 Kubernetes 集群中的控制平面瘫痪。

这涉及大量的专业术语,但基本上来说,这项新的遥测服务影响了 OpenAI 的 Kubernetes 操作,包括许多公司服务依赖的 DNS 解析资源。

DNS 解析将 IP 地址转换为域名;这就是你能够输入“Google.com”而不是“142.250.191.78”的原因。

OpenAI 使用 DNS 缓存进一步复杂化了问题。

DNS 缓存保留了之前查询过的域名(如网站地址)及其对应的 IP 地址信息,“延迟”了可见性,并在问题的全部范围被理解之前允许遥测服务的部署继续进行。

OpenAI 称,在客户最终开始受到影响前几分钟他们就发现了问题,但由于需要绕过超载的 Kubernetes 服务器来实施修复措施,他们无法迅速采取行动。

“这是一个多个系统和流程同时失效并以意想不到的方式相互作用的结果。

”该公司写道,“我们的测试没有捕捉到对 Kubernetes 控制平面的影响变化 [并且] 因为锁定效应的影响,补救措施非常缓慢。

OpenAI 表示将采取多项措施防止类似事件在未来发生,包括改进分阶段部署和更好的基础设施变更监控机制,并引入新的机制确保 OpenAI 工程师在任何情况下都能访问公司的 Kubernetes API 服务器。

“我们为此次事件给所有客户带来的影响表示歉意——从 ChatGPT 用户到依赖 OpenAI 产品的开发者和企业。

”OpenAI 写道,“我们未能达到自己的期望。

评论