当前位置:首页 > 视频中心 > 食品行业

ChatGPT 全球瘫痪!一次意外的配置引发连锁故障。。。

时间: 2025-01-12 17:00:17 |   作者: 食品行业

  近日,OpenAI 表示,该公司部署一项新的遥测服务导致周三(12 月 11 日)其所有服务中断了三个小时。

  OpenAI 在一份事件分析报告中表示,该公司的 ChatGPT、 面向研发人员的 API 和视频生成器 Sora 等服务在下午 3 点 16 分至晚上 7 点 38 分这段期间出现了性能降级或完全不可用的情况。

  据这份报告数据显示,这起事件归因于一项新的遥测服务导致 Kubernetes 控制平面不堪重负,并在该公司的关键系统中造成了连锁反应式的故障。

  该公司在这份报告中表示:“这一事件是我们在内部进行变更、以便针对总系统部署新的遥测服务导致的结果,并不是安全事件或最近的新品发布造成的。”

  据报告显示,OpenAI 部署了新的遥测服务以提高可靠性,该服务将用来收集详细的 Kubernetes 控制平面度量指标,并提升该公司深入了解系统运作时的状态的能力。

  报告显示,在工作人员部署遥测服务仅过了 4 分钟后,就发生了中断事件,原因是该遥测服务的覆盖范围很广泛,这项新服务的配置无意中导致了执行资源密集型的 Kubernetes API 操作,这类操作使 Kubernetes API 服务器不堪重负,因此导致 OpenAI 大多数大型集群中的 Kubernetes 控制平面瘫痪。

  具体来说,新的遥测服务影响了OpenAI 的 Kubernetes 操作,包括该公司的许多服务用于 DNS 解析所依赖的一项服务。

  DNS 解析将 IP地址转换成域名,这是你能够输入“而不是“142.250.191.78”的原因。

  OpenAI 写道,OpenAI 使用 DNS 缓存“延迟了洞察可见性”,以及“在全面进一步探索问题之前允许部署遥测服务接着来进行”,从而使问题复杂化。DNS 缓存保存了先前查找的域名(比如网站地址)及其对应的 IP 地址方面的信息。

  该公司正在实施几项措施并确定这些措施的轻重缓急,以防止类似事件的发生,包括改进分阶段部署的工作,更有效地监控基础设施方面的变化,以及推行新的机制,以确保 OpenAI 工程师在各种情况下都能够访问该公司 的 Kubernetes API 服务器。

  报告声称:“我们为这起事件对我们的全部客户造成的影响表示道歉, 包括从 ChatGPT 用户、研发人员到依赖 OpenAI 产品的公司企业。我们没达到自身的期望。”

  今年 6月,OpenAI 所有与 ChatGPT 相关的服务都出现了持续 3 小时的中断,而在该公司于 2023年 11 月高调宣布开设一家 GPT 商店两天后,ChatGPT 出现了短暂但“严重”的中断。

  12 月 4 日,OpenAI 声称 ChatGPT 现在每周有 3 亿活跃用户,每天有 10 亿条用户个人信息通过这款 AI 聊天机器人发送,在美国有 130 万研发人员基于 OpenAI 进行开发。

  一个繁忙的城市交通系统突然新增了一个“实时路况检测系统”,目的是让交通管理更高效。然而,这个系统却意外要求每辆车都向中央服务器频繁发送详细的路况数据。由于城市里的车流量太大,这些请求在极短的时间内淹没了交通指挥中心(Kubernetes控制平面)。结果,交通信号灯停止工作,整个城市交通陷入瘫痪。

  虽然街道上的车子(数据平面)理论上能够继续行驶,但没有红绿灯的指挥,它们很快迷失了方向,造成全面的拥堵。等到指挥中心缓过来,才能恢复交通秩序。这一切的根源在于“新系统”的设计没有考虑到规模效应,导致压力超出了指挥中心的承受范围。

相关视频MORE +