2025-10-20 AWS 大當機(US-EAST-1)事件總覽

摘要

2025 年 10 月 20 日,AWS 在 美東北維吉尼亞區(US-EAST-1) 發生大規模服務中斷。
根因為 DynamoDB 端點 DNS 解析失效,導火線出自 EC2 內部網路中 Network Load Balancer 健康監控子系統 的異常,導致 DNS 紀錄錯誤被清除。
由於 DynamoDB 是眾多 AWS 服務的基礎依賴,此事件迅速引發連鎖效應。AWS 當日傍晚宣佈恢復正常,並在後續發表改進計畫。


🧭 事件時間軸(美東時間 ET)

時間(約)事件
03:11 AMAWS 偵測 US-EAST-1 多項服務錯誤率上升,開始調查
04:01 AM確認 DynamoDB 端點請求錯誤率「顯著上升」
04:22 AMDNS 問題完成初步緩解,部分服務開始恢復
中午前後部分控制面仍有延遲與積壓任務
18:01 PMAWS 宣佈「所有服務恢復正常運作」

🧩 系統架構關係圖(Mermaid)

graph TD
    A[DNS / Route53 Resolver] --> B
    B["DynamoDB Endpoint (US-EAST-1)"] --> C
    C["Dependent AWS Services<br>(S3, CloudWatch, IAM, STS, etc.)"] --> D[Customer Applications & Websites]
    A --> E[EC2 / NLB Health Check System]
    E --> B

說明:

  • 故障起點:DNS 子系統導致 DynamoDB 端點無法解析。
  • NLB 健康檢查誤報造成額外壓力。
  • 依賴 DynamoDB 的服務(IAM、CloudWatch、Redshift…)接連受影響。
  • IAM 與 Global Tables 等全球功能亦發生同步失效。

⚙️ 技術根因分析

  • DNS 解析異常:DynamoDB 的區域端點紀錄被誤清空,造成無法解析。
  • 內部監控錯誤:NLB 健康監控子系統異常,導致流量重新導向與 DNS 錯誤交互放大。
  • 集中化設計問題:US-EAST-1 為歷史最早、用量最大的區域,服務高度耦合。
  • 非外部攻擊:AWS 確認並非 DDoS 或入侵,純屬內部技術故障。

🌐 受影響範圍

  • 區域:US-EAST-1(北維吉尼亞)為主;其他區域因依賴該區全球端點間接受影響。
  • AWS 服務:DynamoDB、EC2、S3、CloudWatch、IAM、STS、Redshift、Connect 等。
  • 外部應用:Snapchat、Reddit、Venmo、Coinbase、Robinhood、Fortnite、Alexa、Ring、Shopify 等出現中斷或延遲。

💰 影響與後果

  • 數千家網站與應用無法存取,造成廣泛服務中斷。
  • 國際金融、通訊、遊戲、電商均受波及。
  • 各產業估計損失數百萬美元,並引發雲集中化風險討論。

🐟 魚骨圖:AWS 2025-10-20 Outage 因果關聯(Mermaid)

graph LR
    O[2025-10-20 AWS Outage]
    O --> A[技術層面: DNS 自動化競態, 紀錄誤刪]
    O --> B[人員流程: 值班延遲, 資深缺口, 溝通不順]
    O --> C[架構設計: US-EAST-1 集中化, 缺乏隔離]
    O --> D[監控通報: 狀態頁延遲, 偵測不足]
    O --> E[外部依賴: 客戶多雲備援不足]

🧰 AWS 官方回應

  • 初步階段:AWS 於 0:11 PDT 起持續在狀態頁更新。
  • 根因確認:1:30 PDT 公告為 DNS 解析問題。
  • 緩解完成:約 2:24 PDT 服務逐步恢復。
  • 結案聲明:18:01 ET 宣佈全面恢復。
  • 後續措施:於 10 月 23 日發布 Post-Event Summary。

🔧 改進與預防措施

  • 修正 DNS 自動化競態與防呆機制
  • NLB 健康檢查 新增 Velocity Control 節流防護。
  • 強化 EC2 控制面與自動限流測試,改善異常復原流程。
  • 啟動全服務層級的 可用性與隔離性審查,縮短未來復原時間。

🧠 對用戶的架構建議

  • 採用 多可用區 (Multi-AZ)多區域部署
  • 關鍵系統規劃 多雲或混合雲備援
  • 應用層實作 退避重試、熔斷與快取降級
  • 對 DNS 與身分服務設定 合理 TTL,避免大面積快取失效。
  • 建立 狀態監控 + 自動通報,確保第一時間偵測供應商異常。

📚 名詞速查

名稱說明
US-EAST-1AWS 北維吉尼亞區域,歷史最久、使用量最大
DynamoDBAWS 全託管 NoSQL 服務,本次主要受害者
NLBNetwork Load Balancer,內部健康檢查異常起點
DNSDomain Name System,事件引爆點

📎 參考來源

  • AWS Health Dashboard / Post-Event Summary
  • Reuters – “AWS outage disrupts businesses worldwide”
  • The Verge – “Major AWS outage took down Fortnite, Alexa, Snapchat, and more”
  • Wired – “What the huge AWS outage reveals about the Internet”
  • The Register – 分析文 “Amazon brain drain finally sent AWS down the spout”

Comments

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *