摘要
2025 年 10 月 20 日,AWS 在 美東北維吉尼亞區(US-EAST-1) 發生大規模服務中斷。
根因為 DynamoDB 端點 DNS 解析失效,導火線出自 EC2 內部網路中 Network Load Balancer 健康監控子系統 的異常,導致 DNS 紀錄錯誤被清除。
由於 DynamoDB 是眾多 AWS 服務的基礎依賴,此事件迅速引發連鎖效應。AWS 當日傍晚宣佈恢復正常,並在後續發表改進計畫。
🧭 事件時間軸(美東時間 ET)
| 時間(約) | 事件 |
|---|---|
| 03:11 AM | AWS 偵測 US-EAST-1 多項服務錯誤率上升,開始調查 |
| 04:01 AM | 確認 DynamoDB 端點請求錯誤率「顯著上升」 |
| 04:22 AM | DNS 問題完成初步緩解,部分服務開始恢復 |
| 中午前後 | 部分控制面仍有延遲與積壓任務 |
| 18:01 PM | AWS 宣佈「所有服務恢復正常運作」 |
🧩 系統架構關係圖(Mermaid)
graph TD
A[DNS / Route53 Resolver] --> B
B["DynamoDB Endpoint (US-EAST-1)"] --> C
C["Dependent AWS Services<br>(S3, CloudWatch, IAM, STS, etc.)"] --> D[Customer Applications & Websites]
A --> E[EC2 / NLB Health Check System]
E --> B說明:
- 故障起點:DNS 子系統導致 DynamoDB 端點無法解析。
- NLB 健康檢查誤報造成額外壓力。
- 依賴 DynamoDB 的服務(IAM、CloudWatch、Redshift…)接連受影響。
- IAM 與 Global Tables 等全球功能亦發生同步失效。
⚙️ 技術根因分析
- DNS 解析異常:DynamoDB 的區域端點紀錄被誤清空,造成無法解析。
- 內部監控錯誤:NLB 健康監控子系統異常,導致流量重新導向與 DNS 錯誤交互放大。
- 集中化設計問題:US-EAST-1 為歷史最早、用量最大的區域,服務高度耦合。
- 非外部攻擊:AWS 確認並非 DDoS 或入侵,純屬內部技術故障。
🌐 受影響範圍
- 區域:US-EAST-1(北維吉尼亞)為主;其他區域因依賴該區全球端點間接受影響。
- AWS 服務:DynamoDB、EC2、S3、CloudWatch、IAM、STS、Redshift、Connect 等。
- 外部應用:Snapchat、Reddit、Venmo、Coinbase、Robinhood、Fortnite、Alexa、Ring、Shopify 等出現中斷或延遲。
💰 影響與後果
- 數千家網站與應用無法存取,造成廣泛服務中斷。
- 國際金融、通訊、遊戲、電商均受波及。
- 各產業估計損失數百萬美元,並引發雲集中化風險討論。
🐟 魚骨圖:AWS 2025-10-20 Outage 因果關聯(Mermaid)
graph LR
O[2025-10-20 AWS Outage]
O --> A[技術層面: DNS 自動化競態, 紀錄誤刪]
O --> B[人員流程: 值班延遲, 資深缺口, 溝通不順]
O --> C[架構設計: US-EAST-1 集中化, 缺乏隔離]
O --> D[監控通報: 狀態頁延遲, 偵測不足]
O --> E[外部依賴: 客戶多雲備援不足]🧰 AWS 官方回應
- 初步階段:AWS 於 0:11 PDT 起持續在狀態頁更新。
- 根因確認:1:30 PDT 公告為 DNS 解析問題。
- 緩解完成:約 2:24 PDT 服務逐步恢復。
- 結案聲明:18:01 ET 宣佈全面恢復。
- 後續措施:於 10 月 23 日發布 Post-Event Summary。
🔧 改進與預防措施
- 修正 DNS 自動化競態與防呆機制。
- 為 NLB 健康檢查 新增 Velocity Control 節流防護。
- 強化 EC2 控制面與自動限流測試,改善異常復原流程。
- 啟動全服務層級的 可用性與隔離性審查,縮短未來復原時間。
🧠 對用戶的架構建議
- 採用 多可用區 (Multi-AZ) 與 多區域部署。
- 關鍵系統規劃 多雲或混合雲備援。
- 應用層實作 退避重試、熔斷與快取降級。
- 對 DNS 與身分服務設定 合理 TTL,避免大面積快取失效。
- 建立 狀態監控 + 自動通報,確保第一時間偵測供應商異常。
📚 名詞速查
| 名稱 | 說明 |
|---|---|
| US-EAST-1 | AWS 北維吉尼亞區域,歷史最久、使用量最大 |
| DynamoDB | AWS 全託管 NoSQL 服務,本次主要受害者 |
| NLB | Network Load Balancer,內部健康檢查異常起點 |
| DNS | Domain Name System,事件引爆點 |
📎 參考來源
- AWS Health Dashboard / Post-Event Summary
- Reuters – “AWS outage disrupts businesses worldwide”
- The Verge – “Major AWS outage took down Fortnite, Alexa, Snapchat, and more”
- Wired – “What the huge AWS outage reveals about the Internet”
- The Register – 分析文 “Amazon brain drain finally sent AWS down the spout”


發佈留言