IT 뉴스

AWS 서비스, 하루 종일 이어진 대규모 장애 후 복구 완료

네야_IT 2025. 10. 23. 23:05
반응형

전 세계 주요 웹사이트 동시 접속 장애… "인터넷이 감기 걸린 날"

아마존 웹서비스(AWS)가 또다시 전 세계 인터넷을 멈춰 세웠습니다. 현지 시간 10월 21일(월) 새벽부터 시작된 AWS의 대규모 장애로 인해 아마존닷컴(Amazon.com), 디즈니플러스(Disney+), 스냅챗(Snapchat), 레딧(Reddit), 캔바(Canva) 등 수많은 주요 서비스가 일시적으로 접속 불가 상태에 빠졌습니다. AWS는 같은 날 오후 6시(미 동부시간) 이후 “모든 서비스가 정상적으로 복구됐다”고 밝혔지만, 일부 메시지 큐와 내부 프로세스는 몇 시간 동안 지연이 이어졌습니다. 회사 측은 “조만간 상세한 Post-Event Summary(사후 보고서)를 공개할 예정”이라고 전했습니다.


▣ 장애의 시작 – 핵심 원인은 DNS 문제

이번 장애는 AWS의 핵심 리전 중 하나인 미국 동부(버지니아) us-east-1 리전에서 오전 3시 11분경 처음 보고되었습니다.
AWS는 초기에 “DynamoDB(데이터베이스 서비스)의 DNS 문제로 인해 여러 서비스에 영향을 미치고 있다”고 공지했습니다.

DNS(Domain Name System)는 웹사이트 주소를 IP 주소로 변환해주는 인터넷의 전화번호부와 같은 시스템입니다.
즉, DNS가 작동하지 않으면 웹사이트의 위치를 찾을 수 없어 접속 자체가 불가능해집니다.

AWS는 오전 6시 35분경 “DNS 문제가 완전히 완화되었다”고 발표했지만, 이후에도 EC2 인스턴스 생성 및 네트워크 연결 오류가 지속되며 완전한 복구까지는 시간이 걸렸습니다.


▣ 주요 피해 사이트와 서비스들

이번 장애는 전 세계 수많은 기업과 기관에 영향을 미쳤습니다.
웹사이트 모니터링 서비스인 Downdetector에 따르면, 아래와 같은 사이트와 앱에서 오류 보고가 급증했습니다.

  • 디즈니플러스(Disney+), 스냅챗(Snapchat), 레딧(Reddit), 캔바(Canva)
  • 로빈후드(Robinhood), 링(Ring), 벤모(Venmo), 리프트(Lyft)
  • T-Mobile, 유나이티드항공(United Airlines), 맥도날드 앱, 뉴욕타임즈(The New York Times)
  • 영국 정부 사이트(Gov.uk)세무청(HMRC)
  • Lloyds Banking Group 일부 온라인 서비스

아마존 내부 시스템 또한 예외가 아니었습니다. 창고 및 배송 직원들은 내부 관리 시스템이 다운되어 일시적으로 작업을 중단했고, 서드파티 판매자용 플랫폼인 Seller Central 역시 접속 불가 상태가 이어졌습니다. 게임, 핀테크, 교육 플랫폼 등 클라우드 기반 서비스들도 차례로 영향을 받았습니다.

  • 로블록스(Roblox), 포트나이트(Fortnite) 접속 지연
  • 코인베이스(Coinbase) 거래 제한
  • Canvas(온라인 강의 플랫폼) 기능 오류
  • Perplexity(생성형 AI 검색엔진) 서비스 중단

캔바(Canva)는 “기저 클라우드 서비스의 심각한 문제로 인해 오류율이 급격히 증가하고 있다”고 발표했습니다.


▣ AWS 복구 과정 및 대응

AWS는 새벽 5시 1분 업데이트에서 “복구를 가속화하기 위해 여러 경로로 대응 중”이라고 밝혔으며, 약 70여 개의 자체 서비스가 영향을 받았다고 설명했습니다. 이후 오후 1시 30분경, 일부 리전에서 EC2 복구가 시작되었고 “나머지 리전에서도 순차적으로 오류율과 네트워크 문제를 해소할 것”이라며 점진적 복구를 예고했습니다. 최종적으로 오후 6시 53분(미 동부시간), AWS는 “모든 서비스가 정상 상태로 돌아왔다”고 공지했습니다.


▣ 전문가들이 본 원인과 시사점

보안 전문가들은 이번 사건을 “사이버 공격보다는 기술적 결함 가능성이 높다”고 분석했습니다.
사이버보안 기업 NymVPN의 최고디지털책임자 롭 자딘(Rob Jardin)은

“핵심 네트워크의 일부가 다운되거나 시스템이 과부하 상태가 되면 이런 문제는 순식간에 퍼진다. AWS에 의존하는 사이트가 너무 많기 때문에 영향이 전 세계로 확산된다.”
고 평가했습니다.

노트르담대학의 IT 교수이자 전 NSA 컴퓨터 과학자 마이크 채플(Mike Chapple) 교수는

“문제는 DynamoDB 그 자체가 아니라, 다른 시스템들이 데이터의 위치를 찾는 과정에서 발생한 오류였다”며
“이번 사건은 우리가 얼마나 소수의 클라우드 서비스에 의존하고 있는지를 보여주는 사례”라고 지적했습니다.

그는 덧붙여,

“아마존, 마이크로소프트, 구글 중 한 곳이라도 문제를 일으키면, 인터넷 전체가 감기에 걸린다.”
는 비유로 현재의 클라우드 중앙집중 구조의 취약성을 강조했습니다.


▣ 반복되는 대규모 장애 – 중앙집중화의 그림자

이번 사건은 2023년과 2021년에 이어 또다시 발생한 AWS 대규모 장애입니다. AWS뿐만 아니라 마이크로소프트(Microsoft)와 구글(Google) 역시 최근 몇 달 사이 여러 차례의 서비스 중단을 겪었습니다.

  • 2024년 7월, 보안업체 Crowdstrike의 오류 업데이트로 인해
    전 세계 Windows 시스템이 다운되며 항공편과 은행, 병원 업무가 마비된 바 있습니다.
  • 2024년 6월, Google Cloud 역시 여러 계층의 잘못된 업데이트로 인해
    OpenAI, Shopify 등 주요 서비스가 중단되었습니다.

AWS는 클라우드 인프라 시장의 약 1/3을 점유하고 있으며, 이는 전 세계 수백만 기업의 IT 서비스가 AWS에 의존하고 있음을 의미합니다. 이번 사태는 단순한 기술 장애를 넘어, 글로벌 IT 인프라의 집중화리스크 관리 필요성을 다시금 일깨워준 사건으로 평가받고 있습니다.


▣ 마무리

이번 AWS 장애는 단 하루의 사건이었지만, 그 파장은 전 세계 인터넷 환경 전반에 걸쳤습니다. “DynamoDB”나 “DNS” 같은 기술적 용어를 몰라도, 그 영향은 누구나 체감할 수 있었죠. AWS는 빠르게 서비스를 복구했지만, 클라우드 독점 구조에 대한 경고음은 점점 더 커지고 있습니다. 앞으로의 클라우드 시장은 단순한 경쟁을 넘어, “분산과 복원력(Resilience)”이라는 새로운 키워드를 중심으로 재편될 가능성이 높습니다.


📰 요약 정리

  • AWS us-east-1 리전DNS 문제로 대규모 서비스 장애 발생
  • 아마존, 디즈니플러스, 스냅챗, 레딧, 캔바 등 주요 사이트 일시 중단
  • 영국 정부, 항공사, 은행 등도 영향
  • 수시간 후 복구 완료, 데이터 손상은 없음
  • 중앙집중형 클라우드 구조의 취약성 재확인

📌 해시태그

#AWS #아마존웹서비스 #클라우드장애 #인터넷장애 #디즈니플러스오류 #스냅챗오류 #레딧접속불가 #캔바오류 #AWS복구 #클라우드시장 #DNS문제 #DynamoDB #us_east_1 #IT뉴스 #클라우드보안

반응형