이미지 확대보기세계 최대 클라우드 서비스 기업 아마존웹서비스(AWS)에서 최근 발생한 대규모 서비스 장애의 원인이 내부 자동화 시스템 간의 충돌 때문인 것으로 밝혀졌다.
CNN, 뉴욕타임스, 워싱턴포스트 등 주요 외신은 “AWS의 두 프로그램이 동시에 같은 데이터를 수정하려다 시스템 전체가 멈춘 것으로 드러났다”고 25일(현지시각) 일제히 보도했다.
◇ 두 프로그램이 같은 문서에 ‘덮어쓰기’
이들 외신에 따르면 AWS는 전날 공개한 사고 분석 보고서에서 “두 자동화 프로그램이 동시에 같은 도메인 주소(DNS) 정보를 업데이트하면서 해당 주소가 비워지는 오류가 발생했다”고 밝혔다.
DNS는 웹사이트 주소를 실제 서버의 위치와 연결해주는 일종의 ‘인터넷 전화번호부’로 이 주소가 비면 서버끼리 서로를 찾지 못해 통신이 끊어진다.
문제는 미국 버지니아주 ‘US-East-1’ 데이터센터에서 시작됐다.
AWS의 데이터 저장 서비스 ‘다이나모DB(DynamoDB)’가 먼저 멈췄고, 이어 앱 실행용 서버(EC2)와 네트워크 관리 시스템이 차례로 장애를 일으켰다.
인드라닐 굽타 일리노이대 교수는 CNN과 인터뷰에서 “두 학생이 같은 노트에 동시에 쓰다 서로의 글을 지워버린 상황과 같다”며 “결국 페이지가 통째로 비어버린 셈”이라고 비유했다.
◇ ‘한 곳’ 멈추자 전 세계가 흔들려
AWS의 클라우드 서비스는 넷플릭스, 스타벅스, 유나이티드항공 등 수천 개 기업이 사용하는 핵심 인프라다. 이번 사고로 약 2000개 서비스가 동시에 중단됐고 시그널·스냅챗·로블록스 같은 앱부터 은행, 병원, 스마트홈 기기까지 전 세계적으로 불편이 이어졌다.
호주 멜버른대 수렛 드레이퍼스 박사는 가디언과 인터뷰에서 “문제는 AWS 하나가 아니라 인터넷의 기반이 사실상 세 회사(AWS·마이크로소프트·구글)에 집중된 구조”라며 “인터넷이 본래 가진 ‘우회 복구 능력’을 잃고 있다”고 지적했다.
AWS는 이번 사태 이후 두 프로그램이 동시에 같은 데이터를 건드리지 못하도록 하는 새로운 안전장치를 추가하고 자동화 복구 시스템의 중복 테스트를 강화하겠다고 밝혔다.
전문가들은 “대규모 클라우드 장애는 완전히 막기 어렵지만, 기업이 얼마나 신속하고 투명하게 대응하는지가 핵심”이라고 입을 모았다.
김현철 글로벌이코노믹 기자 rock@g-enews.com












