바쁜 직장인의 일기장

MS 클라우드 서비스 장애로 인한 글로벌 대란 본문

잡다

MS 클라우드 서비스 장애로 인한 글로벌 대란

그리미스 2024. 7. 20. 16:08
728x90
반응형

2024년 7월 19일, 불과 어제, 마이크로소프트(MS) 클라우드 서비스에 장애가 발생하여 전 세계적으로 큰 혼란이 발생했다. 이번 장애는 항공기 운항 중단, 통신 및 방송 서비스 마비 등 다양한 분야에 광범위한 영향을 미쳤다.

 

과거 한국에서는 KT 통신 장애로 인하여, 여러 카드 결제등이 막혀 불편했었던 점과 카카오톡의 서버가 불안정하여 메신저 대란이 일어났던 사건보다는 훨씬 크고 광범위한 상황이었다.

 

클라우드 관련업을 하고 있는 나도 이번 서비스 장애가 얼마나 큰 영향을 끼치게 되었는지 새삼 느껴졌다. 하나의 서비스로 연결되어 있다는게 이렇게 무서운 일인 것 이다. 다만 의아한 것은 이런 업데이트를 미리미리 테스트 해봤을 텐데 이렇게 큰 장애가 발생했다는 것이 이해가 잘 되지 않는다.

 

이 글에서는 이번 장애의 원인과 그로 인한 영향, 그리고 대응 방안을 자세히 살펴보겠다.

마이크로소프트


보안 소프트웨어 업데이트가 장애 원인

이번 장애는 크라우드스트라이크의 보안 소프트웨어 업데이트 과정에서 발생한 오류가 MS 클라우드 서비스에 영향을 미친 것이 주요 원인이다. MS 운영체제와의 충돌이 발생하면서 네트워크 설정 오류가 발생했고, 이로 인해 전 세계적으로 클라우드 서비스가 중단되었다.

 

 

어떤 영향들을 받았나

1. 주요 영향항공업계

  • 한국: 이스타항공, 제주항공, 에어프레미아 등 저비용항공사의 발권·예약 시스템에 오류가 발생하면서 공항 이용객들이 큰 불편을 겪었다. 직원들이 수기 발권을 통해 대응하고 있지만, 수속 대기 시간이 길어지고 있다.
  • 미국: 유나이티드항공, 델타항공, 아메리칸항공은 1시간 동안 이륙을 중단했다.
  • 유럽: 독일 베를린 브란덴부르크 공항, 스위스 취리히 공항, 영국 런던 개트윅 공항 등 주요 공항에서 항공편 지연과 취소가 발생했다.

2. 통신 및 방송

  • 영국: 스카이뉴스는 생방송이 중단되었으며, 템스링크 철도 운영에도 차질이 발생했다.
  • 호주: 주요 방송사와 이동통신사 운영에 차질이 생겼다.
  • 프랑스: TF1 방송의 아침 쇼와 CNews의 방송에도 장애가 발생했다.

3. 금융기관

  • 영국: 런던증권거래소(LSE)가 시장 뉴스와 데이터를 제공하는 플랫폼에 차질이 생겼고, FTSE 100 지수 산정이 지연되었다.
  • 이탈리아: 밀라노 증권거래소의 FTSE MIB 지수 산정이 지연되었다.
  • 호주: NAB 은행, 커먼웰스 은행, 벤디고 은행 등의 시스템 장애가 보고되었다.

4. 의료기관

  • 독일: 슐레스비히홀슈타인 대학병원은 수술을 취소하고 응급실을 폐쇄했다.
  • 영국: NHS 산하 일부 기관은 의료 기록 저장 및 예약 시스템에 장애를 겪었다.

5. 게임업계

  • 검은사막: 펄어비스의 '검은사막' 서버가 불안정해져 긴급 점검이 이루어졌다.
  • 라그나로크: 그라비티의 '라그나로크 온라인'과 '라그나로크 오리진'도 접속 장애가 발생했다.
  • XBOX: MS가 서비스하는 일부 게임도 서버 장애가 발생했다.

 

 

어떻게 대처해야할까?

 

  1. 백업 시스템 강화: 데이터를 보호하고 빠르게 복구할 수 있도록 백업 시스템을 강화해야 한다.
  2. 네트워크 안정성 확보: 데이터센터의 네트워크 안정성을 확보하여 유사한 문제가 재발하지 않도록 해야 한다.
  3. 클라우드 서비스 분산: 단일장애지점(SPOF)을 방지하기 위해 클라우드 서비스를 분산하여 운영하는 방안을 고려해야 한다.
  4. 사용자 교육: 사용자들에게 클라우드 서비스 장애 시 대처 방법과 데이터 백업의 중요성을 교육할 필요가 있다.

 

이번 MS 클라우드 서비스 장애는 전 세계적으로 큰 혼란을 초래하며 클라우드 서비스의 취약성을 드러냈다. 이러한 사태를 방지하기 위해서는 철저한 대비와 시스템 안정성 확보가 필요하다.

 

사실 원인은 보안 소프트웨어 업데이트로 인한 장애 발생이다. 사용자는 이 장애 원인이 뭐가 되었든, 마이크로소프트 회사의 클라우드 서비스를 믿고 사용했기에 화살은 마이크로서비스에 돌아갈 수 밖에 없을 것이다.

 

이렇게나 단 한순간의 실수로 많은 고객에게 부정적인 영향을 끼치고, 피해를 줄 수 있다는게 클라우드 서비스에 대한 단점을 그대로 들어났기 때문이다. 

 

이번 사건을 통해 클라우드 서비스의 중요성과 그에 따른 리스크 관리의 중요성을 다시 한 번 인식하게 되는 기회가 되었다.

 

 

정리하자면,

  • 원인: 크라우드스트라이크 보안 소프트웨어 업데이트 충돌
  • 영향: 항공, 통신, 금융, 의료, 게임 등 다양한 분야에서 서비스 중단 및 장애 발생
  • 대처 방안: 백업 시스템 강화, 네트워크 안정성 확보, 클라우드 서비스 분산 운영, 사용자 교육

이번 사태를 계기로 클라우드 서비스의 안전성과 효율성을 높이는 방안을 모색해야 할 것이다.

반응형