top of page
  • Blogger
  • Youtube
  • Facebook
  • Linkedin

한국 기업/정부의 데이터/클라우드 센터 운영 선진화를 위한 ITSM 도입의 중요성, 실패원인과 성공 방안

Updated: Oct 12, 2025



한국 정부 주전산센터의 재해복구 실패와 해결 방안


2025년 9월 26일 국가정보자원관리원이라 불리는 정부의 주 데이터센터에 화재가 났는 데 재해복구 시스템이 작동하지 않아, 1주일이 지나도록 정부의 주요 정보시스템 대부분이 마비된 상태이다. 왜 이렇게 됐을까? 어떻게 했어야 하나?.


화재, 홍수 등 재해에 대비하여 데이터센터의 재해복구를 위해서는,


첫째, 주 센터와 다른 도시에 DR(Disaster Recovery)센터를 구축하고 중요한 정보시스템을 DR센터에 이중화하고 DB를 백업해 두어야 한다. 국내 모그룹 경우, 서울 근교에 주 센터가 있고, 경북에 DR센터가 있다. 정부도 대구와 광주에 보조 센터가 있으나, 주 센터가 다운됐을 때 Failover를 할 수 있는 DR센터의 요건을 갖추고 있지 않다.


둘째, 재해 발생 시 복구를 위한 RPO, RTO 등의 DR 정책과 DR 프로세스 표준이 정립되어 있고, 평상시에 정기적으로 재해복구 모의 테스트와 훈련을 실시해야 한다. 위에 언급한 모그룹의 경우, 그룹의 운영을 떠맡고 있는 ERP 시스템이 서버의 SPOF 오류로 다운되어 전세계 판매, 생산 등 모든 경영 기능을 수작업으로 전환해야 했는데, 막상 DR센터로의 Failover는 감행하지 못하고 주 센터의 서버 오류를 고쳐 복구하고, 새로 Hot Standby에 투자하였다. 이렇듯 DR센터를 구축해 놓는다 하더라도, DR 정책, 프로세스, 테스트, 훈련이 표준화, 정규화되지 않으면, 사실 물리적 센터는 있으나 마나한 것이다.


세째, DR센터의 운영 환경, 물리적 설비와 애플리케이션 및 데이터의 복제가 적정한 지, DR 정책, 프로세스, 테스트, 훈련들이 충실히 실행되고 있는 지에 대해 전문기관에 의한 외부 감사, 평가 및 대외 공개도 정기적으로 실시해야 한다.


위의 세가지 요건은 데이터센터 재해복구의 기본 요건인 것인데, 우리나라의 정부와 대부분 기업들은 이런 요건을 못갖추고 있다. 이번 기회에 기본 요건을 갖추기 위한 설비 투자, 제도 확립, 전문 인력 양성이 반드시 이뤄져야 한다!


**********


더 나아가서 우리나라 정부와 기업도 데이터센터 운영의 국제참조프로세스인 ITIL 기반의 ITSM 프로세스를 이제는 정말로 심각하게 받아 들이고, 배우고, 노력하여 체질화해야 한다. DR 프로세스는 ITIL 프로세스들 가운데 Service Design 프로세스 그룹에 속하는 IT Service Continuity Management(ITSCM) 프로세스에 포함되어 있다. ITIL을 충실히 준수하면, 위의 DR 요건도 충족하게 된다.


클라우드 센터 즉 IaaS 서비스도 ITIL 프로세스의 자동화와 자동화된 ITIL 서비스를 SOA API 및 API 기반의 UI로 제공하는 것이 핵심 요소이다. 2010년대 이래 정부 데이터센터를 클라우드센터로 발전시켜 보겠다는 노력을 기울여 왔지만 진전이 안이뤄지고 있다. 민간기업 중에도 네이버, KT 등이 IaaS 서비스를 제공해 보겠다고 노력해왔지만 국제경쟁력의 확보와 해외 수출은 아직도 미미하다. 그 이유 중의 하나도 우리나라 정부와 기업의 ITIL 프로세스 성숙도와 자동화 수준이 미흡하기 때문이다.


이번 사건을 계기로 우리가 반성하고 노력해야 할 점은 분명하다. 데이터 센터 운영의 글로벌 베스트 프랙티스인 ITIL 프로세스의 정착과 이의 자동화를 통한 클라우드 센터로 진화하는 것이 근본적인 해답인 것이다!!


ITIL 도입을 촉진하려면 ITSM 플랫폼(ServiceNow, Atlassian, Ivanti, BMC, Freshworks, ManageEngine 등)을 활용하는 게 바람직하다. 금년 ITSM 플랫폼의 글로벌 시장 규모가 22조원에 달하고, 년 17%의 시장 성장률이 예상되는 만큼, 우리나라의 정부나 기업들도 글로벌 추세에 맞춰 ITSM 플랫폼 도입을 추진해야 된다. (https://www.globalgrowthinsights.com/market-reports/itsm-software-market-115474?utm_source=chatgpt.com, https://www.govtech.com/sponsored/supercharging-it-service-management-with-ai-and-automation?utm_source=chatgpt.com 참조)



한국 기업/정부의 ITIL 도입 부진의 원인


먼저 ITIL에 대해 살펴보자. 영국 정부에서 1989년 개발해 전세계로 확산된, 데이터센터 기반의 IT 서비스 관리/운영 프로세스인 ITIL(IT Infrastructure Library)은 오늘날 모든 선진 기업/정부의 데이터/클라우드 센터 운영의 사실 상 표준 프로세스이다. ITIL은 2019년 버전 4로 업그레이드 되었다.


ITIL V4
ITIL V4

ITIL 4의 가치사슬 프로세스는 6개 활동(Value Chain Activity)으로 구성된다: 전략 계획, 이해관계집단과 의사소통, 설계 및 변환, SW / HW의 구매 또는 개발, 서비스 이행 및 지원, 지속적 개선. 이 활동들을 수행할 때, 34개 관리기법(Practice)을 적용한다.


ITIIL Activities & Practices
ITIL V4의 6 Activities와 34 Practices

선진 기업/정부의 ITIL 도입/활용은 대부분 ServiceNow, Jira Service Management, Ivanti Enterprise Service Management, BMC Helix IT Service Management 등 ITSM(IT Service Management) 플랫폼 솔루션의 도입/활용을 통해 실행된다.


ITSM 플랫폼
ITSM 플래폼

* * *


우리나라에서도 2000년대 중반 SI업체를 필두로 대기업 중심으로 ITSM을 도입하기 시작하였으나, 아직도 ITSM 프로세스가 잘 준수되고 있는 기업은 많지 않다.


ITSM이 잘 준수된다는 기준이 무엇인가? ITSM의 34개 관리기법 중 첫 단추라 할 수 있는 것은 서비스 데스크(Service Desk)이다. 현업의 모든 IT 서비스 요청이나 장애 신고가 서비스 데스크라는 단일 창구로 들어와야 한다. 현업에서 애플리케이션(줄여서 앱) UI의 수정을 IT 부서 개발자에게 직접 요청했다면, 이는 서비스 데스크의 기본 요건을 무시하는 행위이다. 현업에서 앱 장애가 났을 때, IT 부서 개발자에게 고쳐 달라고 전화를 했다면, 이는 ITSM의 장애관리(Incident Management)의 기본 요건을 무시하는 행위이다. 이렇듯 ITSM 관리기법들의 기본 요건이 실무에서 준수되지 않는다면, 그 기업의 ITSM은 명분만 있고 실체는 없어 차라리 없는 만 못한 경우가 많다.


왜 우리나라에서는 ITSM의 실행이 어려운 것인가?


첫째, 영국에서 만든 ITIL은 규정, 구조화된 정보, 전문 역할, 분업, 표준 절차 등을 중시하는 표준화된 프로세스 모델(Standardized Process Model)이다. 한국 기업/정부에서는 현업 부서 별로 IT 부서 직원들을 할당하고, 특정 현업 부서에서 발생한 서비스 요청이나 장애 신고는 그 부서 담당 IT 직원이 One-Stop 서비스로 책임지고 해결해주는 관행(Dedicated IT Liaison Model)이 지배적이다. 따라서 ITSM의 도입은 현업 부서와 IT 부서 양측에게 조직 문화와 업무 관행의 막대한 단절적 변화를 의미하며, 이런 변화를 몰아 부치려면 최고경영층의 결단과 지속적 지원이 필수적이다.


둘째, 우리나라에서 ITSM 도입을 선도해야 할 재벌 그룹들은 그룹 내 SI업체를 만들어, 타 그룹 회사들의 IT서비스를 아웃소싱하도록 해왔다. 둘의 관계는 다소 갑-을 관계의 특성을 가져, Dedicated IT Liaison Model이 일반화되었다. ITIL 기반의 ITSM 프로세스, 플랫폼 및 전문 인력을 확보하여 그룹 내 고객사에 적용시키려면, 초기에 상당 규모의 투자와 변화를 위한 강력한 리더쉽이 필요한 데, 그룹 내 SI업체 최고경영자들이 장기적 효과를 위한 단기 투자와 고객사의 혁신 강요를 단행하는 것은 쉽지 않은 실정이다.


세째, ITSM을 실천하려면, 프로세스를 제정하고, 프로세스 수행에 필요한 역할 별로 세부 직무를 정의하여 IT 직원들의 직무를 재설정하고, 직무 별로 프로세스와 시스템 사용을 훈련시키는 등의 노력이 필요하지만, 이걸로 충분하지는 않다. 가장 중요한 게, ITSM 실행에 필요한 데이터를 정비하는 것이다. 예를 들어, 장애관리를 실행하려면 다음과 같은 UML Class Diagram에 표시된 데이터가 필요하다.


장애관리의 메타데이터
ITIL 장애관리 기법의 데이터 모델

위의 예와 같이, ITSM에 필요한 수많은 정보에 대해 엔티티, 속성, 속성 허용 값, 엔티티 간의 시맨틱 관계 등을 명확하게 정형화하고, 모든 현업과 IT 직원들이 그 정의를 확실히 이해하고, 업무 시 규정대로 입력하고 사용해야만 ITSM이 제대로 작동한다.


이런 메타데이터에 대한 사전 연구, 분석, 정의, 설계, 구현 없이, 무턱대고 프로세스만 제정하여 현장에 적용한다면, ITSM의 도입은 실패하기 쉽상이다. 메타데이터 표준 없는 ITSM 프로세스는 바퀴 없는 자동차와 같은 것이다.


넷째, ITSM 프로세스가 방대하고 복잡하기 때문에, ITSM 플랫폼은 글로벌 시장에서 수 천 기업이 쓰면서 그 기능이나 품질이 검증된 제품을 쓰는 게 좋은 데, 시스템 투자 및 직원 훈련에 인색하여, 값이 싸고 간단한 제품을 사용할 경우, ITSM의 KPI 달성에 어려움을 겪게 되고, 결국 ITSM의 전략적 도입을 포기하게 되기 쉽다.



한국 기업/정부의 ITSM 도입 성공을 위한 프로세스


이제 위에서 살펴 본 실패의 원인을 극복하면서, 성공적인 도입 확산을 이룰 수 있는 바람직한 도입 프로세스에 대해 살펴 보자. ITSM 도입 프로세스도 큰 틀에서 일반적인 경영 및 IT 혁신 프로세스와 다를 바가 없다.


첫째로, 전 직원의 ITIL, ITSM에 대한 올바른 이해가 조성돼야 한다. 다음, ITIL 표준 대비 현행 ITSM 관행의 성숙도에 대한 객관적인 평가가 이뤄져야 한다. 셋째로, 왜 ITIL을 도입해야만 하는 지에 대한 최고 경영층에서 전 직원까지의 위기 의식, 달성 목표, 조직 문화적 충격의 극복에 대한 충분한 공감대와 각오가 형성되어야 한다.


다음에는 ITSM 시스템의 점진적 애자일 도입, 구현, 현장적용, 지속적 개선의 사이클을 전개하면 된다. 예컨대, 장애관리, 변경관리, 서비스 데스크, 형상관리 등의 순으로, 한번에 한 기법씩 확실이 안착시키며 가는 애자일 접근이, 한꺼번에 많은 기법을 도입하는 빅뱅 접근 방식보다 성공 확률이 높다.


도입 프로세스 단계 별로 해야 할 활동들을 살펴 보자.


[1 단계] ITIL이 뭔지 공부


ITIL 도입을 리드할 전문가의 양성 및 국제 자격(What Is ITIL Certification? https://share.google/YT9CYjjiI1obzW8sU) 확보, 의사결정에 참여할 임직원들의 ITIL에 대한 올바른 이해를 위한 학습.


ITIL 자격인증 프로그램
ITIL 자격인증 프로그램

예컨대, 장애관리를 먼저 도입하기로 했다면, ITIL 전문가로 양성할 직원은 먼저 ITIL 4 Foundation Certification을 따고, 다음 ITIL 4 Practitioner Certification: Incident Management Module을 패스하도록 하면 된다.


[2 단계] 현재 ITSM 상태의 분석


ITIL 성숙도 모델(The ITIL Maturity Model and ITIL Assessment: https://share.google/re3xI4KfqjgpKu35Q)을 참조하여, 회사의 ITSM 적용 현황(적용하고 있는 기법, 활용하고 있는 데이터, 직무/역할의 정의와 실제 활동 등)과 문제점을 객관적으로 평가.


ITIL 성숙도 모델
ITIL 성숙도 모델

장애관리를 예로 들면, 현재의 Pain Point로, 장애 해결의 책임자가 불분명하고, 장애 해결 경과에 대한 트래킹이 안되고, 장애 해결에 너무 많은 시간이 소요되는 문제가 상존할 수 있다. 이 경우 ITIL 대비, 장애관리자 직무의 부재, 장애관리의 표준 절차 및 경과 기록 부재, 장애해결 소요시간의 측정 및 단축 활동 부재를 지적할 수 있다.


[3 단계] ITIL 도입을 왜 해야만 하는 지 결정


목적과 기대 결과를 뚜렷이 정하고, 최고경영자의 투철한 결심을 확인하고, 프로젝트 범위, KPI (아래의 예시 참조: Apty사의 ITSM KPI들), 예산 및 인력 계획을 수립하고, 현업과 IT 부서의 ITIL 필요성에 대한 공감대 형성을 확인.

ITSM의 KPI
ITSM의 KPI들- Apty사 제공

장애관리 경우, 위 그림의 1 장애해결 소요시간(Incident Resolution Time)의 목표치를 장애 우선순위 고/중/저에 따라 4 / 24 / 72 시간으로 정하고, 2 장애 접수 1차 지원단계 해결비율(First Call Resolution Rate)의 목표치를 80%로 정할 수 있다.


[4 단계] ITSM 시스템 도입 및 공부


ITSM 솔루션을 선택할 때, 단/장기적인 투자 효과를 극대화하기 위해서는 다음의 조건을 갖춘 제품을 고르는 게 좋다:

• ITIL V4 표준을 충실히 실현한 제품

• SaaS 서비스로 제공되는 제품

• 모든 기능을 REST API로 노출한 서비스 지향 아키텍처(SOA) 제품 (아래 예시 참조: ServiceNow사의 ITSM 아키텍처)

• ITSM 기법들을 적용이 시급하면서 쉬운 것부터, API를 이용해 하나 하나 점증적으로 애자일하게 구현할 수 있는 제품

• 애자일 구현 시, ITSM REST 서비스들과 외부 시스템들을 오케스트레이션과 코레오그래피를 통해 쉽게 통합해 나아갈 수 있는 제품

• 비즈니스 룰과 AI를 이용한 ITSM 업무의 자동화가 극대화된 제품


ServiceNow ITSM플랫폼의 아키텍처
ServiceNow의 ITSM 아키텍처

제품을 고른 후에는, 당장 구현해야 할 ITSM 기법에 관해, 제품이 제공하는 워크플로우, 메타데이터, 운영 룰, SOA 서비스 등을 깊이 공부해 파악해야 한다.


예컨대, 선택된 제품의 장애관리 워크플로우는

1. 서비스 데스크, 모니터링 툴, 셀프 서비스 포탈을 통해 장애 접수

2. 서비스 데스크에서 ITSM 시스템에 장애 Ticket을 발행하고, 상세 정보를 등록하고, 장애 카테고리를 분류하고, 우선순위를 결정

3. 서비스 데스크가 지식DB에서 이미 알려진 장애 해결방안을 찾아 해결 시도

4. 서비스 데스크(1차 지원 단계)에서 해결이 안 될 경우, 장애관리자(2차 지원 단계) 배정

5. 장애관리자가 임시 해결책(Workaround)을 통해 현업의 업무를 정상으로 복구해 주고 장애 Ticket을 Close

6. 장애의 근본 원인 제거를 위해 문제관리(Problem Management) 프로세스(3차 지원 단계) 트리거 등을 거칠 수 있다.


한편 장액관리를 위해 미리 준비해야 할 데이터는

• 장애 카테고리 및 우선순위 분류체계

• 장애관리의 SLA

• 장애 Ticket의 라우팅 및 Notification 룰

• 장애 해결을 위한 셀프서비스 포탈의 컨텐트

• 지식DB에 등록할 이미 알려진 장애 해결 방법 등이 있다.


[5 단계] Fit/Gap 분석 및 Delta 엔지니어링


스크럼 스타일의 애자일 구현을 진행 함에 있어, 이번 스프린트에 구현할 ITSM 기법을 선택한다. 선택한 기법의 워크플로우, 메타데이터, 운영 자동화 룰, 리포팅 대시보드, 셀프서비스 포탈 등에 관해, 회사에서 원하는 것과 제품이 제공하는 것 사이의 차이를 파악한다.


차이를 극복하기 위해, 제품을 따를 건지, 제품을 안쓰고 대체 수단을 찾을 건지, 제품을 API를 이용해 수정해서 쓸 건지 결정하고, 결정에 따라 시스템을 구현한다. 이때 흔히 얘기하는 80/20 룰을 지키는 게 좋다. 즉 차이 나는 요소의 80%에 대해서는 제품이 제공하는 글로벌 베스트 프랙티스를 따라 가는 게 좋다. 비싼 제품에 투자하는 가장 큰 이유가 제품을 통해 회사의현행 ITSM 관행을 보다 효과가 크고 효율적인 글로벌 베스트 프랙티스로 혁신하는 것이다.


[6 단계] 현장 적용, 변화관리 및 지속적 개선


Canary, Blue-Green, A/B 테스팅 등의 Rollout 방식 중 회사 상황에 적합한 걸 골라, 구현된 ITSM 시스템의 현장 적용을 추진한다. 현장 인력들의 ITSM 역할 별로, 구현된 ITSM 시스템을 훈련시킨다.


맥킨지 7S 모델, Nudge, Satir, Lewin, Kotter, ADKAR 등의 변화관리 방식 중 적합한 걸 골라 변화관리를 추진한다. 변화에 대한 저항을 단호하게 제거하고, 적극적 수용에 대해 확실한 인센티브를 제공한다.


맥킨지의 7-S 변화관리 모델
맥킨지의 7-S 변화관리 모델

현업 및 IT 직원들이 새로운 개념, 데이터, 룰, 프로세스, 시스템에 빨리 적응할 수 있으려면, 미리 양성해둔 ITSM 전문가(Power User)들이 직원들의 트러블을 바로 바로 옆에서 지원, 해결해 줄 수 있어야 한다.


마지막으로, 현장적용에서 발생하는 문제, 피드백, KPI 측정치, SLA 측정치 등을 상시 모니터링하여, ITSM의 지속적 개선에 반영해야 한다.


* * *


이상, 1~6단계를 반복 점증적으로 수행하는 애자일한 ITSM 도입 프로세스의 참조모델을 제시하였다. 국내 많은 기업과 정부기관이 이 프로세스를 참고하여 ITSM을 실효있게 도입 정착시키기를 기원하면서, ITSM에 관한 소고를 마감한다.

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page