2. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
관리 프로세스는 통상 2-3 단계를 거쳐 고도화 가능
고객 특성에 맞는 관리 프로세스가 확립되어야 함
서버 장애 패턴 및 처리 Know-how가 축적되어야 함
궁극적인 목표는 Service Level Management가 가능한 수준
Service Level Management의 정의에는 서비스 수준에 대한 정책이 필요함 (Scorecard)
서비스 모니터링
가용성
& 관리
SLA
Service Level 관리 Metrics To-Be 레벨
Monitoring
Capacity
변경 관리 용량 관리 Monitoring
Availability
Metrics Estimated Level
문제 관리 Monitoring After MOM Project
서비스 데스크 및 가용
성을
Incident 관리 고려 Incident
한 Detection
Reactive Proactive 설계 Monitoring
Page 2
3. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
MOM의 Infra 적용 시 가능 해지는 영역
서비스 모니터링 SLA 중 서버
용량 평가에 대한 기초 자료 제공 가능 가용성
& 관리 가용성, 성능 및
장애 이력 부문
SLA 지원 가능
Service Level 관리 Metrics
Monitorin
g 성능 평가, 증설
기준 자료 제공
가능
총체적 문제 Capacity
관리를 위해서는 변경 관리 용량 관리 Monitorin
Incident 관리 g
프로세스 개발
필요
Availabilit
y Metrics
문제 관리 Monitorin
g
서비스 데스크 및 가용
Incident 관리 성을
Incident
고려 Detection
Reactive Proactive 한 Monitorin
설계 g
KEDB 축적 후 가능, SLA Scorecard와 연계 되는 수준
MOM 적용 후 수용 가능한 역량
MOM 적용 후 수용 가능하지만 기능 추가나 보완이 필요 (부분 지원 가능)
Page 3
4. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 모니터링 및 관리 수행 사고 관리 수행
서버 기능 모니터링
YES 자동화 작업
자동 처리 가능
수행
서버 가용성 네트워크 가용성
NO
모니터링 모니터링
YES 운영자 작업
서버 성능 네트워크 성능 운영자 처리 가능
수행
모니터링 모니터링
서버 응용 응용 프로그램 NO 작업
피드백
프로그램 가용성 응답 시간 결과
모니터링 모니터링 YES
KB KB 작업 조치
NO
YES
서버 장애 NO
신규 장애 처리 장애 해결
운영
NO
YES
Noti 피드백
모니터링 Rule YES
서비스 정지 ficat 장애 해결 처리
조정
ion
NO
YES 장애 처리 이력
임계값 초과
+
Unintended
Down Time
+
KEDB
현업 SM(SD) 담당자
통지
장애등급책정 및
장애 발생 인지 NO YES
통보
자동화
유선/메일 유선/메일
1 2
Page 4
5. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 모니터링 및 관리 수행 사고 관리 수행
성능 및 상태 성능 및 상태 반영
정보 분석 정보 가용성 분석 가용성 정보
장애 처리 이력
운영
현 상태 데이터 누적 현 상태 데이터 이력 정보
Ticketing Workflow Sample
Alert 1 2
Alert 생성 상태 정보
필터링
장애
관리(Ticke Business
Ticket 생성
ting 사례) Logic 적용 수동 장애 처리 자동 장애 처리
(Trouble (Auto
Ticketing) Ticketing)
MOM에서
Alert 접수
Update
Service
서비스 메트릭 보고서
Level Service Level
Managem Agreement
ent
(다음 페이지)
Page 5
6. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 수준 관리 및 모니터링
서비스 메트릭 및 보고서
Service Level
Agreement
반영 및 변경 조정
분석
관리
서버 기능 모니터링
서비스 수준
설계 및 수정 SLA 체결
요구 사항 합의 서버 가용성 네트워크 가용성
모니터링 모니터링
Service
용량 관리 DB 용량 및 서비스 서버 성능 네트워크 성능
Level 예산 합의
Update 수준 문제 해결 모니터링 모니터링
Managem
ent 서버 응용 응용 프로그램
프로그램 가용성 응답 시간
관련
요구 사항 변경 관리 SLA 준수 모니터링 모니터링
프로세스
서비스 수준 조정 서비스 수준
임계값 예외 보고서
용량 관리 DB
(서비스 수준
관리 DB)
CMDB
Page 6
7. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 모니터링 및 관리 수행 사고 관리 수행
서버 기능 모니터링
YES 자동화 작업
자동 처리 가능
수행
서버 가용성 네트워크 가용성
NO
모니터링 모니터링
YES 운영자 작업
서버 성능 네트워크 성능 운영자 처리 가능
수행
모니터링 모니터링
서버 응용 응용 프로그램 NO 작업
피드백
프로그램 가용성 응답 시간 결과
모니터링 모니터링 YES
KB KB 작업 조치
NO
YES
서버 장애 NO
신규 장애 처리 장애 해결
운영
NO
YES
Noti 피드백
모니터링 Rule YES
서비스 정지 ficat 장애 해결 처리
조정
ion
NO
YES 장애 처리 이력
임계값 초과
+
Unintended
Down Time
+
KEDB
현업 SM(SD) 담당자
통지
장애등급책정 및
장애 발생 인지 NO YES
통보
자동화
유선/메일 유선/메일
1 2
Page 7
8. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 모니터링 및 관리 수행 사고 관리 수행
성능 및 상태 성능 및 상태 반영
정보 분석 정보 가용성 분석 가용성 정보
장애 처리 이력
운영
현 상태 데이터 누적 현 상태 데이터 이력 정보
Ticketing Workflow Sample
Alert 1 2
Alert 생성 상태 정보
필터링
장애
관리(Ticke Business
Ticket 생성
ting 사례) Logic 적용 수동 장애 처리 자동 장애 처리
(Trouble (Auto
Ticketing) Ticketing)
MOM에서
Alert 접수
Update
Service
서비스 메트릭 보고서
Level Service Level
Managem Agreement
ent
(다음 페이지)
Page 8
9. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 수준 관리 및 모니터링
서비스 메트릭 및 보고서
Service Level
Agreement
반영 및 변경 조정
분석
관리
서버 기능 모니터링
서비스 수준
설계 및 수정 SLA 체결
요구 사항 합의 서버 가용성 네트워크 가용성
모니터링 모니터링
Service
용량 관리 DB 용량 및 서비스 서버 성능 네트워크 성능
Level 예산 합의
Update 수준 문제 해결 모니터링 모니터링
Managem
ent 서버 응용 응용 프로그램
프로그램 가용성 응답 시간
관련
요구 사항 변경 관리 SLA 준수 모니터링 모니터링
프로세스
서비스 수준 조정 서비스 수준
임계값 예외 보고서
용량 관리 DB
(서비스 수준
관리 DB)
CMDB
Page 9
10. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 수준 관리 및 모니터링
기술 데이터
조직 데이터
비즈니스 데이터
재무 데이터
UML이나 시퀀스
다이어그램을 통해 정의
(처리 프로세스 및
R&R의 정의)
부하 관리
Service 서비스 수준
Level 성능 관리
요구 관리
Managem 리소스 관리
ent 모델링 및
용량 관리 DB 애플리케이션
관련 용량(or 서비스
관리
수준) 평가 (서비스 수준
프로세스 관리 DB)
변경 관리 개발 관리
서비스 수준 관리
용량 계획
보고서
(서비스 수준 계획)
Page 10
11. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
모니터링 및 장애처리 주요 프로세스 Diagram
사용자 담당자 접수 시스템 관리자 2선 지원 관리자 Vendor 지원
문제보고
문제 등록
Information/ Howto
장애증상 및 정보
심각도 및
우선순위 판별
조치가능여부
Check
진행
KEDB Check
방향
(상-하)
조치 상황 Update 조치상황
Update
장애 및 조치 상황 보고
라우팅
장애 분석 및
조치
조치 상황 Update 장애 처리
정보 Update
Routing 장애 조치 상황 보고
지원 요청
Page 11
12. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
모니터링 및 장애처리 주요 프로세스 Diagram
사용자 담당자 접수 시스템 관리자 2선 지원 관리자 Vendor 지원
장애 분석 및 조치
장애 처리 상황 보고
문제 DB
Update
장애 이력 DB
Update
진행
방향 모니터링
(상-하) 검토 및 반영
KEDB
Update
For
Proactive
결과 통지 Service
결과 승인
Case Close
장애 처리 완료 보고
Page 12
13. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 수준 관리 및 모니터링
용량 관리 DB (= 서비스 수준 관리 = Configuration Management DB)의 정의 및 Break-down
Support Cycle
시작
Incident 관리
KEDB
DB CMDB 정보 영역
Capacity
Incidents
SLAs
통합 IT 서비스 영역
Service 가능
Level 가용성
Managem 문제 및
장애관리 라이센스
ent
용량 관리 DB Finance
관련 (서비스 수준
프로세스 관리 DB) 변경관리
변경 관리 CMDB 지원 인력
위치(Location)
자산
적용 버전 관리(Release)
문서
시스템 상태 KB(KEDB)
변경 관리 DB 장애 이력 DB
DB
Incidents
종료
Page 13
14. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 수준 관리 및 모니터링
Proactive 서비스
Proactive 통합 가능
서비스
Proactive
Analysis Incident 관리
장애 이력 DB KEDB
DB
분석 대상의 선정
Priority (High 이상)
Service
Level 발생 빈도
Managem
관련 파급 문제의 수
ent
업무 중요도
관련 용량 관리 DB
프로세스 해결 기간(장애 시간) (서비스 수준
관리 DB)
동일한 장애가 예상
CMDB
보안 문제
기타 분석 및 정책
예방
작업
예방정비
(정기점검)
시스템 상태
변경 관리 DB 구성 관리 DB
DB
예방조치
(비 정기)
Page 14
15. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 수준 관리 및 모니터링
Downtime 산정 및 Incident 관리 Cycle
Downtime
조치 시간
Response Recovery
Time Time
감지 시간
Service Incident 감지 원인 조사 조치 복구 복구 및 Incident
n 및 요청 및 분류 프로세스 가동 n+1
Level
Managem
ent 로깅 (Incident 처리 상태 정보,
관련 장애 이력 DB, KEDB)
프로세스
가용성
가동 시간 – Downtime (장애 이력 DB)
가용성 = X 100
가동 시간 (총 시간 – 계획된 Downtime)
목표 가동 시간 – Downtime
목표 가용성 = X 100
목표 가동 시간
Page 15
16. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 수준 관리 및 모니터링
Downtime 산정 및 Incident 관리 Cycle
Downtime
조치 시간
Response Recovery
Time Time
감지 시간
Service Incident 감지 장애 분석 조치 복구 복구 및 Incident
n 및 요청 (원인 (장애 프로세스 가동 n+1
Level 조사 및 처리)
Managem 분류)
ent
관련
처리 우선 순위의 결정 요인
프로세스
Incident(문제점) 상태 정보 KEDB (Known Error DB)
Impact 비즈니스 Impact
신규 신규
SLA에 의거
사용자 수 접수 기술 영역
동일 로직 혹은 컴포넌트 예정 작업 증상/문제점 Keywords
Urgency 빠른 대응이 필요한 경우 작업 할당/ Dispatch 관련 문제점
Pain Value를 관련 Incident의 수 x 기간 x WIP (Work in Progress) 원인
이용한 평가 심각도 x 가중치 On-Hold Resolution (조치)
Return Value에 대한 조치 Resolved 발생 빈도
우선 순위 결정
8:2 법칙 (80% of Benefits in Closed 심각도
first 20% of Effort
Page 16
17. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 모니터링 및 Notification
Monitoring
Event 발생 Alert 발생 Notification
Rule
YES
NO
반영 가능? 입력
Notification Group
수동 장애 감지 장애 분석 AD, DNS, DHCP Network Administrators
SQL 2000,2005 Database Administrators
운영
IIS 6.0 IIS Administrators
MOM 2005 MOM Administrators
SMS 2003 SMS Server Administrators
장애 내역 및 분석 기록
SMS Client Administrators
장애 일시 -
CA CA Administrators
접수자 -
IAS IAS Administrators
장애 분류 Categories, Sub categories,
NetKeeper NetKeeper Administrators
Routing 그룹
WSUS WSUS Administrators
원인 조사 Categories, Sub categories,
Routing 그룹 네트워크 관리 그룹 Real Network 관리자
처리 상태 정보 Update 일시, 내용 및 영역 시스템 관리 그룹 관리 그룹 및 책임자
장애 관련 정보 첨부 파일, 장애 처리 요청서 서비스 데스크 사용자 지원 데스크
Page 17
18. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 모니터링 및 관리 수행
서비스 수준 관리
Severity Level (MOM Default)
서버 기능 모니터링
1 Success
Information 레벨 용량 관리 DB
2 Information (서비스 수준
서버 가용성 네트워크 가용성 관리 DB)
3 Warning Warning 레벨
모니터링 모니터링
4 Error
서버 성능 네트워크 성능
5 Critical Error
Critical 레벨 모니터링 모니터링 CMDB 정보 영역
6 Security Issue
서버 응용 응용 프로그램 Capacity
7 Service Unavailable 프로그램 가용성 응답 시간 SLAs
모니터링 모니터링
IT 서비스 영역
운영
가용성
Customization
라이센스
Finance
LG Customized Severity Level 변경관리
Business Logic에 의해 재정의된 레벨
1 Critical 지원 인력
SLA에 의해 정의된 증상
2 High KEDB 증상 위치(Location)
3 Medium 자산
증상 A
4 Low 버전 관리(Release)
증상 B
5 Question 문서
증상 C KEDB에 기 정의된 문제점
6 Unspecified KB(KEDB)
Incidents
Page 18
19. IT 서비스 관리 관리 프로세스
• 관리 프로세스 고도화
기능 서비스 모니터링 및 관리 수행
Impact
SLA에 의해 정의 및 조정
High Medium Low
High 1 2 3
Urgency
Medium 2 3 4
Low 3 4 5
Priority Code 분류 초기 응답 시간 해결 시간
CMDB 정보 영역
1 Critical 30 분 2 시간
Capacity
2 High 4 시간 8 시간
SLAs
3 Medium 6 시간 24 시간
IT 서비스 영역
4 Low 1 일 72 시간
운영
가용성
5 Information/Planning 3 일 -
라이센스
Finance
Customized Severity Level 변경관리
Business Logic에 의해 재정의된 레벨
1 Critical 지원 인력
SLA에 의해 정의된 증상
2 High KEDB 증상 위치(Location)
3 Medium 자산
증상 A
4 Low 버전 관리(Release)
증상 B
5 Question 문서
증상 C KEDB에 기 정의된 문제점
6 Unspecified KB(KEDB)
Incidents
Page 19
20. IT 서비스 관리 관리 프로세스
• 향후 고도화 권고 작업
영역 기능 방안
네트워크 모니터링 1 네트워크 팀과 협의를 통해 네트워크 상황 및 소통량을 검지 및 분석할 수 있는 역량 필요
사용자 애플리케이션 2 Management Pack이나 모니터링 툴 구매, 개발 및 연계
서비스 모니터링 1 SLA 수준의 모니터링을 위해서는 서비스 모니터링 고도화 필요 (서비스 품질, 응답 시간 모니터링)
1 모니터링 룰이 서버, 애플리케이션, 서버 역할, 서비스 수준 목표, 임계값 설정, Alert Filtering
모니터링 등에 대해 상세히 정의 및 적용되어야 함
모니터링 규칙
2 Alert 발생 시 중복 내용 제거 및 통합
1 자동 감지 및 Notification은 모든 서비스 장애를 수용할 수 없으므로 이 부분을 위한 개발 필요
수동 감지 및 보고 분석 후 자동 감지가 가능한 항목은 자동 감지에 반영해야 감지로 인한 지연 시간을 단축할 수
2
있음
장애 이력과 처리 및 효과적인 해결 정보, Workaround 축적 필요
1 관련 문제, 파급 효과, 문제 처리 정보 Keyword 및 분야별 정보 검색 필요
KEDB 혹은 Company
장애 분석
Knowledge DB 2 SLA와 관련 하여 처리 우선 순위 결정이 가능해야 함
사전 조치가 가능한 항목 분석 (예: 윈도우 보안, 버그, 서버 설정 문제 등)
통지 그룹, 처리 그룹의 상세 정의
Incident 및 문제 처리 시스템 화 (개발 필요함)
1 처리 내용이 검색 가능하고 정해진 룰에 따라 입력되어야 함
장애 처리 장애 처리 프로세스 처리 내역이 축적되어야 함
2
처리 내역 통계 분석이 가능해야 함
장애 분석 및 처리 프로세스가 자동화 작업과 연계 가능하도록 구현
필수 항목 입력 강제화
2 하드웨어 및 자원 관리 부문 보완
변경 관리 변경 관리 프로세스
구성 관리를 포함할 수 있음
용량 관리 용량 관리 룰 2 용량 관리가 가능한 데이터는 축적 가능하나 SLA에 관련하여 용량 분석 기준은 보완해야 함
Page 20
21. IT 서비스 관리 관리 프로세스
• 향후 고도화 권고 작업
영역 기능 방안
협의를 통해 재구성되나 시스템 성격 및 수준에 따라서 문서가 아닌 템플릿을 보유해야 함
SLA 템플릿 2
제안할 수 있는 SLA Scorecard 보유
2 Scorecard에 기준한 통계 보고 및 근거 자료 제시
통계 분석 및 보고
3 보고서 작성의 유연성 및 성능
SLA 제공 서비스 수준에 따른 HW, SW, 인원 비용 산정 및 평가
2 템플릿 및 Scorecard와 연계하여 작성
SLA 분석 보장 불가능한 항목 제거, 서비스 수준 예외 항목 정의
3
정책 및 Rule 반영 요구의 수용
서비스 가용성 산정
1 1 단계
High Level SLA Metric 사례 SLA 및 투자 평가 루틴 사례 2 단계
2
3 3 단계
IT BSC
목표 대비 가동율
1
변경 관리 응답 시간 재무 전체
효익 효익
0.5
보안 문제 처리 재무적으로 표현된 전체 효익
0 IT 성과 지표 ROI
원인 분석 정보 축적 cost cost
SLA / charge back
편의성 자동화
IT cost IT cost
(actual cost) (standard cost)
예산 / Budgeting
cost
Page 21
22. IT 서비스 관리 관리 프로세스
• 기타 Error Review
서버종류 Alerts 대응 조치
서비스 응답 없음: 서비스 점검 w/ 벤더사 기술 지원 인력
Service Unavailable
대상: 3rd Vendor’s solution
Blocking: 간혹 발생(뒤에 설명)
Active Directory Object, UPN, 복제 지연, GPO: 복제 시간이 긴 경우, 네트워크에 문제가
Critical
있는 경우 등 여러 가지 경우가 있음. AD 점검 및 정비(Clean-up) 작업 필요.
SQL 서버 Space Analysis TimeOut
SQL
시스템 셧다운(정비 등을 위한 셧다운이라면 ‘Planned’로 Check하고 셧다운)
Error 서버 Not found, AD Replication 관련(AD 관리 팩으로 점검, 기술 지원 요청), RPC Error 들
기타 Error들
웹 페이지 Internal Error: 웹 사이트는 VisualStudio 웹 테스트로 Recording해서 결과를
Warning 확인할 수 있음.
기타 내용: Replication 시간, Runtime Error, Machine Account Error 등
전체적으로 서버에 실질적으로 장애를 일으키는 경우는 많지 않은 것으로 판단됩니다.
전반적으로 AD 관련 Alert이 많은데 이유는 네트워크, 복제량, 설정 문제일 수 있습니다.
서버가 특화되어 사용되지 않고, 겸용으로 사용하는 경우가 많은 것 같습니다. 이것은 중요도가 높은 업무라면 분리를 고려하는 것이 낫습니다.
데이터를 축적해서 충분한 정보를 얻기 까지 현재의 모니터링을 지속하는 것이 낫습니다(무조건 줄이기 보다는) 그러나 큰 의미 없는 성능
Counter와 Timeout 시간 조정 등은 충분히 검토하신 후 조정할 수 있습니다. 또 이것은 나중에 개선 지표로 사용될 수 있습니다.
Alert이 발생하는 빈도가 높은 내용을 하나씩 검토하여 조정하면 모니터링 내용이 자동으로 적절하게 조정이 될 수 있습니다.
Warning 내역을 조치해서 Critical 쪽의 문제가 해결되는 경우도 있으므로 되도록 Error나 Warning 레벨의 문제도 정기적으로 점검해야 합니다.
SQL Backup 스케줄이 실패하는 것은 복구 시 많은 데이터를 잃을 수 있으므로 바로 조치해야 합니다.
네트워크 상황과 서버 튜닝(SQL, IIS, AD 등)을 잘해두면 Alert이 대폭 감소합니다.
Page 22
23. IT 서비스 관리 관리 프로세스
• 기타 Error Review
오른쪽의 모니터링 프로세스를 지킬 수 있도록 프로세스를 정합니다.
서버 기능 모니터링
서버 가용성 네트워크 가용성
모니터링 모니터링
서버 성능 네트워크 성능
모니터링 모니터링
서버 응용 응용 프로그램
프로그램 가용성 응답 시간
모니터링 모니터링
YES
서버 장애
NO
모니터링 Rule YES 알
서비스 정지
조정 림
NO
YES
임계값 초과
현업 SM(SD) 담당자
통지
장애등급책정 및
장애 발생 인지
통보
유선/메일 유선/메일
Page 23
24. IT 서비스 관리 관리 프로세스
• 기타 Error Review
원인이 어느 정도
파악되면 적합한
담당자에게 할당
해결이 되면
Company
Knowledge에 내용
Update
분류나 기타 정보의
입력은 Custom Field를
임의로(규칙을 정해서)
정하여 입력하면
편리하다.
Ticket ID의
Naming Convention을
정해서 Ticket ID만으로
어느 정도 어떤 종류의
문제인지 알 수 있도록
하는 것이 좋습니다.
Ticket ID 예: 날짜-
서버이름-소프트웨어-
영역분류-일련번호, 즉
20060131-LGEMOM-
SE2Q-SQL-
Performance-0023
Page 24
25. IT 서비스 관리 관리 프로세스
• 기타 Error Review
Severity
발생 빈도
성능 관련 적용 Rule
Check하여 적당한
수치인지 검토하여
상황에 맞게 변경한다.
Page 25
26. IT 서비스 관리 관리 프로세스
• 기타 Error Review
Blocking 발생
SPID 404로 인해
114를 사용하지 못함.
Blocking은 시스템
관리자가 풀 수 없으며
애플리케이션 담당자와
내용을 검토하여
Blocking 이유를
해소하거나 Timeout
시간을 연장하는 방법이
있다. 이와 같은 문제의
해결 책임은
애플리케이션 담당자에
있다.
Page 26
27. IT 서비스 관리 관리 프로세스
• 기타 Error Review
오른쪽 그림에서와
같이 Product
Knowledge 탭의 정보를
사용하여 원인을 파악할
수 있다.
불필요한 Locking에
의해 Blocking이
되었다면 이를 해소하면
된다. 예: Nolock
옵션의 사용 등
Page 27