본문 바로가기

□ ADsP

[ADsP - 3과목] 제1장 데이터 분석 기획의 이해 -1

과목Ⅲ. 데이터 분석 기획 



제1장. 데이터 분석 기획의 이해 



제1절 분석기획 방향성 도출

◆분석 기획

- 실제 분석 수행 전, 분석을 수행할 과제의 정의 및 의도한 결과를 도출 할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업

- 어떠한 목표(what)를 달성하기 위하여(why) 어떠한 데이터를 가지고 어떤 방식으로(how) 수행할 지에 대한 일렬의 계획 수립 과정


1. 분석 기획 특징

◆분석 기획에 필요한 역량 3가지

- 수학/통계학적 지식

- 정보기술(IT, 해킹, 통신기술)

- 해당 비즈니스에 대한 이해와 전문성


◆분석 대상과 방법에 따른 분석 유형 4가지


◆목표 시점별 분석 유형 2가지

- 과제 중심적인 접근방식: 당면 과제 빠르게 해결

 Speed & Test / Quick & Win / Problem Solving

- 장기적인 마스터 플랜 방식: 지속적인 분석 내재화

 Acuuracy & Deploy / Long Term View / Problem Definition

- 융합하여 적용하는 것이 중요


◆분석가 필요 역량: 기본역량+프로젝트 관리, 리더십


2. 분석 기획 시 고려사항 3가지

①데이터

- 확보가 우선적, 유형 분석(유형별 적용 가능 솔루션 및 방법 다양)

- 정형 데이터(DB로 정제된 데이터), 비정형 데이터(이메일, 보고서, 소셜미디어 데이터), 반정형 데이터(센서 중심으로 스트리밍되는 머신데이터)

②활용방안과 활용 가능한 유즈케이스 탐색

- 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션 최대한 활용

③장애요소들의 대한 사전계획

- 조직역량의 내재화를 위하여 충분하고 계속적인 교육 및 활용방안 등의 변화관리 고려


제2절 분석방법론

1. 분석 방법론 개요

◆데이터 분석을 체계화된 절차와 방법으로 정리(데이터 분석이 효과적으로 정착하기 위해 필요)

◆산출물, 프로젝트 성공 가능성을 확보, 제시 가능해야 함

구성 4가지: 절차, 방법, 도구와 기법, 탬플릿과 산출물

- 지식이 있다면 활용 가능해야 함


◆방법법론 생성과정: 암묵지 > 형식화 > 형식지 > 체계화 > 방법론 > 내재화 > 암묵지


◆방법론 적용 업무의 특성에 따른 모델 3가지

- 폭포수 모델: 순차적 진행, 이전 단계 완료 후 다음단계 진행, 문제발생 시 피드백 수행

- 나선형 모델: 반복을 통해 점증적 개발, 처음 시도하는 프로젝트에 용이, 복잡도 상승 가능성

- 프로토타입 모델: 폭포수 모델 단점 보완, 일부분만 우선 개발→시험사용→개선


◆방법론 구성: 단계→테스크→스텝

- 단계: 단계별 산출물

- 테스크: 단계 구성하는 단위활동, 물리적·논리적 단위로 품질검토의 항목

- 스텝: 각 단계는 기준선으로 설정되어 관리, 버전관리를 통해 통제



KDD랑 CRISP-DM 분석 절차 외우기

2. KDD 분석 방법론 (Knowledge Discovery in Databases)

- 1996년 Fayyad가 프로파일링 기술 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

- 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조

◆데이터에서 패턴을 찾는 과정(9개의 프로세스)


◆KDD 분석 절차 5단계

①데이터 셋 선택

- 사전에 분석 대상의 비즈니스 도메인 이해와 프로세스 목표 설정 필수

- 데이터 마이닝에 필요한 목표데이터 구성

②데이터 전처리

- 정제: 잡음, 이상치, 결측치 식별·제거·재처리

③데이터 변환

- 분석목적에 맞게 변수 생성 선택, 데이터 차원 축소

- 학습용 데이터와 검증용 데이터로 데이터 분리

④데이터마이닝

- 학습용 데이터 이용, 데이터마이닝 기법 선택과 알고리즘 적용하여 데이터마이닝 진행

⑤데이터마이닝 결과 평가

- 데이터마이닝 결과 해석과 평가 분석 목적과의 일치성 확인

- 데이터마이닝으로 얻은 지식을 업무에 활용하기 위한 방안 마련

- 선택에 따라 데이터 선택 프로세스에서 데이터마이닝 프로세스 반복 수행



3. CRISP-DM 분석 방법론 (Cross Industry Standard Process for Data Mining)

- 1996년 유럽연합의 ESPRIT에 있었던 프로젝트에서 시작

 (5개 업체 주도: Daimler-Chrsler, SPSS, NCR, Teradata, OHRA)

◆CRISP-DM 프로세스의 4개 레벨

- 단계: 최상의 레벨은 여러 개의 단계로 구성. 각 단계는 일반화 테스크 포함

- 일반화 테스크: 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위

- 세분화 테스크: 구체적으로 수행하는 레벨

- 프로세스 실행: 데이터마이닝을 위한 구체적인 실행 포함


◆CRISP-DM 프로세스 6단계

①업무이해: 프로젝트 목적과 요구사항 이해단계

- 업무목적 파악, 상황 파악, 데이터마이닝 목표 설정, 프로젝트 계획 수립

②데이터 이해: 데이터 수집, 속성 이해 단계

- 초기데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

③데이터 준비: 분석기법에 적합한 데이터에 편성단계, 시간 다소비

- 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅

④모델링: 다양한 모델링 기법과 알고리즘 선택하고 파라미터 최적화 단계, 테스트용 데이터 셋으로 과적합 문제 확인

- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작업, 모델 평가

⑤평가: 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계

- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

⑥전개: 모델을 실업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획 마련 단계

- 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰



4. 빅데이터 분석 방법론 (계층적 프로세스 모델)

◆빅데이터 분석을 위한 3개 계층

- 단계: 프로세스 그룹을 통하여 완성된 단계별 산출물 생성

- 테스크: 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목 가능

- 스텝: WBS의 워크 패키지 해당, 단위 프로세스(입력자료, 처리 및 도구, 출력 자료로 구성)


◆빅데이터 분석 방법론 5단계

①분석 기획: 비즈니스 이해 및 범위 설정 / 프로젝트 정의 및 계획 수립 / 프로젝트 위험계획 수립

②데이터 준비: 필요 데이터 정의 / 데이터 스토어 설계 / 데이터 수집 및 정확성 검증

③데이터 분석: 분석용 데이터 준비 / 텍스트 분석 / 탐색적 분석 / 모델링 / 모델 평가 및 검증 / 모델 적용 및 운영방안 수립

④시스템 구현: 설계 및 구현 / 시스템 테스트 및 운영

⑤평가 및 전개: 모델 발전계획 수립 / 프로젝트 평가 및 보고 


(출력자료 외워야 함)

①분석 기획

◆비즈니스 이해 및 범위 설정

- 비즈니스 이해

입력자료: 업무 매뉴얼, 전문가 지식, 빅데이터 분석 대상 도메인 관련 자료

프로세스 및 도구: 자료 수집 및 비즈니스 이해

출력 자료: 비즈니스 이해 및 도메인 문제점

- 프로젝트 범위 설정

입력자료: 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점

프로세스 및 도구: 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차

출력 자료: 프로젝트 범위 정의서(SOW)


◆프로젝트 정의 및 계획 수립

-데이터 분석 프로젝트 정의

입력자료: 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서

프로세스 및 도구: 프로젝트 목표 구체화, 모델 운영 이미지 설계

출력 자료: 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준 -> WBS 작성


◆프로젝트 위험계획 수립

-데이터 분석 위험 식별

입력자료: 프로젝트 범위 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료

프로세스 및 도구: 위험 식별 절차, 위험영향도·발생가능성 분석, 위험 우선순위 판단

출력 자료: 식별된 위험 목록

- 위험 대응 계획 수립

입력자료: 식별된 위험 목록, 프로젝트 범위 정의서, 프로젝트 수행 계획서

프로세스 및 도구: 위험 정략적 분석, 위험 정성적 분석

출력 자료: 위험관리 계획서(회피, 전이, 완화, 수용으로 구분)


②데이터 준비

◆필요 데이터 정의

-데이터 수집 및 저장

입력자료: 정의프로젝트 수행 계획서, 시스템 설계서, ERD, 메타정형데이터 정의서, 문서 자료

프로세스 및 도구: 내·외부, 정형·비정형·반정형 데이터 정의

출력 자료: 데이터 정의서

- 데이터 획득방안 수립

입력자료: 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서자료, 데이터 구입

프로세스 및 도구: 데이터 획득 방안 수립

출력 자료: 데이터 획득 계획서


◆데이터 스토어 설계

- 정형 데이터 스토어 설계: 일반적으로 관계형 데이터베이스인 RDBMS 사용

입력자료: 데이터 정의서, 데이터 획득 계획서

프로세스 및 도구: DB 논리설계/물리설계(구분이유: 효율적 저장과 활용), 데이터 매핑

출력 자료: 정형 데이터 스토어 설계서, 데이터 매핑 정의서

- 비정형 데이터 스토어 설계(하둡, NoSQL 이용)

입력자료: 데이터 정의서, 데이터 획득 계획서

프로세스 및 도구: 비정형·반정형 데이터베이스 논리설계/물리설계

출력 자료: 비정형 데이터 스토어 설계서, 데이터 매핑 정의서


◆데이터 수집 및 정합성 점검

- 데이터 수집 및 저장

입력자료: 데이터 정의서, 데이터 획득 계획서, 데이터 수집 스크립트

프로세스 및 도구: 데이터 크롤링 도구, ETL 도구, API, 데이터 수집 스크립트(데이터 수집)

출력 자료: 수집된 분석용 데이터(데이터 스토어에 저장)

- 데이터 정합성 점검

입력자료: 수집된 분석용 데이터

프로세스 및 도구: 데이터 품질확인, 데이터 정합성 점검 리스트

출력 자료: 데이터 정합성 점검 보고서(주기적 확인)


③데이터 분석

◆분석용 데이터 준비

- 비즈니스 룰 확인

입력자료: 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어

프로세스 및 도구: 프로젝트 목표 확인, 비즈니스 룰 확인

출력 자료: 비즈니스 룰, 분석에 필요한 데이터 범위

- 분석용 데이터 셋 준비

입력자료: 데이터 정의서, 데이터 스토어

프로세스 및 도구: 데이터 선정/변환, ETL 도구

출력 자료: 분석용 데이터 셋(작업공간(play ground, sand box), 전사 차원 데이터 스토어로 분리 가능)


◆텍스트 분석

- 텍스트 데이터 확인 및 추출

입력자료: 비정형 데이터 스토어

프로세스 및 도구: 분석용 텍스트 데이터 확인, 텍스트 데이터 추출

출력 자료: 분석용 텍스트 데이터

- 텍스트 데이터 분석: 분석하고 모델 구축

입력자료: 분석용 텍스트 데이터, 용어사전(용어 유의어 사전, 불용어 사전 등)

프로세스 및 도구: 분류체계 설계, 형태소 분석, 키워드 도출, 토픽·감정·의견·네트워크 분석

출력 자료: 텍스트 분석 보고서(시각화 사용)


◆탐색적 분석

- 탐색적 데이터 분석

입력자료: 분석용 데이터 셋

프로세스 및 도구: EDA 도구, 통계분석, 변수간 연관성 분석, 데이터 분포 확인

출력 자료: 데이터 탐색 보고서(모델링을 위한 기초 자료)

- 데이터 시각화

입력자료: 분석용 데이터 셋

프로세스 및 도구: 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론

출력 자료: 데이터 시각화 보고서(시스템 구현을 위한 사용자 인터페이스, 프로토타입으로 활용 가능)


◆모델링

- 데이터 분할

입력자료: 분석용 데이터 셋

프로세스 및 도구: 데이터 분할 패키지 

출력 자료: 훈련용 데이터, 테스트용 데이터(모델의 과적합과 일반화를 위해)

- 데이터 모델링

입력자료: 분석용 데이터 셋

프로세스 및 도구: 통계 모델링 기법, 기계학습, 모델 테스트(훈련용 데이터를 이용해 모델을 만든 후 운영 시스템에 적용)

출력 자료: 모델링 결과 보고서

- 모델 적용 및 운영 방안

입력자료: 모델링 결과 보고서

프로세스 및 도구: 모니터링 방안 수립 알고리즘 설명서 작성

출력 자료: 알고리즘 설명서(운영 시스템에 적용하기 위해), 모니터링 방안(안정적 운영을 위해)


◆모델 평가 및 검증

- 모델 평가

입력자료: 모델링 결과 보고서, 평가용 데이터(테스트용 데이터나 별도 사용)

프로세스 및 도구: 모델 평가, 모델 품질 관리, 모델 개선사업

출력 자료: 모델 평가 보고서

- 모델 검증

입력자료: 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터(실 운용 데이터)

프로세스 및 도구: 모델 검증

출력 자료: 모델 검증 보고서


④시스템 구현

◆설계 및 구현

- 시스템 분석 및 설계

입력자료: 알고리즘 설명서, 운영 중인 시스템 설계서

프로세스 및 도구: 정보시스템 개발방법론(커스터마이징)

출력 자료: 시스템 분석 및 설계서

- 시스템 구현

입력자료: 시스템 분석 및 설계서, 알고리즘 설명서

프로세스 및 도구: 시스템 통합 개발도구(IDE), 프로그램 언어, 패키지

출력 자료: 구현 시스템


◆시스템 테스트 및 운영

- 시스템 테스트

입력자료: 구현 시스템, 시스템 테스트 계획서

프로세스 및 도구: 품질관리 활동(객관성, 완전성 확보)

출력 자료: 시스템 테스트 결과보고서

- 시스템 운영 계획

입력자료: 시스템 분석 및 설계서, 구현 시스템

프로세스 및 도구: 운영계획 수립, 운영자 및 사용자 교육

출력 자료: 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서(지속적 활용을 위해)


⑤평가 및 전개

◆모델 발전 계획 수립

- 모델 발전 계획

입력자료: 구현 시스템, 프로젝트 산출물

프로세스 및 도구: 모델 발전 계획 수립(모델의 지속성, 기능 향상)

출력 자료: 모델 발전 계획서(모델의 계획성 확보)


◆프로젝트 평가 및 보고

- 프로젝트 성과 평가

입력자료: 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서

프로세스 및 도구: 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가

출력 자료: 프로젝트 성과 보고서

- 프로젝트 종료

입력자료: 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 보고서

프로세스 및 도구: 프로젝트 지식자산화 작업, 프로젝트 종료

출력 자료: 프로젝트 최종 보고서


*출처: '데이터 분석 전문가 가이드, 한국데이터진흥원'