과목Ⅲ. 데이터 분석 기획
제1장. 데이터 분석 기획의 이해
제1절 분석기획 방향성 도출
◆분석 기획
- 실제 분석 수행 전, 분석을 수행할 과제의 정의 및 의도한 결과를 도출 할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
- 어떠한 목표(what)를 달성하기 위하여(why) 어떠한 데이터를 가지고 어떤 방식으로(how) 수행할 지에 대한 일렬의 계획 수립 과정
1. 분석 기획 특징
◆분석 기획에 필요한 역량 3가지
- 수학/통계학적 지식
- 정보기술(IT, 해킹, 통신기술)
- 해당 비즈니스에 대한 이해와 전문성
◆분석 대상과 방법에 따른 분석 유형 4가지
◆목표 시점별 분석 유형 2가지
- 과제 중심적인 접근방식: 당면 과제 빠르게 해결
Speed & Test / Quick & Win / Problem Solving
- 장기적인 마스터 플랜 방식: 지속적인 분석 내재화
Acuuracy & Deploy / Long Term View / Problem Definition
- 융합하여 적용하는 것이 중요
◆분석가 필요 역량: 기본역량+프로젝트 관리, 리더십
2. 분석 기획 시 고려사항 3가지
①데이터
- 확보가 우선적, 유형 분석(유형별 적용 가능 솔루션 및 방법 다양)
- 정형 데이터(DB로 정제된 데이터), 비정형 데이터(이메일, 보고서, 소셜미디어 데이터), 반정형 데이터(센서 중심으로 스트리밍되는 머신데이터)
②활용방안과 활용 가능한 유즈케이스 탐색
- 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션 최대한 활용
③장애요소들의 대한 사전계획
- 조직역량의 내재화를 위하여 충분하고 계속적인 교육 및 활용방안 등의 변화관리 고려
제2절 분석방법론
1. 분석 방법론 개요
◆데이터 분석을 체계화된 절차와 방법으로 정리(데이터 분석이 효과적으로 정착하기 위해 필요)
◆산출물, 프로젝트 성공 가능성을 확보, 제시 가능해야 함
◆구성 4가지: 절차, 방법, 도구와 기법, 탬플릿과 산출물
- 지식이 있다면 활용 가능해야 함
◆방법법론 생성과정: 암묵지 > 형식화 > 형식지 > 체계화 > 방법론 > 내재화 > 암묵지
◆방법론 적용 업무의 특성에 따른 모델 3가지
- 폭포수 모델: 순차적 진행, 이전 단계 완료 후 다음단계 진행, 문제발생 시 피드백 수행
- 나선형 모델: 반복을 통해 점증적 개발, 처음 시도하는 프로젝트에 용이, 복잡도 상승 가능성
- 프로토타입 모델: 폭포수 모델 단점 보완, 일부분만 우선 개발→시험사용→개선
◆방법론 구성: 단계→테스크→스텝
- 단계: 단계별 산출물
- 테스크: 단계 구성하는 단위활동, 물리적·논리적 단위로 품질검토의 항목
- 스텝: 각 단계는 기준선으로 설정되어 관리, 버전관리를 통해 통제
KDD랑 CRISP-DM 분석 절차 외우기
2. KDD 분석 방법론 (Knowledge Discovery in Databases)
- 1996년 Fayyad가 프로파일링 기술 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
- 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조
◆데이터에서 패턴을 찾는 과정(9개의 프로세스)
◆KDD 분석 절차 5단계
①데이터 셋 선택
- 사전에 분석 대상의 비즈니스 도메인 이해와 프로세스 목표 설정 필수
- 데이터 마이닝에 필요한 목표데이터 구성
②데이터 전처리
- 정제: 잡음, 이상치, 결측치 식별·제거·재처리
③데이터 변환
- 분석목적에 맞게 변수 생성 선택, 데이터 차원 축소
- 학습용 데이터와 검증용 데이터로 데이터 분리
④데이터마이닝
- 학습용 데이터 이용, 데이터마이닝 기법 선택과 알고리즘 적용하여 데이터마이닝 진행
⑤데이터마이닝 결과 평가
- 데이터마이닝 결과 해석과 평가 분석 목적과의 일치성 확인
- 데이터마이닝으로 얻은 지식을 업무에 활용하기 위한 방안 마련
- 선택에 따라 데이터 선택 프로세스에서 데이터마이닝 프로세스 반복 수행
3. CRISP-DM 분석 방법론 (Cross Industry Standard Process for Data Mining)
- 1996년 유럽연합의 ESPRIT에 있었던 프로젝트에서 시작
(5개 업체 주도: Daimler-Chrsler, SPSS, NCR, Teradata, OHRA)
◆CRISP-DM 프로세스의 4개 레벨
- 단계: 최상의 레벨은 여러 개의 단계로 구성. 각 단계는 일반화 테스크 포함
- 일반화 테스크: 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위
- 세분화 테스크: 구체적으로 수행하는 레벨
- 프로세스 실행: 데이터마이닝을 위한 구체적인 실행 포함
◆CRISP-DM 프로세스 6단계
①업무이해: 프로젝트 목적과 요구사항 이해단계
- 업무목적 파악, 상황 파악, 데이터마이닝 목표 설정, 프로젝트 계획 수립
②데이터 이해: 데이터 수집, 속성 이해 단계
- 초기데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
③데이터 준비: 분석기법에 적합한 데이터에 편성단계, 시간 다소비
- 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
④모델링: 다양한 모델링 기법과 알고리즘 선택하고 파라미터 최적화 단계, 테스트용 데이터 셋으로 과적합 문제 확인
- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작업, 모델 평가
⑤평가: 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계
- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
⑥전개: 모델을 실업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획 마련 단계
- 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
4. 빅데이터 분석 방법론 (계층적 프로세스 모델)
◆빅데이터 분석을 위한 3개 계층
- 단계: 프로세스 그룹을 통하여 완성된 단계별 산출물 생성
- 테스크: 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목 가능
- 스텝: WBS의 워크 패키지 해당, 단위 프로세스(입력자료, 처리 및 도구, 출력 자료로 구성)
◆빅데이터 분석 방법론 5단계
①분석 기획: 비즈니스 이해 및 범위 설정 / 프로젝트 정의 및 계획 수립 / 프로젝트 위험계획 수립
②데이터 준비: 필요 데이터 정의 / 데이터 스토어 설계 / 데이터 수집 및 정확성 검증
③데이터 분석: 분석용 데이터 준비 / 텍스트 분석 / 탐색적 분석 / 모델링 / 모델 평가 및 검증 / 모델 적용 및 운영방안 수립
④시스템 구현: 설계 및 구현 / 시스템 테스트 및 운영
⑤평가 및 전개: 모델 발전계획 수립 / 프로젝트 평가 및 보고
(출력자료 외워야 함)
①분석 기획
◆비즈니스 이해 및 범위 설정
- 비즈니스 이해
입력자료: 업무 매뉴얼, 전문가 지식, 빅데이터 분석 대상 도메인 관련 자료
프로세스 및 도구: 자료 수집 및 비즈니스 이해
출력 자료: 비즈니스 이해 및 도메인 문제점
- 프로젝트 범위 설정
입력자료: 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
프로세스 및 도구: 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
출력 자료: 프로젝트 범위 정의서(SOW)
◆프로젝트 정의 및 계획 수립
-데이터 분석 프로젝트 정의
입력자료: 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서
프로세스 및 도구: 프로젝트 목표 구체화, 모델 운영 이미지 설계
출력 자료: 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준 -> WBS 작성
◆프로젝트 위험계획 수립
-데이터 분석 위험 식별
입력자료: 프로젝트 범위 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료
프로세스 및 도구: 위험 식별 절차, 위험영향도·발생가능성 분석, 위험 우선순위 판단
출력 자료: 식별된 위험 목록
- 위험 대응 계획 수립
입력자료: 식별된 위험 목록, 프로젝트 범위 정의서, 프로젝트 수행 계획서
프로세스 및 도구: 위험 정략적 분석, 위험 정성적 분석
출력 자료: 위험관리 계획서(회피, 전이, 완화, 수용으로 구분)
②데이터 준비
◆필요 데이터 정의
-데이터 수집 및 저장
입력자료: 정의프로젝트 수행 계획서, 시스템 설계서, ERD, 메타정형데이터 정의서, 문서 자료
프로세스 및 도구: 내·외부, 정형·비정형·반정형 데이터 정의
출력 자료: 데이터 정의서
- 데이터 획득방안 수립
입력자료: 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서자료, 데이터 구입
프로세스 및 도구: 데이터 획득 방안 수립
출력 자료: 데이터 획득 계획서
◆데이터 스토어 설계
- 정형 데이터 스토어 설계: 일반적으로 관계형 데이터베이스인 RDBMS 사용
입력자료: 데이터 정의서, 데이터 획득 계획서
프로세스 및 도구: DB 논리설계/물리설계(구분이유: 효율적 저장과 활용), 데이터 매핑
출력 자료: 정형 데이터 스토어 설계서, 데이터 매핑 정의서
- 비정형 데이터 스토어 설계(하둡, NoSQL 이용)
입력자료: 데이터 정의서, 데이터 획득 계획서
프로세스 및 도구: 비정형·반정형 데이터베이스 논리설계/물리설계
출력 자료: 비정형 데이터 스토어 설계서, 데이터 매핑 정의서
◆데이터 수집 및 정합성 점검
- 데이터 수집 및 저장
입력자료: 데이터 정의서, 데이터 획득 계획서, 데이터 수집 스크립트
프로세스 및 도구: 데이터 크롤링 도구, ETL 도구, API, 데이터 수집 스크립트(데이터 수집)
출력 자료: 수집된 분석용 데이터(데이터 스토어에 저장)
- 데이터 정합성 점검
입력자료: 수집된 분석용 데이터
프로세스 및 도구: 데이터 품질확인, 데이터 정합성 점검 리스트
출력 자료: 데이터 정합성 점검 보고서(주기적 확인)
③데이터 분석
◆분석용 데이터 준비
- 비즈니스 룰 확인
입력자료: 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어
프로세스 및 도구: 프로젝트 목표 확인, 비즈니스 룰 확인
출력 자료: 비즈니스 룰, 분석에 필요한 데이터 범위
- 분석용 데이터 셋 준비
입력자료: 데이터 정의서, 데이터 스토어
프로세스 및 도구: 데이터 선정/변환, ETL 도구
출력 자료: 분석용 데이터 셋(작업공간(play ground, sand box), 전사 차원 데이터 스토어로 분리 가능)
◆텍스트 분석
- 텍스트 데이터 확인 및 추출
입력자료: 비정형 데이터 스토어
프로세스 및 도구: 분석용 텍스트 데이터 확인, 텍스트 데이터 추출
출력 자료: 분석용 텍스트 데이터
- 텍스트 데이터 분석: 분석하고 모델 구축
입력자료: 분석용 텍스트 데이터, 용어사전(용어 유의어 사전, 불용어 사전 등)
프로세스 및 도구: 분류체계 설계, 형태소 분석, 키워드 도출, 토픽·감정·의견·네트워크 분석
출력 자료: 텍스트 분석 보고서(시각화 사용)
◆탐색적 분석
- 탐색적 데이터 분석
입력자료: 분석용 데이터 셋
프로세스 및 도구: EDA 도구, 통계분석, 변수간 연관성 분석, 데이터 분포 확인
출력 자료: 데이터 탐색 보고서(모델링을 위한 기초 자료)
- 데이터 시각화
입력자료: 분석용 데이터 셋
프로세스 및 도구: 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론
출력 자료: 데이터 시각화 보고서(시스템 구현을 위한 사용자 인터페이스, 프로토타입으로 활용 가능)
◆모델링
- 데이터 분할
입력자료: 분석용 데이터 셋
프로세스 및 도구: 데이터 분할 패키지
출력 자료: 훈련용 데이터, 테스트용 데이터(모델의 과적합과 일반화를 위해)
- 데이터 모델링
입력자료: 분석용 데이터 셋
프로세스 및 도구: 통계 모델링 기법, 기계학습, 모델 테스트(훈련용 데이터를 이용해 모델을 만든 후 운영 시스템에 적용)
출력 자료: 모델링 결과 보고서
- 모델 적용 및 운영 방안
입력자료: 모델링 결과 보고서
프로세스 및 도구: 모니터링 방안 수립 알고리즘 설명서 작성
출력 자료: 알고리즘 설명서(운영 시스템에 적용하기 위해), 모니터링 방안(안정적 운영을 위해)
◆모델 평가 및 검증
- 모델 평가
입력자료: 모델링 결과 보고서, 평가용 데이터(테스트용 데이터나 별도 사용)
프로세스 및 도구: 모델 평가, 모델 품질 관리, 모델 개선사업
출력 자료: 모델 평가 보고서
- 모델 검증
입력자료: 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터(실 운용 데이터)
프로세스 및 도구: 모델 검증
출력 자료: 모델 검증 보고서
④시스템 구현
◆설계 및 구현
- 시스템 분석 및 설계
입력자료: 알고리즘 설명서, 운영 중인 시스템 설계서
프로세스 및 도구: 정보시스템 개발방법론(커스터마이징)
출력 자료: 시스템 분석 및 설계서
- 시스템 구현
입력자료: 시스템 분석 및 설계서, 알고리즘 설명서
프로세스 및 도구: 시스템 통합 개발도구(IDE), 프로그램 언어, 패키지
출력 자료: 구현 시스템
◆시스템 테스트 및 운영
- 시스템 테스트
입력자료: 구현 시스템, 시스템 테스트 계획서
프로세스 및 도구: 품질관리 활동(객관성, 완전성 확보)
출력 자료: 시스템 테스트 결과보고서
- 시스템 운영 계획
입력자료: 시스템 분석 및 설계서, 구현 시스템
프로세스 및 도구: 운영계획 수립, 운영자 및 사용자 교육
출력 자료: 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서(지속적 활용을 위해)
⑤평가 및 전개
◆모델 발전 계획 수립
- 모델 발전 계획
입력자료: 구현 시스템, 프로젝트 산출물
프로세스 및 도구: 모델 발전 계획 수립(모델의 지속성, 기능 향상)
출력 자료: 모델 발전 계획서(모델의 계획성 확보)
◆프로젝트 평가 및 보고
- 프로젝트 성과 평가
입력자료: 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
프로세스 및 도구: 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
출력 자료: 프로젝트 성과 보고서
- 프로젝트 종료
입력자료: 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 보고서
프로세스 및 도구: 프로젝트 지식자산화 작업, 프로젝트 종료
출력 자료: 프로젝트 최종 보고서
*출처: '데이터 분석 전문가 가이드, 한국데이터진흥원'
'□ ADsP' 카테고리의 다른 글
[ADsP - 3과목] 제2장 분석 마스터 플랜 (0) | 2018.09.11 |
---|---|
[ADsP - 3과목] 제1장 데이터 분석 기획의 이해 -2 (0) | 2018.09.07 |
[ADsP - 1과목] 제3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2018.09.04 |
[ADsP - 1과목] 제2장 데이터의 가치와 미래 (0) | 2018.09.04 |
[ADsP - 1과목] 제1장 데이터의 이해 (0) | 2018.09.04 |