본문 바로가기

□ ADsP

[ADsP - 1과목] 제2장 데이터의 가치와 미래


과목Ⅰ. 데이터 이해 


제2장. 데이터의 가치와 미래 


제1절 빅데이터의 이해

1. 빅데이터의 정의

◆빅데이터 정의

- Mckinsey(2011): 일반적인 데이터베이스 소프트웨어 범위를 초과하는 규모의 데이터

- IDC(2011): 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집·발굴·분석을 지원하도록 고안된 차세대 기술 및 아키텍처

- 베이어-쉰베르거와쿠키어(2013): 대용량 데이터를 활용해 작은 용량에서 얻을 수 없던 새로운 통찰이나 가치 창출+많은 분야에서 변화를 가져옴

- 가트너 그룹의 더그 래니: 3V (Volume, Variety, Velocity)


◆관점의 범위에 따른 정의

- 좁은 범위: 데이터 변화(3V)

- 중간 범위: 기술적 변화(새로운 데이터 처리·저장·분석 기술, 클라우드 컴퓨팅 활용)

- 넓은 범위: 인재, 조직변화(Data Scientist, 데이터 중심 조직)

◆기존에 없던 통찰 및 가치 창출

◆사업 방식, 시장, 사회 정부 등에서 변호와 혁신 주도


2. 출현 배경

◆빅데이터 출현 배경

- (산업계) 고객 데이터 축적(양질 전환 법칙)

- (학계) 거대 데이터 활용 과학 확산

- 관련 기술 발전(디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅)


3. 빅데이터 기능

◆비유 표현: 산업혁명의 석탄·철 / 21C의 원유 / 렌즈(구글 ‘Ngram Viewer) / 플랫폼

- 렌즈: 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향 비유


4. 빅데이터가 만들어내는 본질적인 변화

◆사전처리→사후처리: 숨은 정보 찾아냄

◆표본조사→전수조사: 기술 발달

◆질→양: 모든 데이터 활용 가능

◆인과관계→상관관계: 데이터 기반의 상관관계 분석이 주는 인사이트로 미래 예측




제2절 빅데이터의 가치와 영향

1. 빅데이터의 가치

◆가치 산정이 어려운 이유

- 데이터 활용방식: 재사용, 재조합, 다목적용 개발 (언제, 어디서, 누가 활용할지 알 수 없음)

- 새로운 가치창출: 가치 측정 어려움

- 분석 기술 발전: 클라우드 분산 컴퓨팅과 분석 기법 등장(가치가 없던 데이터에서 가치를 만듦)


2. 빅데이터의 영향

◆빅데이터가 가치를 만들어내는 방식(맥킨지 언급)

- 투명성 제고로 연구개발 및 관리 효율성 제고 / 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화

- 고객 세분화 및 맞춤 서비스 제공 / 알고리즘을 활용한 의사결정 보조·대체

- 비즈니스 모델과 제품, 서비스 혁신


◆빅데이터가 시장에 미치는 영향 (→생활전반의 스마트화)

- (기업) 혁신, 경쟁력, 생산성 향상

- (정부) 환경탐색, 상황분석, 미래대응

- (개인) 목적에 따라 활용



제3절 비즈니스 모델

1. 빅데이터 활용사례

- 기업혁신: 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단

- 정부활용: 실시간 교통정보수집, 기후, 각종 지질활동, 국가안전 확보 활동 및 의료와 교육 개선 활용 방안 모색

- 개인활용: 정치인과 가수의 SNS 활용


2. 빅데이터 활용 기본 테크닉 7가지

◆연관규칙 학습: 어떤 변인들 간에 주목할 만한 상관관계가 있는지

- A를 구매한 사람이 B를 더 많이 사는가?

◆유형분석: 새로운 사건이 속하게 될 범주를 찾아내는 방법

- 이 사용자가 어떤 특성을 가진 집단에 속하는가?

◆유전 알고리즘: 최적화가 필요한 문제의 해결책을 매커니즘(자연선택, 돌연변이)을 통해 점진적으로 진화시키는 방법

- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송하는가? 최대수익을 얻기 위해 마케팅 믹스 활용

◆기계학습: 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측

- 기존 시청기록을 바탕으로 시청자는 보유한 영화 중 어떤 영화를 가장 보고 싶어하는가?

◆회귀분석: 독립변수에 따라 종속변수가 어떻게 변화하는지를 보며 두 변인의 관계를 파악

- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

◆감정분석: 특정 주제에 대해 말하거나 글을 쓴 사람의 감정 분석

- 새로운 환불 정책에 대한 고객의 평가는 어떠한가?

◆소셜 네트워크 분석: 영향력 있는 사람(오피니언 리더)을 찾고 고객들 간 소셜 관계 파악

- 특정인과 다른 사람이 몇 촌 정도의 관계인가?




제4절 위기요인과 통제방안

◆위기요인 → 통제방안

- 사생활 침해 → 동의에서 책임으로(개인 정보 사용자의 책임으로 해결)

- 책임 원칙 훼손(예측 알고리즘의 희생양이 될 가능성) → 결과 기반 책임 원칙 고수(행동 결과를 보고 처벌)

- 데이터 오용(데이터 과신, 잘못된 지표의 사용) → 알고리즘 접근 허용(알고리즈미스트)




제5절 미래의 빅데이터

◆빅데이터 활용에 필요한 3요소

- 데이터

- 기술(진화하는 알고리즘, 인공지능)

- 인력(데이터 사이언티스트, 알고리즈미스트)



*출처: '데이터 분석 전문가 가이드, 한국데이터진흥원'