Ch1. ADsP 데이터분석 준전문가 — ADsP 개요와 데이터 분석 기획
ADsP란 무엇인가
**ADsP(Advanced Data Analytics Semi-Professional)**는 한국데이터산업진흥원(K-DATA)이 주관하는 데이터 분석 준전문가 국가공인 자격증입니다. 데이터 분석 업무에 필요한 기초 지식과 실무 능력을 인증하며, 데이터 사이언티스트·분석가·기획자를 목표로 하는 분들에게 첫 번째 관문이 됩니다.
ADsP vs ADP 차이
| 구분 | ADsP | ADP |
|---|---|---|
| 수준 | 준전문가 | 전문가 |
| 응시 자격 | 제한 없음 | 경력 요건 있음 |
| 시험 형식 | 객관식 50문항 | 필기 + 실기 |
| 합격 기준 | 60점 이상 (과목별 40점 이상) | 필기 60점 이상 + 실기 통과 |
| 난이도 | 중급 | 고급 |
ADsP는 응시 제한이 없어 대학생부터 직장인까지 누구나 도전할 수 있습니다. 합격률은 회차마다 다르지만 평균 40~60% 수준입니다.
시험 구조: 3과목 완전 분석
ADsP는 총 3개 과목 50문항으로 구성됩니다.
제1과목: 데이터 이해 (10문항)
- 데이터와 정보의 개념
- 데이터베이스 정의 및 특징
- 빅데이터의 등장과 가치
- 데이터 사이언티스트 역량
- 가치 창조를 위한 빅데이터 활용 전략
출제 비중: 20% / 권장 학습 시간: 시험 공부 전체의 약 15%
제2과목: 데이터 분석 기획 (10문항)
- 분석 기획의 이해
- 분석 방법론 (CRISP-DM, KDD 등)
- 분석 과제 발굴
- 분석 프로젝트 관리
- 마스터 플랜 수립
출제 비중: 20% / 권장 학습 시간: 시험 공부 전체의 약 20%
제3과목: 데이터 분석 (30문항)
- 통계학 기초 (기술통계, 추론통계)
- 회귀분석
- 분류분석 (의사결정나무, 로지스틱 회귀, 나이브 베이즈)
- 군집분석
- 시계열 분석
- 텍스트 마이닝
출제 비중: 60% / 권장 학습 시간: 시험 공부 전체의 약 65%
핵심 전략: 3과목이 전체 문항의 60%를 차지합니다. 통계와 모델링에 집중 투자하되, 1·2과목에서 과락(40점 미만)이 나지 않도록 최소한의 기반은 다져야 합니다.
데이터 분석 기획의 이해
분석 기획이란
데이터 분석 기획은 비즈니스 문제를 정의하고, 적절한 분석 방법을 선택하며, 실행 계획을 수립하는 과정입니다. 단순히 데이터를 분석하는 것이 아니라 **“왜 분석하는가”**를 명확히 하는 것이 핵심입니다.
분석 기획의 5가지 핵심 요소:
- 분석 목적 명확화: 비즈니스 문제를 해결 가능한 분석 질문으로 전환
- 데이터 가용성 확인: 필요한 데이터의 존재 여부와 품질 검토
- 분석 방법 선택: 문제 유형에 맞는 적절한 알고리즘과 기법 선정
- 성과 지표 설정: 분석 결과를 평가할 수 있는 KPI 정의
- 일정 및 자원 계획: 인력·시간·비용 계획 수립
분석 과제 유형
분석 과제는 문제 인식 방식에 따라 두 가지로 구분됩니다.
하향식 접근(Top-Down Approach)
- 경영진 또는 비즈니스 목표에서 출발
- 전략적 방향이 명확할 때 유효
- 예: “고객 이탈률을 20% 줄여라” → 이탈 예측 모델 개발
상향식 접근(Bottom-Up Approach)
- 데이터에서 출발해 새로운 인사이트 발굴
- 탐색적 분석(EDA)을 통해 문제를 발견
- 예: 구매 패턴 분석 → 교차 판매 기회 발견
KPI 설계
**KPI(Key Performance Indicator, 핵심성과지표)**는 목표 달성 여부를 측정하는 정량적 지표입니다.
좋은 KPI의 조건: SMART 원칙
| 알파벳 | 의미 | 설명 |
|---|---|---|
| S | Specific(구체적) | 명확하게 정의된 지표 |
| M | Measurable(측정 가능) | 수치로 측정 가능한 지표 |
| A | Achievable(달성 가능) | 현실적으로 달성 가능한 목표 |
| R | Relevant(관련성) | 비즈니스 목표와 연결된 지표 |
| T | Time-bound(기한 명확) | 달성 기한이 명시된 지표 |
KPI 예시
- 마케팅: 월간 신규 고객 획득 수, 고객 획득 비용(CAC), 고객 생애 가치(CLV)
- 서비스: 고객 만족도(CSAT), 순추천지수(NPS), 평균 응답 시간
- 운영: 재고 회전율, 불량률, 생산 효율성
KPI와 분석의 연결
KPI를 먼저 정의하면 분석의 방향이 명확해집니다.
예시: **“월별 고객 이탈률 5% 이하 유지”**라는 KPI가 있다면
- 현재 이탈률이 얼마인지 측정 (기술통계)
- 이탈 고객의 특성 파악 (탐색적 분석)
- 이탈 예측 모델 개발 (분류 알고리즘)
- 예방 조치 실행 후 KPI 재측정 (성과 평가)
CRISP-DM 방법론
**CRISP-DM(Cross-Industry Standard Process for Data Mining)**은 데이터 마이닝 프로젝트의 표준 프로세스 모델입니다. 1996년 제안된 이후 현재까지 가장 널리 사용되는 데이터 분석 방법론입니다.
CRISP-DM 6단계
비즈니스 이해
↓
데이터 이해
↓
데이터 준비
↓
모델링
↓
평가
↓
전개(배포)
↑_________________↓ (반복적 프로세스)
1단계: 비즈니스 이해 (Business Understanding)
- 비즈니스 목표 정의
- 성공 기준 설정
- 데이터 마이닝 목표 수립
- 프로젝트 계획 수립
2단계: 데이터 이해 (Data Understanding)
- 초기 데이터 수집
- 데이터 기술 (Data Description)
- 데이터 탐색 (EDA)
- 데이터 품질 검증
3단계: 데이터 준비 (Data Preparation)
- 데이터 선택 및 정제
- 결측치·이상치 처리
- 파생 변수 생성
- 데이터 통합·형식 변환
4단계: 모델링 (Modeling)
- 모델링 기법 선택
- 테스트 설계 (훈련/검증/테스트 분할)
- 모델 구축
- 모델 평가
5단계: 평가 (Evaluation)
- 모델 결과 평가
- 비즈니스 목표와의 부합성 검토
- 다음 단계 결정
6단계: 전개 (Deployment)
- 배포 계획 수립
- 모니터링·유지보수 계획
- 최종 보고서 작성
- 프로젝트 리뷰
시험 포인트: CRISP-DM은 비선형(Non-linear) 프로세스입니다. 어떤 단계에서도 이전 단계로 돌아갈 수 있으며, 이 반복적 특성이 중요한 출제 포인트입니다.
KDD vs CRISP-DM 비교
| 구분 | KDD | CRISP-DM |
|---|---|---|
| 제안 시기 | 1996 | 1996~2000 |
| 단계 수 | 9단계 | 6단계 |
| 초점 | 학문적 | 실무적 |
| 특징 | 데이터 중심 | 비즈니스 중심 |
데이터 거버넌스
**데이터 거버넌스(Data Governance)**는 데이터를 조직의 자산으로 관리하기 위한 정책·프로세스·책임 체계입니다.
데이터 거버넌스의 핵심 구성 요소
1. 데이터 원칙 (Data Principles)
- 데이터 관리의 기본 방향과 철학
- 예: 데이터 정확성 우선, 개인정보 보호 최우선
2. 데이터 표준 (Data Standards)
- 데이터 명칭·형식·코드 체계 통일
- 예: 날짜 형식은 YYYY-MM-DD로 통일
3. 데이터 품질 관리 (Data Quality Management)
- 완전성(Completeness): 결측치 없음
- 정확성(Accuracy): 실제 값과 일치
- 일관성(Consistency): 여러 시스템 간 데이터 일치
- 적시성(Timeliness): 필요한 시점에 제공
4. 데이터 보안 (Data Security)
- 접근 권한 관리
- 개인정보 보호법 준수
- 데이터 암호화
5. 메타데이터 관리 (Metadata Management)
- 데이터에 대한 데이터(데이터의 정의·속성·출처·이력)
- 데이터 카탈로그 구축
CDO의 역할
**CDO(Chief Data Officer)**는 조직의 데이터 전략을 총괄하는 최고 데이터 책임자입니다.
- 데이터 거버넌스 체계 수립 및 운영
- 데이터 품질 관리 총괄
- 데이터 기반 의사결정 문화 조성
- 개인정보 보호 및 규제 준수
분석 로드맵 수립
분석 성숙도 모델
조직의 데이터 분석 역량을 4단계로 구분합니다.
| 단계 | 명칭 | 특징 |
|---|---|---|
| 1단계 | 도입 | 보고서 중심, 임시방편 분석 |
| 2단계 | 활용 | 정기적 분석, 부서별 운영 |
| 3단계 | 확산 | 전사적 분석 플랫폼, 데이터 기반 의사결정 |
| 4단계 | 최적화 | 예측 분석, AI·ML 활용, 실시간 분석 |
분석 로드맵 구성
분석 로드맵은 단기(0~6개월), 중기(6~18개월), 장기(18개월 이상) 계획으로 구성됩니다.
단기: 데이터 인프라 구축, 기초 분석 도입, 팀 역량 강화 중기: 핵심 분석 시스템 완성, 예측 모델 개발, 성과 측정 체계 수립 장기: AI·ML 플랫폼 고도화, 실시간 분석, 외부 데이터 연동
빅데이터 개요
빅데이터의 3V (기본)
| V | 의미 | 설명 |
|---|---|---|
| Volume | 규모 | 기존 데이터보다 훨씬 큰 용량 |
| Velocity | 속도 | 빠른 생성·처리·분석 속도 |
| Variety | 다양성 | 정형·반정형·비정형 데이터 |
빅데이터의 확장 (5V, 7V)
- Value(가치): 데이터에서 가치를 창출
- Veracity(정확성): 데이터의 신뢰성과 품질
- Variability(가변성): 데이터의 의미가 상황에 따라 변함
- Visualization(시각화): 결과를 이해 가능한 형태로 표현
빅데이터 처리 기술
배치 처리: Hadoop MapReduce — 대용량 데이터를 일괄 처리 실시간 처리: Apache Spark, Apache Kafka — 스트리밍 데이터 처리 데이터 저장: HDFS, NoSQL(MongoDB, HBase), 데이터 레이크
ADsP 시험 전략
합격을 위한 공부 순서
- 1주차: 1·2과목 빠르게 정독 (개념 중심)
- 2~3주차: 3과목 통계 기초 집중 (기술통계, 추론통계)
- 4~5주차: 3과목 모델링 (분류, 군집, 회귀)
- 6주차: 전 과목 복습 + 기출문제 풀이
- 시험 전 3일: 오답 정리 + 핵심 공식 암기
과락 방지 전략
- 1과목: 빅데이터 3V·4V, 데이터 사이언티스트 역량 반드시 암기
- 2과목: CRISP-DM 6단계 순서와 각 단계 내용 완벽 숙지
- 3과목: 기본 통계 공식, 모델 평가 지표(정확도·F1·ROC) 암기
자주 출제되는 유형
- CRISP-DM 단계 순서 맞추기
- 기술통계 vs 추론통계 구분
- 모델 평가 지표 계산 (정밀도, 재현율, F1)
- 군집분석 알고리즘 비교 (K-Means vs 계층적 군집)
- 의사결정나무 불순도 지수 (지니계수, 엔트로피)
추천 학습 자료
- 공식 교재: 데이터에듀 ADsP 이론서
- 기출문제: 최근 5회분 필수
- 무료 강의: 유튜브 ADsP 관련 강의
- 모의고사: 온라인 CBT 플랫폼 활용
핵심 용어 정리
| 용어 | 설명 |
|---|---|
| CRISP-DM | 데이터 마이닝 표준 프로세스 (6단계) |
| KPI | 핵심성과지표 — 목표 달성 측정 지표 |
| CDO | 최고 데이터 책임자 |
| 데이터 거버넌스 | 데이터를 조직 자산으로 관리하는 정책·프로세스 체계 |
| 메타데이터 | 데이터에 대한 데이터 (정의·속성·출처) |
| 빅데이터 3V | Volume·Velocity·Variety |
| 하향식 접근 | 비즈니스 목표 → 분석 과제 도출 |
| 상향식 접근 | 데이터 탐색 → 인사이트 발굴 |
| 분석 성숙도 | 조직의 데이터 분석 역량 수준 (4단계) |
실전 퀴즈 5문항
Q1. CRISP-DM의 6단계를 올바른 순서로 나열하시오.
정답: 비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개(배포)
CRISP-DM은 비선형 반복 프로세스이므로 어느 단계에서도 이전 단계로 돌아갈 수 있습니다.
Q2. 다음 중 빅데이터의 기본 3V에 해당하지 않는 것은?
A. Volume B. Velocity C. Veracity D. Variety
정답: C. Veracity
기본 3V는 Volume(규모), Velocity(속도), Variety(다양성)입니다. Veracity(정확성)는 확장된 개념으로 5V에 포함됩니다.
Q3. ADsP 시험에서 합격하려면 전체 평균 60점 이상, 그리고 각 과목별 최소 몇 점 이상이어야 하는가?
정답: 각 과목별 40점 이상
전체 평균 60점 이상이더라도 특정 과목에서 40점 미만이면 과락으로 불합격 처리됩니다.
Q4. 데이터 거버넌스에서 ‘메타데이터’란 무엇인가?
정답: 데이터에 대한 데이터로, 데이터의 정의·속성·출처·이력 등을 담고 있는 정보입니다.
예를 들어 ‘고객ID’라는 데이터에 대해 “최대 10자리 숫자, 가입 시 자동 생성, 고객 테이블의 기본키”라는 설명이 메타데이터입니다.
Q5. 분석 과제 발굴의 하향식 접근과 상향식 접근의 차이를 설명하고, 각각의 예시를 하나씩 드시오.
정답:
하향식 접근: 경영진의 전략적 목표에서 출발하여 분석 과제를 도출하는 방식입니다. 예시: “고객 이탈률 20% 감소”라는 경영 목표 → 이탈 예측 모델 개발 과제 도출
상향식 접근: 데이터 탐색에서 출발하여 새로운 인사이트나 문제를 발굴하는 방식입니다. 예시: 구매 패턴 EDA 중 특정 상품군의 동시 구매 비율이 높다는 것을 발견 → 상품 추천 시스템 개발 과제 도출
OIYO 편집부
Content Editor지식 인큐베이터이자 전문 콘텐츠 크리에이터. 경영, 경제, 법률 및 실생활에 유용한 실무/자격증 중심의 깊이 있는 정보를 연구하고 공유합니다.