핵심 인사이트 (3줄 요약)
- 본질: 탐색적 데이터 분석(EDA, Exploratory Data Analysis)은 모델을 바로 돌리기 전에 데이터의 분포, 결측, 이상치, 관계를 먼저 훑어보는 발견 단계다.
- 가치: EDA를 하면 잘못된 데이터, 편향된 샘플, 숨은 이상 패턴을 초기에 잡아내어 "쓰레기 입력, 쓰레기 출력"을 막을 수 있다.
- 판단: 단변량·이변량·다변량 분석과 시각화를 함께 써야 하며, EDA는 가설을 증명하기보다 가설을 만드는 데 초점을 둔다.
Ⅰ. 개요 및 필요성
데이터는 숫자처럼 보여도 처음 보면 맥락이 없다. 그래서 곧바로 모델링으로 들어가면, 데이터의 성격을 이해하지 못한 채 결과만 맞추는 위험이 생긴다.
EDA는 그 전에 데이터와 "대화"하는 과정이다. 평균과 분산만 보는 것이 아니라, 그래프와 표를 통해 어디가 비었고 어디가 튀는지, 변수끼리 어떤 관계를 갖는지 먼저 확인한다.
- 📢 섹션 요약 비유: 책을 읽기 전에 목차와 그림을 먼저 보는 것과 같다. 내용보다 구조를 먼저 알아야 길을 잃지 않는다.
Ⅱ. 아키텍처 및 핵심 원리
데이터 수집
↓
프로파일링
↓
시각화
↓
결측치/이상치 점검
↓
가설 생성
↓
모델링
| 분석 유형 | 질문 | 대표 도구 |
|---|---|---|
| 단변량(Univariate) | 값이 어떻게 퍼져 있는가? | Histogram, Box Plot, Summary Stats |
| 이변량(Bivariate) | 두 변수는 어떻게 연결되는가? | Scatter Plot, Crosstab, Heatmap |
| 다변량(Multivariate) | 여러 변수가 함께 움직이는가? | Pair Plot, Correlation Matrix |
EDA의 핵심은 숫자를 믿지 말고 모양을 보라는 것이다. 요약 통계는 방향을 주고, 시각화는 실제 형태를 보여준다.
- 📢 섹션 요약 비유: 과일 바구니의 평균 무게만 보면 맛을 모르지만, 사진을 보면 익은 것과 상한 것이 바로 보인다.
Ⅲ. 비교 및 연결
| 구분 | EDA | Confirmatory Analysis | Modeling |
|---|---|---|---|
| 목적 | 발견 | 검증 | 예측/분류 |
| 질문 | "무슨 일이 보이나?" | "가설이 맞나?" | "미래를 맞출 수 있나?" |
| 산출물 | 그래프, 패턴, 후보 가설 | 통계 검정, p-value | 특성, 예측값, 성능 |
| 흐름 | 앞단 | 중간/후단 | 후단 |
EDA는 정답을 말하기보다 다음 질문을 만든다. 그래서 좋은 EDA는 "모델을 빨리 만드는 것"이 아니라 "어떤 모델을 만들어야 하는지 아는 것"에 가깝다.
- 📢 섹션 요약 비유: 탐정이 범인을 바로 지목하기 전에 현장을 먼저 둘러보는 단계다.
Ⅳ. 실무 적용 및 기술사 판단
체크리스트
- 결측치가 어디에 몰려 있는가?
- 이상치가 오류인지 의미 있는 신호인지 구분했는가?
- 왜도와 첨도가 심한 분포를 확인했는가?
- 변수 간 상관관계와 다중공선성을 봤는가?
- 학습 데이터와 검증 데이터가 섞이지 않았는가?
처리 가이드
| 상황 | 판단 | 조치 |
|---|---|---|
| 결측치가 많음 | 패턴 확인 | 삭제 또는 대체 |
| 이상치가 오류 | 원천 수정 | 제거 또는 보정 |
| 이상치가 의미 있음 | 도메인 해석 | 별도 태그 유지 |
| 상관관계가 큼 | 중복 가능성 | 변수 정리 |
| 분포가 치우침 | 변환 필요 | 로그/박스-콕스 |
안티패턴
- 그래프 없이 평균만 보고 결론 내리는 설계
- 결측치와 이상치를 같은 방식으로 처리하는 설계
- EDA 결과를 기록하지 않고 모델링으로 바로 넘어가는 설계
- 샘플 편향을 확인하지 않은 채 전체를 대표한다고 믿는 설계
기술사 관점에서는 EDA를 "예쁜 그래프 그리기"가 아니라 "데이터 품질과 문제 정의를 확정하는 절차"로 봐야 한다.
- 📢 섹션 요약 비유: 레고를 조립하기 전에 부품이 다 있는지 확인하고, 모양이 다른 부품은 먼저 빼놓는 일이다.
Ⅴ. 기대효과 및 결론
EDA가 잘 되면 모델링 시간은 줄고, 엉뚱한 결론은 줄어든다. 무엇보다 데이터가 말하는 실제 문제를 더 빨리 찾을 수 있다.
최근에는 자동 프로파일링, 노트북 보조 도구, 데이터 옵저버빌리티(Data Observability)가 붙어 EDA가 더 빠르고 반복 가능해지고 있다.
- 📢 섹션 요약 비유: 시작 전에 지도를 보면 길을 헤매는 시간이 크게 줄어든다.
관련 개념 맵
Raw Data
↓
EDA
↓
Hypothesis
↓
Feature Engineering
↓
Modeling
관련 키워드 및 발전 흐름도
Summary Stats
↓
Visualization
↓
Exploration
↓
Automated Profiling
↓
Data Observability
어린이를 위한 3줄 비유 설명
레고 상자를 열기 전에 부품이 다 있는지 먼저 봐야 해요.
어떤 부품은 너무 많고 어떤 부품은 빠져 있을 수 있어요.
EDA는 조립하기 전에 상자를 꼼꼼히 살펴보는 일이에요.