핵심 인사이트 (3줄 요약)

  1. 본질: 탐색적 데이터 분석(EDA, Exploratory Data Analysis)은 모델을 바로 돌리기 전에 데이터의 분포, 결측, 이상치, 관계를 먼저 훑어보는 발견 단계다.
  2. 가치: EDA를 하면 잘못된 데이터, 편향된 샘플, 숨은 이상 패턴을 초기에 잡아내어 "쓰레기 입력, 쓰레기 출력"을 막을 수 있다.
  3. 판단: 단변량·이변량·다변량 분석과 시각화를 함께 써야 하며, EDA는 가설을 증명하기보다 가설을 만드는 데 초점을 둔다.

Ⅰ. 개요 및 필요성

데이터는 숫자처럼 보여도 처음 보면 맥락이 없다. 그래서 곧바로 모델링으로 들어가면, 데이터의 성격을 이해하지 못한 채 결과만 맞추는 위험이 생긴다.

EDA는 그 전에 데이터와 "대화"하는 과정이다. 평균과 분산만 보는 것이 아니라, 그래프와 표를 통해 어디가 비었고 어디가 튀는지, 변수끼리 어떤 관계를 갖는지 먼저 확인한다.

  • 📢 섹션 요약 비유: 책을 읽기 전에 목차와 그림을 먼저 보는 것과 같다. 내용보다 구조를 먼저 알아야 길을 잃지 않는다.

Ⅱ. 아키텍처 및 핵심 원리

데이터 수집
  ↓
프로파일링
  ↓
시각화
  ↓
결측치/이상치 점검
  ↓
가설 생성
  ↓
모델링
분석 유형질문대표 도구
단변량(Univariate)값이 어떻게 퍼져 있는가?Histogram, Box Plot, Summary Stats
이변량(Bivariate)두 변수는 어떻게 연결되는가?Scatter Plot, Crosstab, Heatmap
다변량(Multivariate)여러 변수가 함께 움직이는가?Pair Plot, Correlation Matrix

EDA의 핵심은 숫자를 믿지 말고 모양을 보라는 것이다. 요약 통계는 방향을 주고, 시각화는 실제 형태를 보여준다.

  • 📢 섹션 요약 비유: 과일 바구니의 평균 무게만 보면 맛을 모르지만, 사진을 보면 익은 것과 상한 것이 바로 보인다.

Ⅲ. 비교 및 연결

구분EDAConfirmatory AnalysisModeling
목적발견검증예측/분류
질문"무슨 일이 보이나?""가설이 맞나?""미래를 맞출 수 있나?"
산출물그래프, 패턴, 후보 가설통계 검정, p-value특성, 예측값, 성능
흐름앞단중간/후단후단

EDA는 정답을 말하기보다 다음 질문을 만든다. 그래서 좋은 EDA는 "모델을 빨리 만드는 것"이 아니라 "어떤 모델을 만들어야 하는지 아는 것"에 가깝다.

  • 📢 섹션 요약 비유: 탐정이 범인을 바로 지목하기 전에 현장을 먼저 둘러보는 단계다.

Ⅳ. 실무 적용 및 기술사 판단

체크리스트

  1. 결측치가 어디에 몰려 있는가?
  2. 이상치가 오류인지 의미 있는 신호인지 구분했는가?
  3. 왜도와 첨도가 심한 분포를 확인했는가?
  4. 변수 간 상관관계와 다중공선성을 봤는가?
  5. 학습 데이터와 검증 데이터가 섞이지 않았는가?

처리 가이드

상황판단조치
결측치가 많음패턴 확인삭제 또는 대체
이상치가 오류원천 수정제거 또는 보정
이상치가 의미 있음도메인 해석별도 태그 유지
상관관계가 큼중복 가능성변수 정리
분포가 치우침변환 필요로그/박스-콕스

안티패턴

  • 그래프 없이 평균만 보고 결론 내리는 설계
  • 결측치와 이상치를 같은 방식으로 처리하는 설계
  • EDA 결과를 기록하지 않고 모델링으로 바로 넘어가는 설계
  • 샘플 편향을 확인하지 않은 채 전체를 대표한다고 믿는 설계

기술사 관점에서는 EDA를 "예쁜 그래프 그리기"가 아니라 "데이터 품질과 문제 정의를 확정하는 절차"로 봐야 한다.

  • 📢 섹션 요약 비유: 레고를 조립하기 전에 부품이 다 있는지 확인하고, 모양이 다른 부품은 먼저 빼놓는 일이다.

Ⅴ. 기대효과 및 결론

EDA가 잘 되면 모델링 시간은 줄고, 엉뚱한 결론은 줄어든다. 무엇보다 데이터가 말하는 실제 문제를 더 빨리 찾을 수 있다.

최근에는 자동 프로파일링, 노트북 보조 도구, 데이터 옵저버빌리티(Data Observability)가 붙어 EDA가 더 빠르고 반복 가능해지고 있다.

  • 📢 섹션 요약 비유: 시작 전에 지도를 보면 길을 헤매는 시간이 크게 줄어든다.

관련 개념 맵

Raw Data
  ↓
EDA
  ↓
Hypothesis
  ↓
Feature Engineering
  ↓
Modeling

관련 키워드 및 발전 흐름도

Summary Stats
  ↓
Visualization
  ↓
Exploration
  ↓
Automated Profiling
  ↓
Data Observability

어린이를 위한 3줄 비유 설명

레고 상자를 열기 전에 부품이 다 있는지 먼저 봐야 해요.
어떤 부품은 너무 많고 어떤 부품은 빠져 있을 수 있어요.
EDA는 조립하기 전에 상자를 꼼꼼히 살펴보는 일이에요.