043. 관계 대수 — 조인 (Relational Algebra Join)

핵심 인사이트

조인(Join)은 두 릴레이션을 연결하는 관계 대수의 핵심 연산으로, 카티전 프로덕트(×)와 셀렉션(σ)의 조합이지만 — DBMS 내부적으로는 Nested Loop, Hash Join, Merge Join 세 가지 물리적 알고리즘 중 옵티마이저가 비용 기반으로 선택한다.

INNER JOIN은 두 릴레이션의 교집합(일치하는 행만), OUTER JOIN은 한쪽 또는 양쪽의 비매칭 행까지 포함하는 개념으로 — 데이터 손실 없는 JOIN을 요구하는 업무(주문 없는 고객 포함 조회 등)에서 OUTER JOIN의 선택이 결과 정확성을 결정한다.

다중 테이블 조인의 성능은 조인 순서(Join Order)와 인덱스 유무에 좌우되며 — 옵티마이저가 항상 최적이 아닐 수 있으므로 EXPLAIN/EXPLAIN ANALYZE로 실행 계획을 확인하고 인덱스 힌트나 조인 순서 힌트로 튜닝하는 것이 실무 DBA의 핵심 역량이다.

Ⅰ. 조인의 수학적 정의

자연 조인 (Natural Join, ⋈):
  R ⋈ S = π_{고유속성} (σ_{R.공통속성=S.공통속성} (R × S))
  
  과정:
  1. 카티전 프로덕트 (R × S): 모든 조합 생성
  2. 셀렉션: 공통 속성 값이 같은 튜플만 선택
  3. 프로젝션: 중복 공통 속성 제거

세타 조인 (θ-Join):
  R ⋈_θ S = σ_θ (R × S)
  θ: 임의의 비교 조건 (=, <, >, ≤, ≥, ≠)
  
  등가 조인 (Equi-Join): θ가 = 인 경우
  비등가 조인: θ가 = 이외

외부 조인 (Outer Join):
  R ⟗ S (Full Outer Join): 두 릴레이션 모든 튜플 포함
  R ⟕ S (Left Outer Join): R의 모든 튜플 보존
  R ⟖ S (Right Outer Join): S의 모든 튜플 보존
  
  비매칭 튜플: NULL로 패딩

세미 조인 (Semi-Join):
  R ⋉ S = π_R (R ⋈ S): R의 속성만 프로젝션
  분산 DB에서 데이터 전송량 최소화

📢 섹션 요약 비유: 조인은 두 명단 합치기 — 이름이 같은 사람을 연결(INNER), 한쪽 명단엔 없어도 다른 쪽 전체 포함(OUTER JOIN).

Ⅱ. SQL 조인 유형

SQL 조인 문법 및 의미:

INNER JOIN (기본):
  SELECT e.name, d.dept_name
  FROM employee e
  INNER JOIN department d ON e.dept_id = d.dept_id;
  → 양쪽 테이블 모두에 매칭되는 행만 반환

LEFT OUTER JOIN:
  SELECT c.name, o.order_date
  FROM customer c
  LEFT JOIN orders o ON c.id = o.customer_id;
  → 주문 없는 고객도 반환 (o.order_date = NULL)

RIGHT OUTER JOIN:
  → 오른쪽 테이블 모든 행 보존

FULL OUTER JOIN:
  → 양쪽 테이블 모든 행 (MySQL 미지원, UNION으로 대체)

CROSS JOIN:
  SELECT * FROM product CROSS JOIN color;
  → 카티전 프로덕트 (조건 없음)
  n × m 행 생성

SELF JOIN:
  SELECT e.name AS employee, m.name AS manager
  FROM employee e
  JOIN employee m ON e.manager_id = m.id;
  → 같은 테이블을 두 번 조인 (계층 구조 표현)

NATURAL JOIN (주의):
  공통 이름 속성 자동 조인 → 의도치 않은 조인 위험
  실무에서 명시적 ON 절 권장

📢 섹션 요약 비유: SQL 조인 유형은 파티 초대 방식 — INNER는 양쪽 다 아는 사람만, LEFT는 내 친구는 모두, RIGHT는 그쪽 친구는 모두, FULL은 둘 다 전부 초대.

Ⅲ. 물리적 조인 알고리즘

DBMS 조인 구현 알고리즘:

1. Nested Loop Join (중첩 루프 조인):
   FOR each r in R:
     FOR each s in S:
       IF r.key = s.key: output (r, s)
   
   복잡도: O(|R| × |S|) = O(n²)
   
   Index Nested Loop:
     FOR each r in R:
       s = INDEX_LOOKUP(S, r.key)  ← O(log n)
   
   복잡도: O(|R| × log|S|)
   적합: 한쪽 테이블 작거나 조인 키 인덱스 있을 때

2. Hash Join:
   Phase 1 (Build): 작은 테이블 R → 해시 테이블 구성
     hash_table[h(r.key)] = r
   Phase 2 (Probe): 큰 테이블 S → 해시 테이블 조회
     FOR each s in S: lookup hash_table[h(s.key)]
   
   복잡도: O(|R| + |S|) 평균
   적합: 대용량 테이블, 동등 조인, 정렬 불필요
   단점: 메모리 부족 시 디스크 스필 발생

3. Sort-Merge Join:
   Phase 1: R을 키 기준 정렬, S를 키 기준 정렬
   Phase 2: 두 정렬된 결과를 병렬 스캔으로 병합
   
   복잡도: O(|R|log|R| + |S|log|S|) (정렬 미리 되어 있으면 O(n))
   적합: 조인 키에 이미 인덱스/정렬, 범위 조인

옵티마이저 선택 기준:
  데이터 크기, 인덱스 유무, 메모리, CPU 비용
  EXPLAIN (MySQL/PostgreSQL)으로 확인

📢 섹션 요약 비유: 조인 알고리즘은 두 명단 비교 방법 — NL은 한명씩 체크(느리지만 간단), Hash는 색인카드 만들어 검색(빠름), Merge는 두 명단 미리 정렬 후 동시에 훑기.

Ⅳ. 조인 순서 최적화

조인 순서 (Join Order)의 중요성:

3개 테이블 조인:
  (A ⋈ B) ⋈ C   vs   A ⋈ (B ⋈ C)
  중간 결과 크기가 다를 수 있음
  → 중간 결과가 작을수록 빠름

동적 프로그래밍 기반 조인 순서 최적화:
  Selinger 알고리즘: 비용 추정 기반 DP
  테이블 n개: 최적 순서 탐색 = O(n! ) → DP로 O(2^n)

EXPLAIN 실행 계획 분석 (PostgreSQL):
  EXPLAIN ANALYZE
  SELECT * FROM orders o
  JOIN customers c ON o.customer_id = c.id
  JOIN products p ON o.product_id = p.id;
  
  출력:
  Hash Join (cost=... rows=...)
    -> Seq Scan on orders
    -> Hash
       -> Seq Scan on customers  ← 비용 높은 Full Scan 발견

튜닝 전략:
  인덱스 추가:
    CREATE INDEX idx_orders_customer ON orders(customer_id);
  → Nested Loop + Index Scan으로 변경

조인 힌트 (MySQL):
  SELECT * FROM A
  STRAIGHT_JOIN B ON A.id = B.a_id;
  → A를 항상 외부 테이블로 강제

통계 정보 갱신:
  ANALYZE TABLE (MySQL)
  ANALYZE (PostgreSQL)
  → 옵티마이저 통계 최신화 → 더 좋은 실행 계획

📢 섹션 요약 비유: 조인 순서 최적화는 장보기 순서 — 가장 작은 양의 재료부터 손에 들면 마지막에 많이 들 필요 없어요. 첫 조인에서 결과를 최대한 줄여야 효율적.

Ⅴ. 실무 시나리오 — 쿼리 성능 튜닝

이커머스 주문 분석 쿼리 튜닝:

초기 쿼리 (성능 문제):
  SELECT c.name, p.product_name, o.order_date, oi.quantity
  FROM customers c
  LEFT JOIN orders o ON c.id = o.customer_id
  LEFT JOIN order_items oi ON o.id = oi.order_id
  LEFT JOIN products p ON oi.product_id = p.id
  WHERE o.order_date >= '2026-01-01';
  
  실행 시간: 45초 (데이터: customer 100만, orders 500만)

EXPLAIN 분석:
  Seq Scan on customers (rows: 1,000,000) ← 문제!
  Hash Join (rows: 500,000)
  Seq Scan on orders → WHERE 적용 후 10만 행
  
  문제점:
    customers 전체 스캔 후 조인 → 90만 행이 NULL 결과
    WHERE 조건이 orders에 있는데 LEFT JOIN 사용 → 비효율

쿼리 리팩토링:
  -- LEFT → INNER JOIN 변경 (NULL 결과 불필요)
  SELECT c.name, p.product_name, o.order_date, oi.quantity
  FROM orders o  ← 작은 결과부터 시작 (기간 조건 적용)
  INNER JOIN customers c ON o.customer_id = c.id
  INNER JOIN order_items oi ON o.id = oi.order_id
  INNER JOIN products p ON oi.product_id = p.id
  WHERE o.order_date >= '2026-01-01';

인덱스 추가:
  CREATE INDEX idx_orders_date ON orders(order_date);
  CREATE INDEX idx_oi_order ON order_items(order_id);

결과:
  실행 시간: 45초 → 0.3초 (150배 향상)
  Index Scan on orders (date 조건 = 10만 행)
  → Nested Loop Join (소규모 결과에 최적)

📢 섹션 요약 비유: 조인 튜닝은 요리 재료 다듬기 순서 — 큰 야채를 먼저 썰어 작게 만들고(조건 필터 먼저), 작아진 재료끼리 볶으면(조인) 훨씬 빠르다.

📌 관련 개념 맵

관계 대수 조인
+-- 유형
|   +-- Natural Join (⋈)
|   +-- Theta Join (θ-Join)
|   +-- Outer Join (Left/Right/Full)
|   +-- Semi-Join, Self Join
+-- 물리 구현
|   +-- Nested Loop Join
|   +-- Hash Join
|   +-- Sort-Merge Join
+-- 최적화
|   +-- 조인 순서 (Join Order)
|   +-- EXPLAIN / EXPLAIN ANALYZE
|   +-- 인덱스 + 통계 정보

📈 관련 키워드 및 발전 흐름도

[관계 대수 이론 (1970, E.F. Codd)]
Join = Cartesian Product + Selection
      |
      v
[SQL 표준화 (1987, SQL-87)]
INNER JOIN, OUTER JOIN SQL 문법
      |
      v
[비용 기반 옵티마이저 (1979, Selinger)]
System R: 동적 프로그래밍 조인 순서 최적화
      |
      v
[Hash Join 도입 (1980s~)]
대용량 데이터 처리 Hash Join 채택
      |
      v
[분산 조인 (2000s~)]
Hadoop: MapReduce 분산 조인
Spark: Broadcast Hash Join, Sort-Merge Join
      |
      v
[현재: 인메모리 + GPU 가속]
SAP HANA, Redis: 메모리 내 조인
GPU 조인: cuDF (RAPIDS)

👶 어린이를 위한 3줄 비유 설명

조인은 두 반 명단 합치기 — 같은 학생 번호가 있는 줄끼리 연결해서 한 줄로 만들어요!
LEFT JOIN은 "내 반 친구는 모두 포함" — 상대방 반에 없어도 빈칸(NULL)으로라도 포함시켜요.
Hash Join은 가장 빠른 방법 — 작은 명단으로 색인을 만들고, 큰 명단을 색인에서 검색하면 훨씬 빠르게 찾아요!