042. 프로젝트 연산 (Project) — 관계 대수 열 추출

핵심 인사이트

관계 대수의 프로젝트(Project) 연산(π)은 릴레이션에서 지정한 속성(열)만 추출하여 수직적 부분집합을 만드는 단항 연산으로, SQL의 SELECT 절(컬럼 목록 지정)에 직접 대응된다.

프로젝트 연산은 결과에서 중복 튜플을 자동으로 제거(집합 기반)하여, "SELECT DISTINCT"와 동등하며, 이는 관계 대수가 집합 이론을 기반으로 중복을 허용하지 않기 때문이다.

실렉트(σ, 행 선택)와 프로젝트(π, 열 선택)는 관계 대수의 가장 기본적인 두 연산으로, 이 두 연산의 조합으로 임의의 릴레이션의 특정 행과 열을 추출하는 쿼리를 표현할 수 있다.

Ⅰ. 프로젝트 연산 정의

프로젝트 연산 (Project, π):

표기: π_{속성1, 속성2, ...}(릴레이션)

의미:
  릴레이션에서 지정한 속성(열)만 추출
  수직적 부분집합 생성
  중복 튜플 자동 제거

예시 릴레이션 Employee:
  EmpID | Name    | Dept   | Salary
  ------|---------|--------|-------
  E001  | 김철수  | 개발   | 5000
  E002  | 이영희  | 마케팅 | 4500
  E003  | 박민준  | 개발   | 5500
  E004  | 최수진  | 개발   | 5000

π_{Dept}(Employee):
  Dept
  ------
  개발
  마케팅
  (중복 "개발" 1번만 표시)

π_{Name, Salary}(Employee):
  Name    | Salary
  --------|-------
  김철수  | 5000
  이영희  | 4500
  박민준  | 5500
  최수진  | 5000

📢 섹션 요약 비유: 프로젝트 연산은 학교 명단에서 특정 열만 보기 — 원하는 컬럼만 추출하고, 완전히 같은 행은 하나로 합친다.

Ⅱ. 프로젝트 vs 실렉트

실렉트 (Select, σ) vs 프로젝트 (Project, π):

실렉트 (σ):
  조건에 맞는 튜플(행) 선택
  수평적 부분집합
  결과 속성 수 = 원본과 동일
  
  σ_{Salary > 4800}(Employee):
    EmpID | Name   | Dept | Salary
    ------+--------+------+-------
    E001  | 김철수 | 개발 | 5000
    E003  | 박민준 | 개발 | 5500
    E004  | 최수진 | 개발 | 5000

프로젝트 (π):
  지정한 속성(열) 추출
  수직적 부분집합
  중복 자동 제거

조합:
  π_{Name, Salary}(σ_{Dept='개발'}(Employee))
  = 개발 부서의 이름과 급여

SQL 대응:
  σ = WHERE 절
  π = SELECT 컬럼 목록
  
  SELECT Name, Salary
  FROM Employee
  WHERE Dept = '개발'

📢 섹션 요약 비유: 실렉트는 행(가로줄) 필터, 프로젝트는 열(세로줄) 필터 — SQL WHERE(행)와 SELECT 컬럼 목록(열)이 각각 대응.

Ⅲ. 중복 제거와 집합 의미

프로젝트의 중복 제거:

집합 기반 관계 대수:
  관계 = 집합 (중복 없음)
  프로젝트 결과 = 집합
  → 중복 튜플 자동 제거

SQL과의 차이:
  SQL 기본: 중복 허용 (multiset/bag)
  
  SELECT Name, Dept FROM Employee
  → 중복 포함 반환 가능
  
  SELECT DISTINCT Name, Dept FROM Employee
  → 중복 제거 (관계 대수 π와 동등)

중복 제거 비용:
  대용량 테이블에서 DISTINCT 비용 큼
  정렬(Sort) 또는 해시(Hash) 기반 처리
  인덱스 활용 시 비용 감소

📢 섹션 요약 비유: 프로젝트 중복 제거는 반 명단 정리 — "개발부"가 여러 명이어도 부서 이름 목록에는 "개발"이 한 번만 나온다.

Ⅳ. 관계 대수 연산 조합

관계 대수 6대 기본 연산:
  σ: 실렉트 (행 선택)
  π: 프로젝트 (열 선택)
  ρ: 리네임 (이름 변경)
  ∪: 합집합 (UNION)
  -: 차집합 (EXCEPT)
  ×: 카티전 곱 (CROSS JOIN)

파생 연산:
  ⋈: 자연 조인 (= σ + ×)
  ∩: 교집합 (= R - (R-S))
  ÷: 나누기 (모든 S 포함 R 튜플)

복합 쿼리 예시:

"개발팀에서 급여 5000 이상인 직원 이름":
  π_{Name}(σ_{Dept=개발 AND Salary >= 5000}(Employee))

SQL 대응:
  SELECT Name
  FROM Employee
  WHERE Dept = '개발' AND Salary >= 5000

관계 대수의 의의:
  SQL 쿼리 최적화기(Query Optimizer)의 이론적 기반
  논리 쿼리 계획 = 관계 대수 식
  물리 계획 = 관계 대수 식의 실행 전략

📢 섹션 요약 비유: 관계 대수는 요리 레시피 언어 — 재료(릴레이션)를 자르고(σ), 특정 부분만 담고(π), 섞는(⋈) 조리 과정을 수식으로 표현.

Ⅴ. 실무 시나리오 — 쿼리 최적화

프로젝트+실렉트 최적화 실무:

비효율적 쿼리 (프로젝트 나중 적용):
  π_{Name}(σ_{Dept='개발'}(Employee × Department))
  
  처리 순서:
  1. Employee × Department (카티전 곱, 대용량)
  2. σ_{Dept='개발'} 필터 (대부분 제거)
  3. π_{Name} (이름만 추출)
  
  비용: 카티전 곱이 대용량 중간 결과 생성

효율적 쿼리 (선택 먼저, 프로젝트 최대화):
  π_{Name}(σ_{Dept='개발'}(Employee))
  
  처리 순서:
  1. σ_{Dept='개발'} 먼저 (행 수 대폭 감소)
  2. π_{Name} 적용 (열 수 감소)

관계 대수 최적화 규칙:
  1. 선택(σ)을 가능한 한 일찍 적용
  2. 프로젝트(π)를 일찍 적용 (불필요 열 제거)
  3. 조인 전 최대한 크기 줄이기

RDBMS 옵티마이저 동작:
  논리 계획 (관계 대수 식) → 변환 규칙 적용
  물리 계획 선택 (인덱스, 조인 알고리즘)
  비용 기반 최적화 (통계 기반 최소 비용)

📢 섹션 요약 비유: 쿼리 최적화는 쇼핑 전략 — 필요한 물건 목록(π)과 조건(σ)을 정하고 찾아야지, 마트 전체(×) 돌고 나서 버리면 비효율.

📌 관련 개념 맵

프로젝트 연산 (π)
+-- 정의
|   +-- 속성(열) 선택, 수직 부분집합
|   +-- 중복 자동 제거 (집합 기반)
+-- 비교
|   +-- σ (실렉트, 행 선택) vs π (열 선택)
|   +-- SQL SELECT DISTINCT = π
+-- 관계 대수 연산체계
|   +-- 6대 기본 연산
|   +-- 파생 연산 (조인, 교집합, 나누기)
+-- 실무 활용
    +-- 쿼리 최적화 (선택 먼저 원칙)
    +-- RDBMS 옵티마이저 이론적 기반

📈 관련 키워드 및 발전 흐름도

[관계 대수 이론 (E.F. Codd, 1970)]
관계형 데이터 모델 수학적 기반 제시
σ, π, ×, ∪ 기본 연산 정의
      |
      v
[SQL 표준화 (SQL-86~SQL:2023)]
관계 대수 → SQL 선언적 언어로 구현
WHERE(σ), SELECT column(π)
      |
      v
[쿼리 최적화기 발전 (1980s~)]
System R (IBM): 비용 기반 최적화 최초
관계 대수 변환 규칙 적용
      |
      v
[현재: 분산 쿼리 최적화]
Spark Catalyst, Flink, ClickHouse
관계 대수 기반 분산 최적화

👶 어린이를 위한 3줄 비유 설명

프로젝트 연산은 학교 성적표에서 "이름과 수학 점수만" 뽑는 것 — 원하는 열(컬럼)만 선택해서 새 표를 만들어요!
완전히 똑같은 행이 여러 개 나오면 하나만 남겨요 (중복 제거) — 부서 목록을 뽑으면 "개발부"가 10명이어도 한 번만 나와요.
실렉트(σ)는 조건에 맞는 행 선택, 프로젝트(π)는 원하는 열 선택 — SQL의 WHERE와 SELECT 컬럼목록이 각각에 해당해요!