358. TF-IDF (Term Frequency - Inverse Document Frequency)

핵심 인사이트 (3줄 요약)

본질: TF-IDF는 컴퓨터가 수만 개의 텍스트 문서(뉴스, 블로그 등)를 읽을 때, "어떤 단어가 이 문서를 가장 잘 요약하는 핵심 키워드인가?"를 수학적으로 점수를 매겨 찾아내는 텍스트 마이닝의 고전적 알고리즘이다.

가치: 단순히 단어가 많이 나왔다고(TF) 중요하다고 판단하면 '그리고', '그러나' 같은 쓰레기 단어가 1등이 되므로, 모든 문서에 흔하게 등장하는 단어에는 엄청난 페널티(IDF)를 주어 특정 문서에만 유독 튀어나오는 진짜 알짜배기 단어를 완벽하게 골라낸다.

판단 포인트: 빠르고 가벼워 검색 엔진의 색인(Indexing)과 키워드 추출에 여전히 필수적이지만, 단어의 문맥(Context)이나 순서를 전혀 이해하지 못하고 글자를 단순한 숫자로만 맵핑하므로 문맥 분석이 필요할 때는 Word2Vec이나 LLM 임베딩으로 넘어가야 한다.

Ⅰ. 개요 및 필요성

구글 검색창에 "인공지능 로봇"이라고 검색하면, 구글은 어떻게 수십억 개의 웹페이지 중 인공지능 로봇에 가장 특화된 페이지를 찾아낼까? 컴퓨터는 글자를 읽지 못하므로, 글자를 '숫자(가중치 점수)'로 바꿔야 한다.

가장 무식한 방법은 단어가 문서에 등장한 횟수(TF: Term Frequency)를 세는 것이다. 하지만 이렇게 하면 모든 기사에서 가장 점수가 높은 단어는 '이것', '그것', '한다' 같은 조사와 접속사가 되어버린다. 그래서 "이 문서에는 많이 나오지만, 남의 문서에는 거의 안 나오는 단어"야말로 이 문서의 진짜 정체성이라는 철학을 담아, 흔한 단어에 벌점을 주는(IDF: Inverse Document Frequency) 완벽한 채점 방식이 탄생했다. 이것이 TF-IDF다.

📢 섹션 요약 비유: 어떤 반에서 '피자'를 좋아하는 학생은 많지만, 전교생 대부분이 피자를 좋아한다면 그 반의 특징은 '피자'가 아니다. 그런데 그 반 학생들만 유독 '홍어 무침'을 좋아하고 다른 반은 아무도 안 먹는다면, 그 반의 진짜 핵심 정체성은 '홍어 무침'이 되는 논리다.

Ⅱ. 아키텍처 및 핵심 원리

TF-IDF는 이름 그대로 TF 값과 IDF 값을 곱해서 최종 점수를 산출하는 두 단계의 수학 파이프라인이다.

┌────────────────────────────────────────────────────────┐
│             [ TF-IDF의 수학적 가중치 산출 매커니즘 ]         │
├────────────────────────────────────────────────────────┤
│ 1. TF (Term Frequency, 단어 빈도)                        │
│    - "이 특정 문서 안에서 단어 A가 몇 번 나왔는가?"           │
│    - 문서 내에 단어 A가 많을수록 점수 상승 (비례)             │
│                                                        │
│ 2. DF (Document Frequency, 문서 빈도)                    │
│    - "전체 100개의 문서 중 단어 A가 들어있는 문서가 몇 개인가?" │
│    - 모든 문서에 다 들어있으면(예: '그리고'), 희소성이 0!      │
│                                                        │
│ 3. IDF (Inverse DF, 역문서 빈도) ◀ [핵심 페널티!]            │
│    - IDF = log(전체 문서 수 / 단어 A가 들어간 문서 수)        │
│    - 흔한 단어일수록 로그 값에 의해 페널티를 받아 0에 수렴함    │
│                                                        │
│ 4. 최종 결과: TF-IDF 점수 = TF × IDF                      │
└────────────────────────────────────────────────────────┘

로그(Log)의 사용: 전 세계 웹페이지는 수십억 개다. 분자가 수십억이 되면 IDF 값이 너무 폭발적으로 커져서 모델이 붕괴한다. 로그($\log$)를 씌우면 아무리 큰 숫자도 10, 20 수준의 귀여운 숫자로 압축되므로 안전한 스케일링이 가능하다.
희소 행렬 (Sparse Matrix): 1만 개의 문서를 10만 개의 단어 사전으로 TF-IDF 변환하면, 행렬의 크기는 1만 $\times$ 10만 개가 된다. 당연히 문서 1개에 10만 개의 단어가 다 들어있지 않으므로 행렬의 99%는 0으로 채워진다(희소성).

📢 섹션 요약 비유: TF는 "내가 이 옷을 얼마나 자주 입는가(애정도)"이고, IDF는 "이 옷을 길거리의 다른 사람들도 다 입고 다니는가(희귀성)"다. 내가 매일 입으면서 남들은 절대 안 입는 옷이어야만 나의 진정한 패션 아이덴티티(TF-IDF 최고점)가 된다.

Ⅲ. 비교 및 연결

자연어를 컴퓨터가 이해할 수 있는 숫자로 바꾸는 3세대 임베딩(Embedding) 기술을 비교해 본다.

비교 항목	Bag of Words (단순 카운트)	TF-IDF	Word2Vec / FastText
가중치 부여	단순히 등장 횟수만 카운트	흔한 단어에 페널티를 줌	주변 단어를 통해 문맥적 의미 학습
단어 간 의미 관계	전혀 모름 (사과와 바나나는 남남)	전혀 모름 (여전히 글자 횟수일 뿐)	의미가 비슷하면 벡터 거리가 가까움
행렬의 크기	매우 큼 (단어 사전 크기만큼)	매우 큼 (희소 행렬, Sparse)	작음 (예: 300차원으로 압축, Dense)
연산 속도	1초 컷	1초 컷 (매우 빠름)	학습에 몇 시간~며칠 소요

TF-IDF는 글자들의 '문맥(Context)'을 전혀 이해하지 못한다. "사과를 먹는다"와 "나는 사과한다"의 '사과'를 똑같은 단어로 취급한다. 이 치명적인 약점 때문에 최근의 의미 기반 검색(Semantic Search)에서는 LLM 기반의 텍스트 임베딩 모델(OpenAI Embeddings 등)로 주도권이 넘어갔다.

📢 섹션 요약 비유: TF-IDF는 책에 등장하는 단어를 형광펜으로 칠해서 몇 번 나왔는지 세는 꼼꼼한 유치원생이고, Word2Vec은 그 단어가 앞뒤 문장에서 어떤 의미로 쓰였는지 행간의 의미까지 파악하는 똑똑한 대학생이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 구글 검색 엔진의 클래식 버전이나, 온라인 쇼핑몰의 '비슷한 상품 추천'에 널리 쓰인다. 수십만 개의 뉴스 기사에 TF-IDF를 돌려 각 기사마다 가장 점수가 높은 상위 5개 단어를 뽑는다. 이 5개 단어가 그 기사의 '핵심 해시태그(Tag)'가 되며, 사용자가 검색창에 키워드를 칠 때 즉시 매칭되는 색인(Index) 역할을 한다.

기술사 판단 포인트 (Trade-off): TF-IDF 아키텍처를 현업에 도입할 때 기술사는 **'토큰화(Tokenization) 품질'과 '차원의 저주'**를 방어해야 한다.

한국어는 조사("은/는/이/가")가 붙어 있어 띄어쓰기만으로 단어를 자르면 TF-IDF가 망가진다. "사과가", "사과를"이 다 다른 단어가 되기 때문이다. 반드시 **형태소 분석기(Mecab, KoNLPy)**를 파이프라인 앞단에 붙여서 순수한 명사("사과")만 뼈대로 발라내는 전처리가 필수다.
단어 사전이 10만 개면 데이터 컬럼이 10만 개가 된다(차원의 저주). 메모리가 폭발하므로, min_df 파라미터를 조절해 전체 문서에서 3번 이하로 나온 너무 희귀한 오타 같은 단어는 버리고, max_df로 90% 이상 문서에 나온 흔한 단어는 미리 쳐내는 어휘 사전 최적화(Vocabulary Pruning) 결단이 필요하다.

📢 섹션 요약 비유: TF-IDF라는 훌륭한 저울이 있어도, 저울에 올리기 전에 모래(조사)와 돌멩이(오타)를 씻어내고 진짜 황금(명사)만 골라내는 체에 거르는 작업(형태소 분석)이 없으면 저울의 숫자는 아무 쓸모가 없다.

Ⅴ. 기대효과 및 결론

TF-IDF는 단순한 사칙연산과 로그($\log$) 하나만으로 텍스트 데이터의 옥석을 완벽하게 가려낸 자연어 처리(NLP) 초창기의 위대한 금자탑이다. 복잡한 딥러닝 훈련 과정 없이도 순식간에 수백만 개의 문서를 정량적으로 요약해 내는 가성비는 오늘날에도 텍스트 마이닝의 첫 번째 파이프라인으로 굳건히 자리 잡고 있다.

결론적으로 RAG(검색 증강 생성) 아키텍처가 유행하는 현대에도 TF-IDF의 철학은 여전히 살아 숨 쉰다. 최신 RAG 엔진들은 의미 검색(Vector Search)의 부정확함을 보완하기 위해, 정확한 키워드 매칭에 특화된 BM25(TF-IDF의 진화형) 알고리즘을 섞어 쓰는 **하이브리드 검색(Hybrid Search)**을 절대 표준으로 삼고 있다. 기술사는 가장 단순한 단어 빈도의 수학이 어떻게 인간의 언어를 지배했는지를 명확히 이해해야 한다.

📢 섹션 요약 비유: 최첨단 드론(LLM)으로 숲 전체의 모양을 파악할 수도 있지만, 땅바닥에 떨어진 잃어버린 열쇠(정확한 키워드)를 찾을 때는 여전히 TF-IDF라는 고전적인 금속 탐지기가 가장 빠르고 정확한 법이다.

📌 관련 개념 맵

상위 개념: 텍스트 마이닝 (Text Mining), 자연어 처리 (NLP)
하위 개념: TF (단어 빈도), IDF (역문서 빈도), Stopwords (불용어)
연결 개념: 형태소 분석기 (KoNLPy), 코사인 유사도, BM25, RAG 하이브리드 검색

👶 어린이를 위한 3줄 비유 설명

반 친구들이 쓴 일기장 30개를 모아서, 각자 어떤 성격인지 맞춰볼 거예요.
'그리고', '나는' 같은 단어는 30명 일기장에 다 있으니까 쓰레기통에 버려요! (IDF 페널티)
하지만 철수 일기장에만 '로봇'이라는 단어가 10번이나 쓰여 있다면? 컴퓨터는 "아하! 철수의 핵심 성격은 로봇이구나!"라고 1초 만에 척척 찾아낸답니다!