TF-IDF 및 코사인 유사도 (TF-IDF & Cosine Similarity)

핵심 인사이트 (3줄 요약)

TF-IDF는 단어의 빈도(TF)와 역문서 빈도(IDF)를 결합하여 특정 문서 내에서 단어의 상대적 중요도를 가중치로 산출하는 기법이다.
코사인 유사도는 벡터화된 문서 간의 각도를 측정하여 단어 빈도의 크기가 아닌 '방향성'을 기준으로 유사성을 평가한다.
자연어 처리(NLP) 및 정보 검색 시스템에서 핵심 키워드 추출과 유사 문서 매칭의 수학적 기반이 된다.

Ⅰ. 개요 (Context & Background)

배경: 비정형 텍스트 데이터를 기계가 처리 가능한 수치형 벡터로 변환(Vectorization)해야 하며, 단순 빈도수(Count) 기반의 한계를 극복하기 위해 등장했다.
필요성: '은, 는, 이, 가'와 같은 불용어(Stopwords)는 빈도는 높지만 정보 가치는 낮으므로, 희소한 핵심 단어에 더 높은 가중치를 부여하는 메커니즘이 필요하다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

TF-IDF 수식: $TF-IDF(t, d, D) = TF(t, d) \times IDF(t, D)$
- $TF(t, d)$: 문서 $d$ 내 단어 $t$의 빈도
- $IDF(t, D) = \log(\frac{N}{1 + df(t)})$: 전체 문서 수 $N$을 단어 $t$가 포함된 문서 수 $df(t)$로 나눈 값의 로그 (희소성 가중치)

[TF-IDF & Cosine Similarity Architecture]

+------------------+       +-------------------+       +--------------------+
|  Raw Documents   |  ==>  | Term Frequency    |  ==>  | Inverse Document   |
|  (비정형 문서군)  |       | (단어 빈도 계산)   |       | Frequency (IDF)    |
+------------------+       +-------------------+       +--------------------+
                                     ||                         ||
                                     \/                         \/
                           +--------------------------------------------+
                           |       TF-IDF Vector Space (Vectorization)  |
                           |       (가중치 기반 벡터 공간 생성)          |
                           +--------------------------------------------+
                                             ||
                                             \/
                           +--------------------------------------------+
                           |       Cosine Similarity Calculation        |
                           |       (Angle between Vectors, A·B/|A||B|)  |
                           +--------------------------------------------+
                                             ||
                                             \/
                           +--------------------------------------------+
                           |       Similarity Score (0.0 ~ 1.0)         |
                           |       (문서 간 유사도 결과 도출)            |
                           +--------------------------------------------+

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목	단순 빈도(Count Vector)	TF-IDF Vector
핵심 개념	단어가 나타난 횟수 그대로 측정	빈도와 희소성을 동시에 고려
가중치 부여	모든 단어 동일 취급	흔한 단어는 낮게, 희귀 단어는 높게
노이즈 처리	불용어(the, a 등) 영향 큼	불용어 가중치가 자동 하락함
적용 사례	단순 키워드 카운팅	검색 엔진, 추천 시스템, 텍스트 분류

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

실무 적용: 검색 엔진의 랭킹 알고리즘, 뉴스 기사 추천, 유사 문서 판별(표절 검사) 등에 폭넓게 활용된다.
기술사적 판단: 단순 TF-IDF는 문맥(Context)을 이해하지 못하는 Bag-of-Words 기반이므로, 최신 실무에서는 BERT 등 LLM의 Embedding 벡터와 하이브리드로 구성하여 의미적 유사성(Semantic Similarity)을 보완하는 것이 권장된다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

기대효과: 방대한 텍스트 데이터에서 핵심 정보를 빠르게 수치화하여 정형 데이터와 결합된 고급 분석이 가능해진다.
결론: TF-IDF와 코사인 유사도는 현대 검색 기술의 기초이며, 벡터 데이터베이스와 연계된 차세대 검색 증강 생성(RAG) 아키텍처에서도 여전히 중요한 비교 기준(Baseline)으로 기능한다.

📌 관련 개념 맵 (Knowledge Graph)

Bag-of-Words (BoW): 단어의 순서를 무시하고 빈도만 고려하는 통계적 모델
Euclidean Distance: 벡터 간의 직선 거리를 측정 (단어 빈도 크기에 민감)
Word Embedding: 단어를 고차원 밀집 벡터로 변환 (Word2Vec, FastText)

👶 어린이를 위한 3줄 비유 설명

TF-IDF: 동화책에서 '공주'라는 말은 흔하지만 '마법지팡이'라는 말이 한 번 나오면 그 책은 '마법지팡이'에 대한 중요한 책이라고 생각하는 거예요.
코사인 유사도: 두 친구의 키가 달라도, 둘 다 '초콜릿'과 '사탕'을 좋아하는 마음의 방향이 비슷하면 친한 친구라고 판단하는 것과 같아요.
결론: 글의 겉모양보다 글 속에 담긴 특별한 보석 같은 단어들이 얼마나 비슷한지 찾아내는 방법이에요.