텍스트 마이닝 & 자연어 처리 (NLP)

별점: ★★★★☆ | ★135회 연계

답안.

Ⅰ. 개요

형태소 분석: 단어를 최소 의미 단위로 분리 예) "나는학교에간다" → 나/는/학교/에/가/ㄴ다 개체명 인식 (NER): 텍스트에서 이름·날짜·기관 추출

Ⅱ. 핵심 구성요소

[핵심 NLP 태스크]
형태소 분석: 단어를 최소 의미 단위로 분리
  예) "나는학교에간다" → 나/는/학교/에/가/ㄴ다

개체명 인식 (NER): 텍스트에서 이름·날짜·기관 추출
  예) "[삼성전자]는 [2024년]에 실적을 발표했다"

감성 분석: 텍스트의 긍정/부정/중립 분류
  소셜 미디어, 리뷰 분석

텍스트 분류: 카테고리 분류
  예) 뉴스 주제 분류, 스팸 필터

기계 번역: 한국어 → 영어
  Seq2Seq, Transformer 기반

요약 (Summarization):
  추출적: 중요 문장 선택
  추상적: 새 문장 생성 (LLM)

[전통 NLP vs LLM]
전통: TF-IDF, Word2Vec, BERT 파인튜닝
LLM: GPT-4, Claude, HyperCLOVA X
     → 프롬프트만으로 모든 NLP 태스크 수행

TF-IDF:
  TF(단어 빈도) × IDF(문서 역빈도)
  키워드 추출, 문서 유사도


해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.

### Ⅲ. 특징 및 비교

핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.

### Ⅳ. 적용 사례

실무 환경에서의 적용 사례와 기대효과를 제시한다.

### Ⅴ. 전망

최신 기술 동향과 향후 발전 방향을 서술한다.