7. 지식 표현 (Knowledge Representation)

핵심 인사이트 (3줄 요약)

본질: 암묵적인 인간의 지식을 컴퓨터가 연산하고 추론할 수 있도록 논리적, 구조적, 절차적으로 모델링하는 기법이다.

가치: 단순한 데이터 저장을 넘어 데이터 간의 의미적 관계(Semantic Relationship)를 부여함으로써, AI가 새로운 결론을 도출하는 지능의 근간을 형성한다.

융합: 전통적인 기호주의(Symbolic AI)의 산물이지만, 현대에는 지식 그래프(Knowledge Graph)와 LLM의 RAG 파이프라인이 융합되어 환각(Hallucination)을 제어하는 핵심 메타데이터로 작용한다.

Ⅰ. 개요 및 필요성 (Context & Necessity)

지식 표현 (Knowledge Representation, KR)은 인공지능이 세계를 이해하고 문제를 해결하기 위해 필수적인 구조적 매핑 작업이다. 단순한 데이터(Data)나 정보(Information)의 나열과 달리, 지식(Knowledge)은 요소 간의 인과관계, 범주, 규칙을 포함해야 한다. 초기 AI 연구자들은 "어떻게 하면 기계가 인간처럼 논리적 추론을 할 수 있을까"라는 문제의식에서 출발하여, 지식을 기호(Symbol)와 그 기호들 간의 연산 규칙으로 정의하는 기호주의(Symbolic AI)의 틀을 확립했다.

이러한 지식 표현이 실무 시스템에서 필요한 이유는 명확하다. 단순히 패턴을 외우는 딥러닝(Connectionism)만으로는 "왜 그런 결론이 나왔는지" 설명할 수 없는 블랙박스 현상이 발생하기 때문이다. 반면, 지식 표현은 명시적인 룰과 네트워크를 기반으로 하므로 완벽한 설명 가능성(Explainability)을 제공한다. 현재의 비즈니스 요구는 딥러닝의 예측력에 지식 표현의 논리력을 결합한 뉴로-심볼릭 AI(Neuro-Symbolic AI) 아키텍처로 진화하고 있다.

이 구조도는 데이터가 지식으로 변환되는 DIKW 피라미드와, 지식 표현이 추론 엔진과 결합하는 기본 흐름을 보여준다.

[World / Environment]
         │ (관찰/센서)
         ▼
    [Data] ───> [Information] ───> [Knowledge Base (KB)]
  (Raw 팩트)    (가공된 의미)        (관계/규칙이 부여된 망)
                                           │
                                           │ (지식 표현 기법 적용)
                                           ▼
                                [Inference Engine (추론 엔진)] ──> [Action/Decision]

이 도식의 핵심은 지식 베이스(KB)가 추론 엔진에 입력되기 위해서는 기계가 읽을 수 있는(Machine-Readable) 특수한 문법(지식 표현 기법)으로 변환되어야 한다는 점이다. 이런 배치는 단순히 RDB에 값을 넣는 것과는 차원이 다르며, 따라서 시스템 아키텍트는 도메인의 특성에 맞춰 규칙(Rule), 프레임(Frame), 의미망(Semantic Net) 중 가장 효율적인 검색/추론 연산이 가능한 표현 구조를 선택해야 한다. 실무에서는 이 변환 과정에서의 정보 손실을 막는 것이 가장 큰 병목이다.

📢 섹션 요약 비유: 도서관에 책을 마구잡이로 쌓아두는 것이 단순 데이터라면, 지식 표현은 십진분류법을 넘어 '이 책을 읽은 사람은 저 책도 읽어야 한다'는 끈을 모든 책 사이에 매달아 두는 고도화된 색인 작업과 같습니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

지식 표현은 도메인의 복잡도와 요구되는 추론 방식에 따라 크게 4가지 핵심 모델로 나뉜다.

지식 표현 방식	역할 및 특징	내부 동작 / 자료 구조	적용 프로토콜/언어	비유
규칙 기반 (Rule-based)	조건-행동(If-Then) 매핑	전제 조건이 만족되면 결론 활성화 (전향/후향 추론)	PROLOG, Drools	신호등(빨간불이면 멈춰라)
의미망 (Semantic Network)	개념 간의 관계 시각화	노드(개념)와 방향성 간선(관계: is-a, has-a)으로 구성된 그래프	RDF, OWL	마인드맵
프레임 (Frame)	객체의 속성과 기본값 정의	슬롯(Slot)과 패싯(Facet) 구조로 객체의 속성, 제약조건 은닉	JSON-LD, 객체 지향 클래스	주민등록증 양식
스크립트 (Script)	시간적/절차적 상황 묘사	특정 사건의 진행 순서(시퀀스)를 슬롯에 시간 순으로 정의	자연어 처리 이벤트 모델	영화 시나리오 대본

가장 현대적으로 활용되는 **의미망 (Semantic Network) 기반 온톨로지(Ontology)**의 내부 동작 메커니즘은 다음과 같다.

① 노드 정의 (Entity 정의): 현실 세계의 객체(예: '사람', '자동차', '아우디')를 식별자로 노드화한다. ② 관계 매핑 (Relation 연결): 객체 간의 종속/소유 관계를 트리플(Triple: 주어-서술어-목적어) 형태로 연결한다. (예: 아우디 --is a--> 자동차) ③ 제약조건 할당: 특정 속성에 허용되는 값의 타입과 범위를 부여한다. ④ 추론 전파 (Propagation): 부모 노드의 속성이 자식 노드로 상속(Inheritance)되어, 명시되지 않은 새로운 사실을 도출한다. ⑤ 그래프 쿼리 (SPARQL): 완성된 의미망을 순회하며 다중 홉(Multi-hop) 논리 질의에 응답한다.

이 도식은 '의미망(Semantic Network)'의 전형적인 방향성 그래프 구조와 상속 메커니즘을 시각화한 것이다.

           [동물 (Animal)]
             ▲        ▲
     is-a  /            \ is-a
         /                \
 [조류 (Bird)]         [포유류 (Mammal)] ---has-a---> [다리 4개]
     ▲                      ▲
     │ is-a                 │ is-a
 [펭귄 (Penguin)]        [개 (Dog)]
     │                      │
     └--can-do--> [수영]    └--instance-of--> [바둑이]

이 그림의 핵심은 노드 간의 is-a(상하위 개념)와 has-a(속성) 관계를 통해 명시적 선언 없이도 새로운 지식을 자동 추론할 수 있다는 점이다. 이 도식에서 '개'는 명시적으로 다리가 4개라고 적혀 있지 않지만, '포유류'의 속성을 상속받아 자동으로 다리가 4개임이 추론(Inference)된다. 따라서 메모리를 절약하면서도 지식을 무한 확장할 수 있다. 실무에서는 노드의 깊이가 깊어질수록 상속 충돌(Multiple Inheritance)이나 순환 참조(Circular Reference)로 인한 무한 루프 병목이 발생하므로 이를 회피할 DAG(Directed Acyclic Graph) 설계가 필수적이다.

📢 섹션 요약 비유: 규칙 기반이 요리 레시피의 '순서도'라면, 의미망은 요리 재료들이 서로 어떻게 어울리는지 그려놓은 '맛의 지도'와 같습니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

지식 표현의 모델들은 독립적으로 존재하기보다, 현대 시스템에서 서로 보완적으로 사용된다.

항목	규칙 기반 (Rule-based)	의미망 (Semantic Network)	프레임 (Frame)
지식의 형태	절차적, 인과적 지식	선언적, 관계적 지식	구조적, 범주적 지식
추론 방식	Modus Ponens (연역적 조건부 추론)	속성 상속 (Inheritance) 및 패턴 매칭	슬롯 값 채우기 (Default 값 매칭)
장점	인간의 직관과 일치, 코딩/유지보수 용이	유연한 확장성, 지식 간의 강력한 시각화	객체 지향적 캡슐화, 복잡한 데이터 표현
단점 (병목)	규칙이 많아질수록 룰 충돌 및 유지보수 악몽	검색 공간(Search Space) 방대 시 검색 지연	예외 상황이나 시간적 변화 표현 한계
타 영역 융합	보안 방화벽 정책, 이상 탐지 룰 엔진	지식 그래프(Knowledge Graph), RAG 아키텍처	RDB 스키마 모델링, OOP 클래스 설계

최근 딥러닝과 기호주의 AI의 융합 관점에서 보면, 임베딩(Embedding) 벡터와 지식 표현의 융합이 가장 큰 화두다.

이 매트릭스는 순수 딥러닝(연결주의)의 블랙박스 한계를 극복하기 위해 지식 표현(기호주의)이 어떻게 결합하는지 비교 대조한다.

┌────────────┬────────────────────────┬────────────────────────┬───────────────┐
│ AI 패러다임│ 지식의 저장 형태       │ 추론 및 연산 방식      │ 해석 가능성   │
├────────────┼────────────────────────┼────────────────────────┼───────────────┤
│ 연결주의   │ 고차원 연속 밀집 벡터  │ 역전파, 행렬 곱 기반   │ 극도로 낮음   │
│ (딥러닝)   │ (Distributed Rep.)     │ 확률적 통계 생성       │ (블랙박스)    │
├────────────┼────────────────────────┼────────────────────────┼───────────────┤
│ 기호주의   │ 이산적 노드와 엣지     │ 규칙 매칭 및 속성 상속 │ 완벽히 투명함 │
│ (지식 표현)│ (Symbolic Graph)       │ 확정적 논리 도출       │ (화이트박스)  │
├────────────┼────────────────────────┼────────────────────────┼───────────────┤
│ 융합 모델  │ 그래프 신경망 (GNN) +  │ 벡터 유사도 검색 +     │ 높음 (근거    │
│ (GraphRAG) │ 지식 그래프 메타데이터 │ 논리적 검증 (교차확인) │ 출처 제시)    │
└────────────┴────────────────────────┴────────────────────────┴───────────────┘

이 융합 모델 비교표의 핵심은 지식 표현이 딥러닝의 가장 큰 약점인 '환각(Hallucination)'을 방어하는 논리적 방패로 작동한다는 점이다. A 방식(순수 딥러닝)은 유창하지만 거짓말을 지어낼 확률이 높고, B 방식(순수 지식 표현)은 정확하지만 유연한 자연어 변환이 어렵다. 따라서 실무에서는 LLM이 생성한 답변을 지식 그래프(의미망) 노드를 거쳐 팩트 체크하는 파이프라인을 구축함으로써 안정성과 유연성이라는 트레이드오프를 동시에 해결한다.

📢 섹션 요약 비유: 딥러닝이 뛰어난 직관력을 가진 예술가라면, 지식 표현은 그 예술가가 법과 규칙을 어기지 않도록 가이드라인을 그어주는 엄격한 큐레이터와 같습니다.

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

실무에서 지식 표현 기법을 도입할 때 가장 큰 장벽은 **'지식 획득의 병목(Knowledge Acquisition Bottleneck)'**이다. 인간 전문가의 머릿속에 있는 지식을 추출하여 기계어로 변환하는 과정 자체가 막대한 시간과 비용을 소모한다.

실무 시나리오 1: 엔터프라이즈 사내 문서 검색(RAG) 고도화 기존의 벡터 임베딩 기반 검색은 "A회사의 CEO가 누구인가?"라는 단순 질의에는 강하나, "A회사 CEO가 과거에 설립했던 스타트업과 경쟁하는 B회사의 제품은?" 같은 다중 홉(Multi-Hop) 추론에 취약하다.

의사결정: 문서 내의 엔티티(인물, 회사, 제품)를 추출하여 의미망(Knowledge Graph) 형태의 지식 표현으로 변환 적재한다. 질의 시 벡터 유사도 검색과 Graph 탐색을 하이브리드로 결합(GraphRAG)하여 정확도를 비약적으로 높인다.

실무 시나리오 2: 금융권 사기 탐지(FDS) 시스템 구축 딥러닝 기반의 사기 탐지 모델은 높은 적중률을 보이지만, 금융 감독 기관에 "왜 계좌를 정지했는지" 법적/논리적 근거(Explainability)를 제출하지 못하는 문제가 발생한다.

의사결정: 딥러닝 모델의 출력값을 최종 결론으로 사용하지 않고, 딥러닝이 추출한 피처(예: 비정상 로그인 위치)를 규칙 기반(Rule-based) 지식 베이스의 입력 Fact로 활용한다. 최종 결정은 Rule 엔진이 수행하여 완벽한 감사 추적성(Audit Trail)을 확보한다.

이 의사결정 트리는 도메인의 성격에 따라 어떤 지식 표현 기법을 도입해야 하는지를 가이드하는 플로우다.

[시스템 도입 목표]
         │
[도메인의 규칙이 명확하고 법적 책임이 따르는가?]
 ├─(Yes)──> [규칙 기반 (Rule-based) 선택] ──> 감사 로그 및 유지보수 용이
 │
 └─(No)───> [데이터 간의 복잡한 계층과 관계 추론이 필요한가?]
              ├─(Yes)──> [의미망 / 프레임 선택] ──> Knowledge Graph 구축
              │
              └─(No)───> [연속적인 시간의 사건/시퀀스 묘사인가?]
                           └──> [스크립트 기반 표현 선택]

이 트리의 핵심은 '정확성'과 '설명 가능성'의 법적 요구 수준에 따라 아키텍처가 갈린다는 점이다. 이런 배치는 금융, 의료 등 생명과 자산에 직결되는 분야에서는 1%의 에러도 허용되지 않기 때문이다. 실무에서는 규칙 기반을 도입할 때 규칙이 1,000개를 넘어가면 룰 간의 간섭(Conflict)으로 유지보수가 불가능해지므로, 비즈니스 룰 관리 시스템(BRMS)을 통해 중복과 충돌을 상시 검증해야만 한다.

📢 섹션 요약 비유: 복잡한 사거리에 신호등(규칙 기반)을 세울지, 회전교차로(의미망)를 만들지는 도로의 차량 흐름뿐만 아니라 사고 발생 시 책임 소재를 어떻게 가릴 것인지에 따라 결정되어야 합니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

지표	지식 표현 기반 시스템 도입 전	지식 표현 기반 시스템 도입 후
논리 추론 에러율	블랙박스 모델 의존으로 간헐적 치명적 오류 (환각)	규칙 및 상속 기반 논리 검증으로 도메인 오류 99% 억제
데이터 재사용성	개별 모델마다 데이터 파싱 필요 (Silo)	표준 온톨로지(OWL) 기반으로 타 시스템과 지식 교환 자유로움
감사(Audit) 대응	판단 근거 추적 불가	적용된 규칙과 거쳐간 노드 경로가 완벽히 로깅됨

지식 표현(Knowledge Representation)은 AI의 1차, 2차 부흥기를 이끌었던 핵심 이론이지만, 방대한 수작업 요구로 인해 딥러닝에 자리를 내주었다. 그러나 초거대 AI가 논리적 추론 한계에 부딪히면서, 현재는 지식을 수작업으로 구축하는 대신 LLM이 텍스트를 읽고 스스로 지식 그래프(의미망)를 생성해내는 자동 지식 획득 단계로 진화하고 있다.

표준화 관점에서 W3C의 시맨틱 웹(Semantic Web) 표준인 RDF(Resource Description Framework)와 OWL(Web Ontology Language)은 지식 표현을 이기종 시스템 간에 교환하기 위한 핵심 규격으로 자리 잡고 있다. 향후 인공지능 시스템은 확률론적 딥러닝 생성기와 확정론적 지식 표현 검증기가 결합된 하이브리드 아키텍처가 엔터프라이즈 환경의 기본 표준이 될 것이다.

📢 섹션 요약 비유: 지식 표현은 한때 유행이 지난 '고전 문법' 취급을 받았으나, 이제는 최첨단 생성형 AI가 헛소리를 하지 못하게 만드는 가장 강력한 '법전'으로 화려하게 부활하고 있습니다.

📌 관련 개념 맵 (Knowledge Graph)

지식 그래프 (Knowledge Graph) | 의미망을 엔터프라이즈 규모로 확장하여 방대한 데이터를 연결한 그래프 DB 기반 아키텍처
시맨틱 웹 (Semantic Web) | 웹상의 정보를 기계가 이해할 수 있는 온톨로지 형태로 표현하는 W3C의 차세대 웹 비전
전문가 시스템 (Expert System) | 지식 표현 기술과 추론 엔진을 결합하여 특정 도메인의 전문가를 대체하는 1세대 AI
뉴로-심볼릭 AI (Neuro-Symbolic AI) | 심층 신경망(딥러닝)의 패턴 인식 능력과 기호주의의 논리적 지식 표현 추론을 결합한 하이브리드 AI
SPARQL | RDF 형식으로 저장된 지식 그래프 및 온톨로지 데이터를 검색하고 질의하기 위한 W3C 표준 쿼리 언어

👶 어린이를 위한 3줄 비유 설명

컴퓨터는 글자를 읽을 수는 있지만 그게 무슨 뜻인지, 서로 어떻게 연결되는지 모르는 바보예요.
그래서 '새는 날개가 있다', '펭귄은 새다'처럼 단어와 단어 사이에 화살표를 그려서 규칙을 만들어주는 과정이 필요해요.
이렇게 컴퓨터 머릿속에 똑똑한 생각 지도를 그려주는 방법을 '지식 표현'이라고 부른답니다.