🌐 English · 한국어

요약

OntoEKG는 Oyewale & Soru(Liber AI Research)가 개발한 LLM 기반 파이프라인으로, 비정형 엔터프라이즈 텍스트로부터 엔터프라이즈 지식 그래프(EKG)를 위한 도메인 특화 RDF/OWL 온톨로지를 직접 생성한다. 이 파이프라인은 온톨로지 모델링을 두 단계로 분해한다. 핵심 클래스와 속성을 식별하는 **추출 모듈(extraction module)**과, RDF 직렬화에 앞서 그 클래스들을 논리적으로 계층 구조화하는 **함의 모듈(entailment module)**이다. 새로운 3개 부문 데이터셋(Data, Finance, Logistics)에서 평가한 결과, Data 도메인에서 퍼지 매칭 F1 0.724를 달성했으나 범위 정의와 계층적 추론에서 분명한 한계를 드러냈다. 이 논문은 동시에 비정형 텍스트로부터의 포괄적인 종단간(end-to-end) 온톨로지 구축 벤치마크를 만들자는 행동 촉구의 역할도 한다.

핵심 기여

  1. OntoEKG 파이프라인 — 비정형 엔터프라이즈 텍스트를 Turtle로 직렬화된 형식적 RDF 온톨로지로 변환하는 2단계 LLM 프로세스(추출 후 함의).
  2. 벤치마크에 대한 촉구 — 기존 벤치마크(OntoURL, Text2KGBench, OSKGC, LLMs4OL)가 비정형 텍스트로부터의 종단간 온톨로지 구축을 지원하지 못한다고 주장하며, 커뮤니티에 이러한 벤치마크 구축을 촉구한다.
  3. 새로운 평가 데이터셋 — Data, Finance, Logistics 부문의 세 가지 엔터프라이즈 정책 텍스트 사용 사례(OntoEKG GitHub 저장소에 공개됨).

방법론 및 아키텍처

형식화: 텍스트 T로부터 클래스 C^T와 속성 P^T를 추론한다. 각 클래스는 레이블과 설명을 가지며, 각 속성은 레이블, 도메인 클래스, 레인지 클래스를 가진다. 클래스는 계층 구조(c1 ⊆ c2)를 형성한다. RDF에서 클래스는 owl:Class, 속성은 owl:ObjectProperty이며, 데이터타입은 자체 클래스로 구체화(reify)된다(Schema.org 방식).

4단계 파이프라인:

  1. 데이터 수집(Data Ingestion) — 비정형 텍스트를 입력받으며, Pydantic 데이터 모델이 유효한 JSON 출력(클래스, 속성, 설명, 도메인, 레인지)을 강제한다.
  2. 온톨로지 요소 추출(Ontological Element Extraction) — 특화된 시스템 프롬프트를 갖춘 추출 LLM이 제공된 스키마에 제약된 상태로 클래스(엔티티 유형)와 속성(관계)을 식별한다.
  3. 함의를 통한 계층 구성(Hierarchy Construction with Entailment) — 함의 LLM이 클래스 설명에 대해 반복적으로 추론하여 하위 클래스/상속 관계를 추론하고 분류 체계(taxonomy)를 구축한다.
  4. RDF 직렬화(RDF Serialisation) — 속성과 계층을 병합하여 rdflib를 통해 Turtle로 작성한다.

모델: 추출 = Google Gemini 3 Flash(preview); 함의 = Anthropic Claude 4.5 Opus. Google Colab에서 실행했다. 다른 함의 후보 모델(Gemini 2.5 Flash/Pro, 3 Flash preview, Claude 4.5 Sonnet)도 시도했으나 성능이 떨어졌고, Gemini 2.5 Pro는 효율성 문제로 제외되었다.

결과

세 가지 사용 사례에 대한 두 가지 매칭 방식(퍼지 매칭 = 임베딩 기반 트리플 정렬, 임계값 0.94/0.94/0.95):

사용 사례정확 F1퍼지 F1
Data0.1020.724
Finance0.0000.121
Logistics0.0480.431
  • Data가 가장 우수했고(퍼지 P=0.656, R=0.807, F1=0.724), Finance가 가장 저조했는데(F1=0.121), 이는 어떤 용어가 온톨로지에 속하는지에 대한 불일치 때문이었다.
  • 정성적 실패 사례: “Policy”와 “GovernanceStandard”가 각각 서로의 하위 클래스로 선언되었고(허위 동등성), 모호한 “isTypeOf” 속성이 rdf:subClassOf인지 rdf:type인지 불분명했다.
  • 한계: LLM은 온톨로지 범위를 자율적으로 설정하는 데 어려움을 겪고, 때때로 클래스 대신 개별 인스턴스(individuals)를 제안하며(추상화 수준이 선언되지 않음), 계층 관계의 방향성을 느슨한 포섭(subsumption)과 혼동하여 논리적 일관성을 해친다.
  • 향후 과제: 종단간 텍스트→RDF 변환, 명명된 개별 인스턴스 및 출처(provenance) 메타데이터 처리, 기존 모델을 OntoEKG에 다시 입력하는 점진적 온톨로지 구축, 그리고 커뮤니티 벤치마크.

관련 논문

  • 아직 위키에 밀접하게 관련된 논문이 없다. 현재의 동류 논문들(보행자-로봇 상호작용, 보도 배송 로봇 평가, 보행자 수용량)은 HRI/물류 주제로, 이 논문의 LLM 온톨로지 구축 방법과는 겹치지 않는다.