
RAG 최적화 PDF 파서
무료
OpenDataLoader는 RAG(검색 증강 생성) 파이프라인을 위해 설계된 오픈소스 로컬 PDF 파싱 엔진입니다. PDF를 단순 이미지로 처리하는 일반 OCR 도구와 달리, 문서 계층 구조, 읽기 순서, 표 구조를 보존합니다. XY-Cut++ 알고리즘을 사용하여 다단 레이아웃 문제를 해결하고, 추출된 모든 요소에 대해 정밀한 바운딩 박스 좌표[x1, y1, x2, y2]를 제공합니다. 폰트 크기 및 제목 레벨과 같은 메타데이터가 포함된 구조화된 JSON을 출력하여 LLM이 문맥을 파악할 수 있는 깨끗한 데이터를 제공함으로써 엔터프라이즈 RAG 애플리케이션의 환각 현상을 크게 줄입니다.
일반 파서는 다단 레이아웃에서 텍스트를 뒤섞는 경우가 많습니다. XY-Cut++ 알고리즘은 페이지 영역을 지능적으로 분할하여 논리적인 읽기 흐름을 유지합니다. 이를 통해 LLM은 텍스트를 올바른 순서로 전달받아 복잡한 기술 또는 금융 문서에서 검색 정확도를 떨어뜨리는 '텍스트 엉킴' 현상을 방지합니다.
테두리를 감지하고 텍스트를 관계형 행과 열로 클러스터링하여 표 파싱에서 93%의 정확도를 달성합니다. 병합된 셀과 복잡한 헤더를 처리하여 시각적 표를 기계 판독 가능한 JSON으로 변환합니다. 이는 표 내 데이터 무결성이 정확한 질의 응답에 필수적인 금융 및 과학 RAG 분야에서 매우 중요합니다.
추출된 모든 요소는 원본 페이지의 [x1, y1, x2, y2] 좌표에 매핑됩니다. 이를 통해 개발자는 인용 기능을 구축하여 AI가 원본 PDF의 정확한 위치를 강조 표시할 수 있게 하며, 이는 엔터프라이즈 AI 배포 시 검증 및 감사 가능성을 위해 필수적인 요구 사항입니다.
고속 전통 OCR과 복잡한 문서 구조를 위한 선택적 LLM 기반 향상 기능을 결합했습니다. 이 하이브리드 접근 방식은 성능과 고충실도 추출 사이의 균형을 유지하여, 사용자가 법률 계약서나 엔지니어링 도면과 같은 전문 문서에 필요한 정확도를 유지하면서 처리를 확장할 수 있게 합니다.
숨겨진 텍스트, 페이지 외부 콘텐츠, PDF 메타데이터에 포함된 잠재적인 프롬프트 주입 시도에 대한 기본 필터링을 포함합니다. 파싱 단계에서 입력을 정화함으로써 악의적인 행위자가 RAG 파이프라인을 악용하는 것을 방지하고, 깨끗하고 검증된 데이터만 LLM 컨텍스트 창에 도달하도록 보장합니다.
GitHub에서 OpenDataLoader 저장소를 로컬 개발 환경으로 복제합니다., pip 또는 선호하는 패키지 관리자를 통해 필수 종속성을 설치하여 로컬 처리를 활성화합니다., 배치 처리를 위해 대상 PDF 파일이 포함된 입력 디렉토리를 구성합니다., 파싱 스크립트를 실행하여 바운딩 박스 좌표가 포함된 구조화된 JSON 출력을 생성합니다., 결과 JSON 스키마를 벡터 데이터베이스 파이프라인에 통합하여 고충실도 검색을 구현합니다., 내장된 스키마 검사기를 사용하여 특정 RAG 요구 사항에 맞게 출력 구조를 검증합니다.
금융 분석가는 OpenDataLoader를 사용하여 분기별 보고서를 수집합니다. 이 도구는 복잡한 대차대조표를 구조화된 JSON으로 추출하여, RAG 시스템이 원본 PDF 표의 행-열 관계를 잃지 않고 정확한 수학적 추론 및 추세 분석을 수행할 수 있도록 합니다.
법률 사무소는 이 도구를 사용하여 수천 건의 법률 계약서를 처리합니다. 문서 계층 구조와 제목을 보존함으로써 RAG 파이프라인은 특정 조항과 정의를 높은 정밀도로 검색할 수 있으며, 인용이 정확한 페이지와 단락을 가리키도록 보장합니다.
엔지니어링 팀은 다단 레이아웃과 다이어그램이 포함된 복잡한 기술 매뉴얼을 처리합니다. OpenDataLoader는 읽기 순서를 보존하여, 일반 텍스트 추출 도구로는 뒤섞일 수 있는 정확한 문제 해결 단계를 AI가 제공할 수 있도록 합니다.
RAG 성능을 향상시키기 위해 고품질의 구조화된 데이터가 필요합니다. 복잡한 문서 레이아웃을 처리하고 인용 및 검증을 위한 정밀한 메타데이터를 제공하는 도구가 필요합니다.
AI 시스템이 EAA 및 ADA와 같은 접근성 표준을 준수하도록 보장해야 합니다. OpenDataLoader를 사용하여 PDF 수정을 자동화하고 문서가 기계 판독 가능하며 접근 가능한지 확인합니다.
대량의 비정형 PDF 데이터를 수집하는 확장 가능한 데이터 파이프라인을 구축합니다. 데이터 추출 과정에 대한 투명성과 제어권을 제공하는 오픈소스, 로컬 우선 솔루션을 우선시합니다.
Apache-2.0 라이선스에 따른 오픈소스입니다. 요청당 비용이나 공급업체 종속 없이 로컬에서 자유롭게 사용, 수정 및 배포할 수 있습니다.