
ตัวแยก PDF สำหรับ RAG
OpenDataLoader คือเอนจินแยกข้อมูล PDF แบบ Open-source ที่เน้นการประมวลผลในเครื่อง (Local-first) ซึ่งออกแบบมาเพื่อไปป์ไลน์ RAG (Retrieval-Augmented Generation) โดยเฉพาะ ต่างจากเครื่องมือ OCR ทั่วไปที่มอง PDF เป็นภาพแบนๆ OpenDataLoader จะรักษาลำดับชั้นของเอกสาร ลำดับการอ่าน และโครงสร้างตารางไว้ โดยใช้ขั้นตอนวิธี XY-Cut++ เพื่อแก้ปัญหาเลย์เอาต์แบบหลายคอลัมน์ และให้พิกัด Bounding box [x1, y1, x2, y2] ที่แม่นยำสำหรับทุกองค์ประกอบที่ดึงออกมา ด้วยการส่งออกเป็น JSON ที่มีโครงสร้างพร้อม Metadata เช่น ขนาดฟอนต์และระดับหัวข้อ ทำให้ LLM ได้รับข้อมูลที่สะอาดและเข้าใจบริบท ซึ่งช่วยลดอัตราการหลอน (Hallucination) ในแอปพลิเคชัน RAG ระดับองค์กรได้อย่างมาก
ตัวแยกข้อมูลทั่วไปมักทำให้ข้อความในเลย์เอาต์หลายคอลัมน์สลับกัน แต่ขั้นตอนวิธี XY-Cut++ จะแบ่งส่วนหน้าเอกสารอย่างชาญฉลาดเพื่อรักษาลำดับการอ่านที่ถูกต้อง ทำให้ LLM ได้รับข้อความตามลำดับที่ถูกต้อง ป้องกันปัญหาข้อความปนกันที่มักลดความแม่นยำในการดึงข้อมูลในเอกสารทางเทคนิคหรือการเงินที่ซับซ้อน
มีความแม่นยำ 93% ในการแยกตารางโดยการตรวจจับเส้นขอบและจัดกลุ่มข้อความลงในแถวและคอลัมน์เชิงสัมพันธ์ รองรับเซลล์ที่ผสานกันและหัวตารางที่ซับซ้อน โดยแปลงตารางภาพให้เป็น JSON ที่เครื่องอ่านได้ ซึ่งสำคัญมากสำหรับ RAG ด้านการเงินและวิทยาศาสตร์ที่ความถูกต้องของข้อมูลในตารางเป็นสิ่งจำเป็น
ทุกองค์ประกอบที่ดึงออกมาจะถูกแมปกับพิกัด [x1, y1, x2, y2] บนหน้าเอกสารต้นฉบับ ช่วยให้นักพัฒนาสร้างฟีเจอร์อ้างอิง (Citation) เพื่อให้ AI ไฮไลต์ตำแหน่งแหล่งที่มาที่แน่นอนใน PDF ต้นฉบับ ซึ่งเป็นข้อกำหนดบังคับสำหรับการตรวจสอบและการตรวจสอบย้อนกลับในการใช้งาน AI ระดับองค์กร
ผสมผสาน OCR แบบดั้งเดิมความเร็วสูงเข้ากับการปรับปรุงด้วย LLM สำหรับโครงสร้างเอกสารที่ซับซ้อน แนวทางไฮบริดนี้สร้างสมดุลระหว่างประสิทธิภาพและการแยกข้อมูลที่มีความเที่ยงตรงสูง ช่วยให้ผู้ใช้ขยายการประมวลผลได้ในขณะที่ยังรักษาความแม่นยำที่จำเป็นสำหรับเอกสารเฉพาะทาง เช่น สัญญาทางกฎหมายหรือแบบวิศวกรรม
มีการกรองข้อความที่ซ่อนอยู่ เนื้อหานอกหน้ากระดาษ และความพยายามในการทำ Prompt Injection ที่ฝังอยู่ใน Metadata ของ PDF โดยการทำความสะอาดอินพุตในขั้นตอนการแยกข้อมูล จะช่วยป้องกันผู้ไม่หวังดีจากการโจมตีไปป์ไลน์ RAG ทำให้มั่นใจได้ว่ามีเพียงข้อมูลที่สะอาดและผ่านการตรวจสอบแล้วเท่านั้นที่จะเข้าสู่ Context window ของ LLM
นักวิเคราะห์การเงินใช้ OpenDataLoader เพื่อนำเข้ารายงานรายไตรมาส เครื่องมือจะแยกงบดุลที่ซับซ้อนเป็น JSON ที่มีโครงสร้าง ช่วยให้ระบบ RAG สามารถคำนวณเชิงคณิตศาสตร์และวิเคราะห์แนวโน้มได้อย่างแม่นยำโดยไม่สูญเสียความสัมพันธ์ระหว่างแถวและคอลัมน์ที่พบในตาราง PDF ต้นฉบับ
สำนักงานกฎหมายใช้เครื่องมือนี้เพื่อประมวลผลสัญญาทางกฎหมายจำนวนมาก การรักษาลำดับชั้นและหัวข้อของเอกสารช่วยให้ไปป์ไลน์ RAG สามารถดึงข้อกำหนดและคำจำกัดความเฉพาะเจาะจงได้อย่างแม่นยำสูง ทำให้มั่นใจได้ว่าการอ้างอิงจะชี้ไปยังหน้าและย่อหน้าที่ถูกต้อง
ทีมวิศวกรรมประมวลผลคู่มือทางเทคนิคที่ซับซ้อนซึ่งมีเลย์เอาต์หลายคอลัมน์และไดอะแกรม OpenDataLoader ช่วยให้มั่นใจได้ว่าลำดับการอ่านจะถูกรักษาไว้ ทำให้ AI สามารถให้ขั้นตอนการแก้ไขปัญหาที่ถูกต้อง ซึ่งหากใช้เครื่องมือแยกข้อความทั่วไปอาจทำให้ข้อมูลสลับกันได้
ต้องการข้อมูลที่มีโครงสร้างและคุณภาพสูงเพื่อปรับปรุงประสิทธิภาพของ RAG พวกเขาต้องการเครื่องมือที่จัดการเลย์เอาต์เอกสารที่ซับซ้อนและให้ Metadata ที่แม่นยำสำหรับการอ้างอิงและการตรวจสอบ
ต้องตรวจสอบให้แน่ใจว่าระบบ AI เป็นไปตามมาตรฐานการเข้าถึง เช่น EAA และ ADA พวกเขาใช้ OpenDataLoader เพื่อทำให้การแก้ไข PDF เป็นอัตโนมัติและมั่นใจได้ว่าเอกสารนั้นเครื่องอ่านได้และเข้าถึงได้
สร้างไปป์ไลน์ข้อมูลที่ปรับขยายได้ซึ่งนำเข้าข้อมูล PDF ที่ไม่มีโครงสร้างจำนวนมาก พวกเขาให้ความสำคัญกับโซลูชันแบบ Open-source ที่เน้นการประมวลผลในเครื่อง ซึ่งให้ความโปร่งใสและการควบคุมกระบวนการแยกข้อมูล
เป็น Open source ภายใต้ใบอนุญาต Apache-2.0 ใช้งาน ปรับแต่ง และติดตั้งใช้งานในเครื่องได้ฟรี โดยไม่มีค่าธรรมเนียมต่อการเรียกใช้งานและไม่มีการผูกมัดกับผู้ให้บริการ (Vendor lock-in)