Apache Doris คืออะไร

Apache Doris คือฐานข้อมูลวิเคราะห์ประสิทธิภาพสูงแบบเรียลไทม์ที่ใช้สถาปัตยกรรม Massively Parallel Processing (MPP) โดดเด่นด้านการวิเคราะห์ข้อมูลหลายมิติ, Ad-hoc queries และ Point queries ที่มีความพร้อมกันสูง ต่างจากระบบ OLAP แบบเดิมที่ต้องใช้ไปป์ไลน์ ETL ที่ซับซ้อน Doris รองรับการนำเข้าข้อมูลแบบเรียลไทม์จากแหล่งต่างๆ เช่น Kafka และ Flink โดยให้ความหน่วงระดับต่ำกว่าวินาทีสำหรับการ Join และ Aggregation ที่ซับซ้อน ด้วย Vectorized execution engine และ Cost-based optimizer (CBO) ที่เป็นเอกลักษณ์ ทำให้สามารถจัดการชุดข้อมูลระดับ Petabyte ได้โดยยังคง Throughput สูง จึงเป็นทางเลือกที่เหนือกว่า Hadoop-based stacks หรือ Data warehouse แบบเดิมสำหรับการวิเคราะห์ด้วย AI

คุณสมบัติหลักของ Apache Doris

Vectorized Execution Engine

Doris ใช้เอนจินประมวลผลแบบ Vectorized ที่ประมวลผลข้อมูลเป็นชุด (Batch) แทนการประมวลผลทีละแถว โดยใช้คำสั่ง SIMD (Single Instruction, Multiple Data) ของ CPU ช่วยลดภาระของคำสั่งและเพิ่มประสิทธิภาพ Cache locality ทำให้ Doris มีประสิทธิภาพการประมวลผลสูงกว่าเอนจินแบบ Row-based ทั่วไปถึง 5-10 เท่า และจัดการ Aggregation ที่ซับซ้อนบนข้อมูลขนาดใหญ่ได้โดยใช้ CPU ต่ำ

Unified Real-Time Ingestion

ระบบรองรับการนำเข้าข้อมูลแบบเรียลไทม์ที่มี Throughput สูงผ่านโปรโตคอลต่างๆ เช่น Stream Load, Broker Load และ Routine Load การเชื่อมต่อกับ Apache Kafka และ Flink โดยตรงช่วยลดความจำเป็นในการใช้เลเยอร์ Batch processing ทำให้ผู้ใช้สามารถ Query ข้อมูลได้ภายในไม่กี่วินาทีหลังจากข้อมูลมาถึง ช่วยให้แดชบอร์ดและโมเดล AI ได้รับข้อมูลล่าสุดเสมอโดยไม่มีความหน่วงจากไปป์ไลน์ ETL แบบเดิม

Advanced Cost-Based Optimizer

CBO ใน Apache Doris ออกแบบมาเพื่อจัดการการ Join หลายตารางและ Subqueries ที่ซับซ้อน โดยจะวิเคราะห์การกระจายตัวของข้อมูล, Cardinality และสถิติเพื่อเลือกแผนการประมวลผลที่มีประสิทธิภาพที่สุดโดยอัตโนมัติ การปรับลำดับการ Join และ Physical operators ช่วยลดการย้ายข้อมูลข้ามเครือข่าย ซึ่งเป็นหัวใจสำคัญในการรักษาประสิทธิภาพในสภาพแวดล้อม MPP แบบกระจายที่ Network I/O มักเป็นคอขวดหลัก

High-Concurrency Point Queries

Doris ปรับแต่งมาเพื่อสถานการณ์ที่มีความพร้อมกันสูง รองรับ QPS (Queries Per Second) หลายพันรายการสำหรับ Point queries โดยใช้รูปแบบ Row-store สำหรับบางคอลัมน์และใช้เลเยอร์ Cache เฉพาะเพื่อตอบสนองการค้นหาที่พบบ่อยได้ทันที เหมาะสำหรับแอปพลิเคชันที่ต้องการการตอบสนองที่รวดเร็ว เชื่อมช่องว่างระหว่างระบบ OLAP ที่เน้นการสแกนข้อมูลหนักๆ กับระบบ OLTP ที่เน้นความถูกต้องของธุรกรรม

Multi-Tenant Resource Isolation

เพื่อรองรับการใช้งานขนาดใหญ่ Doris มีระบบแยกทรัพยากรผ่าน Workload Groups ผู้ดูแลระบบสามารถกำหนดขีดจำกัด CPU และหน่วยความจำสำหรับผู้ใช้หรือประเภท Query ต่างๆ เพื่อป้องกันปัญหา 'noisy neighbor' ที่ Query หนักๆ อาจส่งผลกระทบต่อผู้ใช้อื่น ซึ่งเป็นสิ่งจำเป็นสำหรับผู้ให้บริการ SaaS หรือองค์กรขนาดใหญ่ที่จัดการทีมภายในหลายทีมบนคลัสเตอร์เดียวกัน

วิธีใช้ Apache Doris

ดาวน์โหลด Binary ล่าสุดจากเว็บไซต์ Apache Doris หรือดึง Docker image อย่างเป็นทางการด้วยคำสั่ง 'docker pull apache/doris:2.1.0', 2. ตั้งค่าไฟล์ 'fe.conf' และ 'be.conf' เพื่อกำหนด Topology ของคลัสเตอร์, ขีดจำกัดหน่วยความจำ และเส้นทางจัดเก็บข้อมูล, 3. เริ่มต้นคลัสเตอร์โดยรัน Frontend (FE) nodes ตามด้วย Backend (BE) nodes ผ่านสคริปต์ 'start_fe.sh' และ 'start_be.sh', 4. เชื่อมต่อคลัสเตอร์ผ่าน MySQL-compatible client ที่พอร์ต 9030 เพื่อรันคำสั่ง DDL และสร้างตาราง, 5. โหลดข้อมูลผ่าน Stream Load interface ด้วย HTTP PUT requests หรือเชื่อมต่อกับ Apache Flink โดยใช้ Doris Connector เพื่อนำเข้าข้อมูลแบบเรียลไทม์, 6. รัน SQL queries บนตารางของคุณเพื่อทำ Aggregation หรือค้นหาข้อมูลแบบเรียลไทม์

กรณีการใช้งานของ Apache Doris

การวิเคราะห์พฤติกรรมผู้ใช้แบบเรียลไทม์

ทีมการตลาดใช้ Doris เพื่อนำเข้าข้อมูล Clickstream จาก Kafka แบบเรียลไทม์ การรัน Ad-hoc SQL ช่วยให้ติดตาม Conversion funnels และตัวชี้วัดเซสชันได้ทันที ทำให้ปรับเปลี่ยน A/B testing และส่งมอบเนื้อหาเฉพาะบุคคลตามปฏิสัมพันธ์ของผู้ใช้ได้แบบสดๆ

การวิเคราะห์ Log การทำงาน

วิศวกร DevOps ใช้ Doris เพื่อรวบรวมและค้นหาข้อมูล Log ระบบจำนวนมหาศาล ความสามารถในการกรองและรวมข้อมูลความเร็วสูงช่วยให้ทีมระบุคอขวดของระบบหรือภัยคุกคามความปลอดภัยได้ภายในไม่กี่วินาที แทนที่เครื่องมือจัดการ Log แบบเดิมที่เน้นการใช้ดิสก์หนักๆ

AI Feature Store

นักวิทยาศาสตร์ข้อมูลใช้ Doris เป็น Feature store แบบเรียลไทม์สำหรับโมเดล Machine Learning โดยการจัดเก็บฟีเจอร์ที่คำนวณไว้ล่วงหน้าและข้อมูลดิบ ระบบจะช่วยให้เข้าถึงฟีเจอร์ได้ด้วยความหน่วงต่ำในระหว่างการทำ Model inference ทำให้มั่นใจได้ว่าการคาดการณ์ของ AI อ้างอิงจากข้อมูลล่าสุด

ใครที่ได้ประโยชน์จาก Apache Doris

Data Engineers

ต้องการสร้างไปป์ไลน์ข้อมูลที่แข็งแกร่งและมีความหน่วงต่ำ Doris ช่วยลดความซับซ้อนของ Stack โดยแทนที่ Lambda architecture ที่ยุ่งยากด้วยระบบเดียวที่จัดการทั้ง Batch และ Streaming ได้อย่างมีประสิทธิภาพ

Analytics Developers

ต้องการฐานข้อมูลที่รองรับ SQL มาตรฐานสำหรับงานวิเคราะห์ที่ซับซ้อน Doris มอบประสิทธิภาพที่จำเป็นสำหรับแดชบอร์ดเชิงโต้ตอบและเครื่องมือรายงานโดยไม่ต้องใช้ภาษา Query เฉพาะทาง

SaaS Product Managers

ต้องการมอบข้อมูลเชิงลึกแบบเรียลไทม์ให้แก่ผู้ใช้ปลายทาง Doris ช่วยให้พวกเขาสร้างฟีเจอร์การวิเคราะห์ประสิทธิภาพสูงที่รองรับการขยายตัวได้อย่างราบรื่นตามฐานผู้ใช้ที่เติบโตขึ้น

ราคา Apache Doris

โอเพนซอร์สภายใต้ Apache License 2.0 สามารถดาวน์โหลด แก้ไข และปรับใช้ในสภาพแวดล้อมใดก็ได้โดยไม่มีค่าธรรมเนียมลิขสิทธิ์

เครื่องมืออื่น ๆ ที่คล้ายกับ Apache Doris