
DB phân tích MPP thời gian thực
Miễn phí

Apache Doris là cơ sở dữ liệu phân tích thời gian thực hiệu năng cao dựa trên kiến trúc Massively Parallel Processing (MPP). Hệ thống vượt trội trong phân tích dữ liệu đa chiều, truy vấn ad-hoc và truy vấn điểm có độ đồng thời cao. Khác với các hệ thống OLAP truyền thống yêu cầu pipeline ETL phức tạp, Doris hỗ trợ nạp dữ liệu thời gian thực từ các nguồn như Kafka và Flink, cung cấp độ trễ dưới một giây cho các phép join và tổng hợp phức tạp. Công cụ thực thi vector hóa và bộ tối ưu hóa dựa trên chi phí (CBO) độc đáo cho phép Doris xử lý các tập dữ liệu quy mô petabyte trong khi vẫn duy trì thông lượng cao, trở thành giải pháp thay thế vượt trội cho các stack dựa trên Hadoop hoặc kho dữ liệu cũ cho phân tích dựa trên AI.
Doris sử dụng công cụ thực thi truy vấn vector hóa để xử lý dữ liệu theo lô thay vì từng hàng. Bằng cách tận dụng các chỉ dẫn CPU SIMD (Single Instruction, Multiple Data), hệ thống giảm đáng kể chi phí chỉ dẫn và cải thiện tính cục bộ của bộ nhớ đệm. Lựa chọn kiến trúc này cho phép Doris đạt hiệu suất cải thiện từ 5x đến 10x trong xử lý truy vấn phân tích so với các công cụ dựa trên hàng truyền thống, xử lý hiệu quả các phép tổng hợp phức tạp trên tập dữ liệu quy mô lớn với chu kỳ CPU tối thiểu.
Hệ thống hỗ trợ nạp dữ liệu thời gian thực, thông lượng cao thông qua nhiều giao thức bao gồm Stream Load, Broker Load và Routine Load. Bằng cách tích hợp nguyên bản với Apache Kafka và Flink, Doris loại bỏ nhu cầu về các lớp xử lý lô trung gian. Điều này cho phép người dùng truy vấn dữ liệu chỉ trong vài giây sau khi dữ liệu đến, đảm bảo các bảng điều khiển phân tích và mô hình AI luôn được cập nhật trạng thái dữ liệu mới nhất mà không gặp độ trễ từ các pipeline ETL truyền thống.
CBO trong Apache Doris được thiết kế để xử lý các phép join đa bảng phức tạp và truy vấn con lồng nhau. Nó tự động chọn kế hoạch thực thi hiệu quả nhất bằng cách phân tích phân phối dữ liệu, cardinality và thống kê. Bằng cách tối ưu hóa thứ tự join và các toán tử vật lý, CBO giảm thiểu việc xáo trộn dữ liệu qua mạng, điều này rất quan trọng để duy trì hiệu suất trong các môi trường MPP phân tán nơi I/O mạng thường là nút thắt cổ chai chính.
Doris được tối ưu hóa cho các kịch bản có độ đồng thời cao, hỗ trợ hàng nghìn QPS (Truy vấn mỗi giây) cho các truy vấn điểm. Hệ thống sử dụng định dạng lưu trữ hàng cho các cột cụ thể và tận dụng lớp bộ nhớ đệm chuyên dụng để phục vụ các tra cứu thường xuyên ngay lập tức. Điều này làm cho nó phù hợp với các ứng dụng hướng người dùng, nơi yêu cầu thời gian phản hồi độ trễ thấp, thu hẹp khoảng cách giữa các hệ thống OLAP truyền thống tập trung vào quét dữ liệu nặng và các hệ thống OLTP tập trung vào tính toàn vẹn giao dịch.
Để hỗ trợ triển khai quy mô lớn, Doris cung cấp khả năng cô lập tài nguyên mạnh mẽ thông qua Workload Groups. Quản trị viên có thể xác định giới hạn CPU và bộ nhớ cho các người dùng hoặc loại truy vấn khác nhau, ngăn chặn các vấn đề 'hàng xóm ồn ào' (noisy neighbor) nơi một truy vấn phân tích nặng có thể làm giảm hiệu suất của những người dùng khác. Kiểm soát chi tiết này là cần thiết cho các nhà cung cấp SaaS hoặc các doanh nghiệp lớn quản lý nhiều nhóm nội bộ trên một cluster dùng chung.
Các nhóm marketing sử dụng Doris để nạp dữ liệu clickstream từ Kafka theo thời gian thực. Bằng cách chạy các truy vấn SQL ad-hoc, họ có thể theo dõi phễu chuyển đổi người dùng và các chỉ số phiên ngay lập tức, cho phép điều chỉnh A/B testing và phân phối nội dung cá nhân hóa dựa trên tương tác trực tiếp của người dùng.
Các kỹ sư DevOps sử dụng Doris để tổng hợp và tìm kiếm qua khối lượng lớn nhật ký hệ thống. Khả năng lọc và tổng hợp tốc độ cao cho phép các nhóm xác định các nút thắt hệ thống hoặc các mối đe dọa bảo mật trong vài giây, thay thế các công cụ quản lý nhật ký chậm chạp và nặng về đĩa.
Họ cần xây dựng các pipeline dữ liệu mạnh mẽ, độ trễ thấp. Doris đơn giản hóa stack của họ bằng cách thay thế các kiến trúc Lambda phức tạp bằng một hệ thống hợp nhất duy nhất xử lý hiệu quả cả việc nạp dữ liệu lô và streaming.
Họ yêu cầu một cơ sở dữ liệu hỗ trợ SQL tiêu chuẩn cho các tác vụ phân tích phức tạp. Doris cung cấp hiệu suất cần thiết cho các bảng điều khiển tương tác và công cụ báo cáo mà không yêu cầu các ngôn ngữ truy vấn độc quyền chuyên biệt.
Họ cần cung cấp thông tin chi tiết thời gian thực cho người dùng cuối. Doris cho phép họ xây dựng các tính năng phân tích hiệu năng cao, hướng người dùng, có khả năng mở rộng liền mạch khi cơ sở người dùng tăng lên.
Mã nguồn mở theo giấy phép Apache License 2.0. Hoàn toàn miễn phí để tải xuống, sửa đổi và triển khai trong bất kỳ môi trường nào mà không mất phí bản quyền.