
即時 MPP 分析資料庫
免費

Apache Doris 是一款基於大規模並行處理 (MPP) 架構的高效能即時分析資料庫。它擅長多維度數據分析、即席查詢 (Ad-hoc) 及高併發點查詢。與需要複雜 ETL 管線的傳統 OLAP 系統不同,Doris 支援從 Kafka 和 Flink 等來源進行即時數據攝取,並為複雜的 Join 與聚合運算提供亞秒級延遲。其獨特的向量化執行引擎與基於成本的優化器 (CBO) 使其能處理 PB 級數據集並保持高吞吐量,是 AI 驅動分析中取代 Hadoop 技術棧或傳統數據倉庫的卓越選擇。
Doris 採用向量化查詢執行引擎,以批次而非逐列方式處理數據。透過利用 SIMD (單指令多數據) CPU 指令,顯著降低指令開銷並提升快取局部性。此架構選擇使 Doris 在分析查詢處理上比傳統列式引擎提升 5 到 10 倍效能,能以極低的 CPU 週期處理大規模數據集的複雜聚合。
系統支援透過 Stream Load、Broker Load 與 Routine Load 等多種協定進行高吞吐量即時數據攝取。透過與 Apache Kafka 和 Flink 的原生整合,Doris 消除了中間批次處理層的需求。這讓使用者能在數據抵達後的幾秒內進行查詢,確保分析儀表板與 AI 模型始終獲取最新數據狀態,無需傳統 ETL 管線的延遲開銷。
Apache Doris 的 CBO 專為處理複雜的多表 Join 與巢狀子查詢而設計。它透過分析數據分佈、基數與統計資訊,自動選擇最高效的執行計畫。藉由優化 Join 順序與物理運算子,CBO 將網路數據洗牌 (Shuffling) 降至最低,這對於維持分散式 MPP 環境的效能至關重要,因為網路 I/O 通常是主要瓶頸。
Doris 針對高併發場景進行了優化,支援每秒數千次 (QPS) 的點查詢。它針對特定欄位採用列式儲存格式,並利用專用快取層即時回應頻繁的查找請求。這使其適用於需要低延遲回應的使用者導向應用,填補了專注於重型掃描的傳統 OLAP 系統與專注於交易完整性的 OLTP 系統之間的差距。
為支援大規模部署,Doris 透過工作負載群組 (Workload Groups) 提供強大的資源隔離。管理員可為不同使用者或查詢類型定義 CPU 與記憶體限制,防止「吵雜鄰居」問題,即單一繁重的分析查詢導致其他使用者效能下降。此細粒度控制對於管理單一共享叢集內多個內部團隊的 SaaS 提供商或大型企業至關重要。
行銷團隊使用 Doris 即時攝取來自 Kafka 的點擊流數據。透過執行即席 SQL 查詢,他們能即時追蹤使用者轉換漏斗與工作階段指標,從而根據即時互動進行 A/B 測試調整與個人化內容投放。
DevOps 工程師利用 Doris 聚合並搜尋海量系統日誌。其高速篩選與聚合能力使團隊能在幾秒內識別系統瓶頸或安全威脅,取代了速度較慢且耗費磁碟空間的日誌管理工具。
數據科學家將 Doris 作為機器學習模型的即時特徵儲存庫。透過儲存預先計算的特徵與原始數據,系統在模型推論期間提供低延遲的特徵存取,確保 AI 預測基於最新的數據點。
他們需要建構穩健且低延遲的數據管線。Doris 透過單一統一系統取代複雜的 Lambda 架構,高效處理批次與串流數據攝取,簡化了技術棧。
他們需要支援標準 SQL 進行複雜分析任務的資料庫。Doris 為互動式儀表板與報表工具提供了所需效能,且無需學習專有的查詢語言。
他們需要為終端使用者提供即時洞察。Doris 使他們能夠建構高效能、面向使用者的分析功能,並隨著使用者群體的成長無縫擴展。
基於 Apache License 2.0 開源。可完全免費下載、修改並部署於任何環境,無任何授權費用。