
分散型データワークフロー管理
無料

Apache DolphinSchedulerは、高性能なデータパイプライン管理のために設計された分散型クラウドネイティブのワークフローオーケストレーションプラットフォームです。Airflowのような従来のスケジューラとは異なり、視覚的なDAG(有向非巡回グラフ)エディタと、単一障害点を排除するマルチマスター/マルチワーカーアーキテクチャを特徴としています。複雑なタスク依存関係、マルチテナンシー、高可用性をサポートしており、大規模なデータエンジニアリングチームに最適です。スケジューラを実行エンジンから分離することで、異種混合環境における数千もの同時実行データタスクに対して、堅牢なフォールトトレランスとリアルタイム監視を提供します。
直感的なドラッグ&ドロップインターフェースにより、エンジニアはオーケストレーションロジックのコードを書かずに複雑なデータパイプラインを構築できます。タスクの依存関係を視覚的にマッピングすることで、分岐、並列実行、条件付きロジックを容易に管理可能です。これによりパイプラインの保守時間が短縮され、ワークフロー構造が非技術者にも可視化されるため、コードのみの構成ツールと比較して導入障壁が大幅に低減されます。
DolphinSchedulerは、複数のマスターノードとワーカーノードがクラスター内で動作する分散型アーキテクチャを採用しています。この設計により高可用性が保証され、1つのマスターノードが故障しても他のノードが自動的にワークロードを引き継ぎます。単一スケジューラシステムよりも優れたスケーラビリティを提供し、パフォーマンスの低下やダウンタイムなしに数万の同時タスクを処理できるため、エンタープライズグレードのデータインフラに不可欠です。
マルチテナンシーによる厳格なリソース分離を提供し、異なる部門やチームが同じクラスターを安全に共有できます。タスクを特定のLinuxユーザーやリソースキューにマッピングすることで、あるチームのリソース負荷の高いジョブが他を圧迫することを防ぎます。これは、データエンジニアリングチームが共有インフラのコストと各ビジネスユニットの厳格なSLAを両立させる必要がある大規模組織において不可欠です。
Shell、Python、Spark、Flink、MapReduce、DataX、SQLなど、多種多様なタスクタイプを標準でサポートしています。この汎用性により、チームは異種混合のデータ処理ジョブを単一プラットフォーム内でオーケストレーションできます。これらのエンジンに対する標準化されたプラグインを提供することで、多様なビッグデータ技術の統合を簡素化し、カスタムのグルーコードの必要性を減らしてデータスタック全体のアーキテクチャを単純化します。
統合された監視機能により、CPU/メモリ使用量やログを含むタスク実行状況を詳細に可視化します。メール、Slack、DingTalk、WeChatを通じたカスタマイズ可能なアラートをサポートしています。タスクの失敗や期間制限の超過時に自動アラートがトリガーされるため、エンジニアは即座に対応可能です。このプロアクティブな監視は平均復旧時間(MTTR)を短縮し、本番環境における重要なデータパイプラインの信頼性を確保します。
データエンジニアはDolphinSchedulerを使用して、運用データベースからのデータ抽出、Sparkによる変換、データウェアハウスへのロードを行う日次ETLジョブを自動化します。依存関係管理と自動リトライにより、データの整合性を保証します。
プラットフォームチームは、ジョブスケジューリングをDolphinSchedulerにオフロードすることで、大規模なFlinkおよびSparkクラスターを管理します。クラスター全体のリソース割り当てを最適化し、ピーク時でも優先度の高い分析ジョブに必要な計算能力を確保します。
ハイブリッドスタックを持つ組織は、レガシーなSQLスクリプトと最新のPythonベースの機械学習パイプラインの橋渡しとしてこれを使用し、分散したデータ処理ツールに対して統一されたコントロールプレーンを提供します。
複雑で多段階のデータパイプラインを管理するための、信頼性が高くスケーラブルな方法を必要としています。DolphinSchedulerは、反復的なタスクを自動化し、データ品質を確保するためのオーケストレーション能力を提供します。
厳格なリソース分離とセキュリティを維持しながら、複数のビジネスユニット間で共有インフラを管理するための、高可用かつマルチテナントなソリューションを必要としています。
インフラの安定性と監視に重点を置いています。プラットフォームの分散型アーキテクチャと堅牢なアラート機能により、重要なデータサービスの稼働時間を維持するメリットを享受できます。
Apache License 2.0の下で提供されるオープンソースソフトウェアです。ライセンス料なしで、あらゆる環境において自由に使用、変更、デプロイが可能です。