
분산 데이터 워크플로우 오케스트레이터
무료

Apache DolphinScheduler는 고성능 데이터 파이프라인 관리를 위해 설계된 분산형 클라우드 네이티브 워크플로우 오케스트레이션 플랫폼입니다. Airflow와 같은 기존 스케줄러와 달리, 시각적 DAG(Directed Acyclic Graph) 편집기와 단일 장애 지점을 제거한 멀티 마스터/멀티 워커 아키텍처를 특징으로 합니다. 복잡한 작업 종속성, 멀티 테넌시 및 고가용성을 지원하여 대규모 데이터 엔지니어링 팀에 이상적입니다. 스케줄러와 실행 엔진을 분리함으로써 이기종 환경 전반에서 수천 개의 동시 데이터 작업에 대해 강력한 내결함성과 실시간 모니터링을 제공합니다.
직관적인 드래그 앤 드롭 인터페이스를 통해 엔지니어는 오케스트레이션 로직을 코딩하지 않고도 복잡한 데이터 파이프라인을 구축할 수 있습니다. 작업 종속성을 시각적으로 매핑하여 분기, 병렬 실행 및 조건부 로직을 쉽게 관리할 수 있습니다. 이는 파이프라인 유지 관리 시간을 단축하고 비기술적 이해관계자에게 워크플로우 구조를 투명하게 공개하여 코드 기반 구성 도구보다 진입 장벽을 크게 낮춥니다.
DolphinScheduler는 여러 마스터 및 워커 노드가 클러스터에서 작동하는 분산형 아키텍처를 채택합니다. 이 설계는 고가용성을 보장하며, 마스터 노드 장애 시 다른 노드가 자동으로 워크로드를 인계받습니다. 단일 스케줄러 시스템보다 뛰어난 확장성을 제공하여 성능 저하나 가동 중단 없이 수만 개의 동시 작업을 처리할 수 있으며, 이는 엔터프라이즈급 데이터 인프라에 필수적입니다.
이 플랫폼은 멀티 테넌시를 통해 엄격한 리소스 격리를 제공하여 여러 부서나 팀이 동일한 클러스터를 안전하게 공유할 수 있도록 합니다. 작업을 특정 Linux 사용자 및 리소스 큐에 매핑함으로써 한 팀의 리소스 집약적인 작업이 다른 팀의 작업을 방해하지 않도록 보장합니다. 이는 데이터 엔지니어링 팀이 공유 인프라 비용과 개별 비즈니스 단위의 엄격한 성능 SLA 간의 균형을 맞춰야 하는 대규모 조직에 필수적입니다.
Shell, Python, Spark, Flink, MapReduce, DataX, SQL 등 다양한 작업 유형을 즉시 지원합니다. 이러한 범용성을 통해 팀은 단일 플랫폼 내에서 이기종 데이터 처리 작업을 오케스트레이션할 수 있습니다. 이러한 엔진에 대한 표준화된 플러그인을 제공함으로써 다양한 빅데이터 기술 통합을 단순화하고, 사용자 정의 글루 코드(glue code)의 필요성을 줄이며 전체 데이터 스택 아키텍처를 간소화합니다.
통합 모니터링은 CPU/메모리 사용량 및 로그를 포함하여 작업 실행에 대한 세부적인 가시성을 제공합니다. 이메일, Slack, DingTalk, WeChat을 통한 사용자 정의 알림을 지원합니다. 작업 실패나 지속 시간 임계값 초과 시 자동 알림이 트리거되어 엔지니어가 즉시 대응할 수 있습니다. 이러한 사전 모니터링은 평균 복구 시간(MTTR)을 단축하고 프로덕션 환경에서 중요한 데이터 파이프라인의 신뢰성을 보장합니다.
데이터 엔지니어는 DolphinScheduler를 사용하여 운영 데이터베이스에서 데이터를 추출하고, Spark를 사용하여 변환한 뒤 데이터 웨어하우스에 로드하는 일일 ETL 작업을 자동화합니다. 종속성 관리와 자동 재시도를 통해 데이터 일관성을 보장합니다.
플랫폼 팀은 작업 스케줄링을 DolphinScheduler로 오프로드하여 대규모 Flink 및 Spark 클러스터를 관리합니다. 클러스터 전반의 리소스 할당을 최적화하여 피크 시간대에 우선순위가 높은 분석 작업이 필요한 컴퓨팅 파워를 확보하도록 보장합니다.
하이브리드 스택을 사용하는 조직은 이를 통해 레거시 SQL 스크립트와 최신 Python 기반 머신러닝 파이프라인 간의 격차를 해소하며, 이질적인 데이터 처리 도구에 대한 통합 제어 평면을 제공합니다.
복잡한 다단계 데이터 파이프라인을 관리할 수 있는 안정적이고 확장 가능한 방법이 필요합니다. DolphinScheduler는 반복적인 작업을 자동화하고 데이터 품질을 보장하는 오케스트레이션 성능을 제공합니다.
엄격한 리소스 격리와 보안을 유지하면서 여러 비즈니스 단위에 걸쳐 공유 인프라를 관리할 수 있는 고가용성 멀티 테넌트 솔루션이 필요합니다.
인프라 안정성과 모니터링에 중점을 둡니다. 플랫폼의 분산 아키텍처와 강력한 알림 기능을 활용하여 중요한 데이터 서비스의 가동 시간을 유지합니다.
Apache License 2.0에 따라 라이선스가 부여된 오픈 소스 소프트웨어입니다. 라이선스 비용 없이 모든 환경에서 자유롭게 사용, 수정 및 배포할 수 있습니다.