
Оркестратор потоков данных
Бесплатно

Apache DolphinScheduler — это распределенная облачная платформа для оркестрации рабочих процессов, предназначенная для управления высокопроизводительными конвейерами данных. В отличие от традиционных планировщиков, таких как Airflow, она оснащена визуальным редактором DAG (направленных ациклических графов) и архитектурой multi-master/multi-worker, исключающей единые точки отказа. Платформа поддерживает сложные зависимости задач, мультиарендность и высокую доступность, что делает её идеальной для крупных команд инженеров данных. Разделение планировщика и движка выполнения обеспечивает надежную отказоустойчивость и мониторинг тысяч параллельных задач в гетерогенных средах.
Интуитивно понятный интерфейс drag-and-drop позволяет инженерам создавать сложные конвейеры данных без написания кода для логики оркестрации. Визуальное отображение зависимостей упрощает управление ветвлением, параллельным выполнением и условной логикой. Это сокращает время на обслуживание конвейеров и делает структуру рабочих процессов прозрачной для нетехнических специалистов, значительно снижая порог входа по сравнению с инструментами, требующими только написания кода.
DolphinScheduler использует децентрализованную архитектуру, где несколько master и worker узлов работают в кластере. Это обеспечивает высокую доступность: при сбое одного master-узла другие автоматически берут на себя нагрузку. Такая архитектура превосходит системы с одним планировщиком по масштабируемости, позволяя обрабатывать десятки тысяч параллельных задач без снижения производительности или простоев, что критически важно для корпоративной инфраструктуры данных.
Платформа обеспечивает строгую изоляцию ресурсов через мультиарендность, позволяя разным отделам или командам безопасно использовать один кластер. Привязывая задачи к конкретным пользователям Linux и очередям ресурсов, DolphinScheduler гарантирует, что ресурсоемкие задания одной команды не повлияют на работу других. Это необходимо для крупных организаций, где команды инженеров данных должны балансировать между затратами на общую инфраструктуру и строгими SLA по производительности для отдельных бизнес-подразделений.
Встроенная поддержка множества типов задач, включая Shell, Python, Spark, Flink, MapReduce, DataX и SQL. Эта универсальность позволяет командам оркестровать гетерогенные задания обработки данных в рамках одной платформы. Предоставление стандартизированных плагинов для этих движков упрощает интеграцию разнообразных технологий больших данных, уменьшая необходимость в написании кастомного связующего кода и упрощая архитектуру стека данных в целом.
Интегрированный мониторинг предоставляет детальную видимость выполнения задач, включая использование CPU/памяти и логи. Система поддерживает настраиваемые оповещения через email, Slack, DingTalk и WeChat. При сбое задачи или превышении порога длительности отправляются автоматические уведомления, позволяя инженерам реагировать немедленно. Такой проактивный мониторинг сокращает среднее время восстановления (MTTR) и обеспечивает надежность критически важных конвейеров данных в производственных средах.
Инженеры данных используют DolphinScheduler для автоматизации ежедневных ETL-заданий, которые извлекают данные из операционных баз, преобразуют их с помощью Spark и загружают в хранилище данных. Это обеспечивает согласованность данных за счет управления зависимостями и автоматических повторных попыток.
Платформенные команды управляют массивными кластерами Flink и Spark, перенося планирование заданий на DolphinScheduler. Это оптимизирует распределение ресурсов в кластере, гарантируя, что приоритетные аналитические задачи получают необходимые вычислительные мощности в часы пиковой нагрузки.
Организации с гибридными стеками используют платформу для объединения устаревших SQL-скриптов и современных ML-конвейеров на Python, предоставляя единую панель управления для разрозненных инструментов обработки данных.
Нуждаются в надежном и масштабируемом способе управления сложными многоэтапными конвейерами данных. DolphinScheduler предоставляет возможности оркестрации для автоматизации повторяющихся задач и обеспечения качества данных.
Требуют высокодоступного решения с поддержкой мультиарендности для управления общей инфраструктурой между несколькими бизнес-подразделениями при сохранении строгой изоляции ресурсов и безопасности.
Фокусируются на стабильности инфраструктуры и мониторинге. Они получают выгоду от децентрализованной архитектуры платформы и надежных возможностей оповещения для поддержания работоспособности критически важных сервисов данных.
Программное обеспечение с открытым исходным кодом, распространяемое по лицензии Apache License 2.0. Полностью бесплатно для использования, модификации и развертывания в любой среде без лицензионных отчислений.