第1章 DolphinScheduler简介
1.1 DolphinScheduler概述
Apache DolphinScheduler是一个新一代分布式大数据工作流任务调度系统,致力于“解决大数据任务之间错综复杂的依赖关系,整个数据处理开箱即用”。它以 DAG(有向无环图) 的方式将任务连接起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及 Kill任务等操作。目前已经有像IBM、腾讯、美团、360等400多家公司生产上使用。
1.2 DolphinScheduler核心架构
DolphinScheduler的主要角色如下:
-
MasterServer采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。
-
WorkerServer也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。
-
ZooKeeper服务,系统中的MasterServer和WorkerServer节点都通过ZooKeeper来进行集群管理和容错。
-
Alert服务,提供告警相关服务。
-
API接口层,主要负责处理前端UI层的请求。
-
UI,系统的前端页面,提供系统的各种可视化操作界面。
第2章 DolphinScheduler部署说明
2.1 软硬件环境要求
2.1.1 操作系统版本要求
操作系统 | 版本 |
---|---|
Red Hat Enterprise Linux | 7.0 及以上 |
CentOS | 7.0 及以上 |
Oracle Enterprise Linux | 7.0 及以上 |
Ubuntu LTS | 16.04 及以上 |
2.1.2 服务器硬件要求
CPU | 内存 | 网络 |
---|---|---|
4核+ | 8 GB+ | 千兆网卡 |
2.2 部署模式
DolphinScheduler支持多种部署模式,包括单机模式(Standalone)、伪集群模式(Pseudo-Cluster)、集群模式(Cluster)等。
2.2.1 单机模式
单机模式(standalone)模式下,所有服务均集中于一个StandaloneServer进程中,并且其中内置了注册中心Zookeeper和数据库H2。只需配置JDK环境,就可一键启动DolphinScheduler,快速体验其功能。
2.2.2 伪集群模式
伪集群模式(Pseudo-Cluster)是在单台机器部署 DolphinScheduler 各项服务,该模式下master、worker、api server、logger server等服务都只在同一台机器上。Zookeeper和数据库需单独安装并进行相应配置。
2.2.3 集群模式
集群模式(Cluster)与伪集群模式的区别就是在多台机器部署 DolphinScheduler各项服务,并且可以配置多个Master及多个Worker。
第3章 DolphinScheduler集群模式部署
3.1 集群规划
集群模式下,可配置多个Master及多个Worker。通常可配置2~3个Master,若干个Worker。由于集群资源有限,此处配置一个Master,三个Worker,集群规划如下。
node1 | master、 worker |
---|---|
node2 | worker |
node3 | worker |
3.2 前置准备工作
- 三台节点均需部署JDK(1.8+),并配置相关环境变量。
- 需部署数据库,支持MySQL(5.7+)或者PostgreSQL(8.2.15+)。
- 需部署Zookeeper(3.4.6+)。
- 三台节点均需安装进程管理工具包psmisc。
[bigdata@node1 ~]$ sudo yum install -y psmisc [bigdata@node2 ~]$ sudo yum install -y psmisc [bigdata@node3 ~]$ sudo yum install -y psmisc
3.3 解压DolphinScheduler安装包
1)上传DolphinScheduler安装包到node1节点的/opt/software目录
2)解压安装包到当前目录
注意:解压目录并非最终的安装目录
[bigdata@node1 software]$ tar -zxvf apache-dolphinscheduler-1.3.9-bin.tar.gz
3.4 初始化数据库
DolphinScheduler 元数据存储在关系型数据库中,故需创建相应的数据库和用户。
1)创建数据库
mysql> CREATE DATABASE dolphinscheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
2)创建用户
mysql> CREATE USER 'dolphinscheduler'@'%' IDENTIFIED BY 'dolphinscheduler';
注意:
若出现以下错误信息,表明新建用户的密码过于简单。
ERROR 1819 (HY000): Your password does not satisfy the current policy requirements
可提高密码复杂度或者执行以下命令降低MySQL密码强度级别。
mysql> set global validate_password_length=4; mysql> set global validate_password_policy=0;
3)赋予用户相应权限
mysql> GRANT ALL PRIVILEGES ON dolphinscheduler.* TO 'dolphinscheduler'@'%'; mysql> flush privileges;
4)修改数据源配置文件
进入DolphinScheduler解压目录
[bigdata@node1 apache-dolphinscheduler-1.3.9-bin]$ cd /opt/software/apache-dolphinscheduler-1.3.9-bin/
修改conf目录下的datasource.properties文件
[bigdata@node1 apache-dolphinscheduler-1.3.9-bin]$ vim conf/datasource.properties
修改内容如下
spring.datasource.driver-class-name=com.mysql.jdbc.Driver spring.datasource.url=jdbc:mysql://node1:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8 spring.datasource.username=dolphinscheduler spring.datasource.password=dolphinscheduler
5)拷贝MySQL驱动到DolphinScheduler的解压目录下的lib中
[bigdata@node1 apache-dolphinscheduler-1.3.9-bin]$ cp /opt/software/mysql-connector-java-5.1.27-bin.jar lib/
6)执行数据库初始化脚本
数据库初始化脚本位于DolphinScheduler解压目录下的script目录中,即/opt/software/ds/apache-dolphinscheduler-1.3.9-bin/script/。
[bigdata@node1 apache-dolphinscheduler-1.3.9-bin]$ script/create-dolphinscheduler.sh
3.5 配置一键部署脚本
修改解压目录下的conf/config目录下的install_config.conf文件
[bigdata@node1 apache-dolphinscheduler-1.3.9-bin]$ vim conf/config/install_config.conf
修改内容如下:
# postgresql or mysql dbtype="mysql" # db config # db address and port dbhost="ndoe1:3306" # db username username="dolphinscheduler" # database name dbname="dolphinscheduler" # db passwprd # NOTICE: if there are special characters, please use the \ to escape, for example, `[` escape to `\[` password="dolphinscheduler" # zk cluster zkQuorum="node1:2181,node2:2181,node3:2181" # Note: the target installation path for dolphinscheduler, please not config as the same as the current path (pwd) installPath="/opt/module/dolphinscheduler" # deployment user # Note: the deployment user needs to have sudo privileges and permissions to operate hdfs. If hdfs is enabled, the root directory needs to be created by itself deployUser="bigdata" # resource storage type: HDFS, S3, NONE resourceStorageType="HDFS" # resource store on HDFS/S3 path, resource file will store to this hadoop hdfs path, self configuration, please make sure the directory exists on hdfs and have read write permissions. "/dolphinscheduler" is recommended resourceUploadPath="/dolphinscheduler" # if resourceStorageType is HDFS,defaultFS write namenode address,HA you need to put core-site.xml and hdfs-site.xml in the conf directory. # if S3,write S3 address,HA,for example :s3a://dolphinscheduler, # Note,s3 be sure to create the root directory /dolphinscheduler defaultFS="hdfs://node1:8020" # resourcemanager port, the default value is 8088 if not specified resourceManagerHttpAddressPort="8088" # if resourcemanager HA is enabled, please set the HA IPs; if resourcemanager is single, keep this value empty yarnHaIps= # if resourcemanager HA is enabled or not use resourcemanager, please keep the default value; If resourcemanager is single, you only need to replace ds1 to actual resourcemanager hostname singleYarnIp="node2" # who have permissions to create directory under HDFS/S3 root path # Note: if kerberos is enabled, please config hdfsRootUser= hdfsRootUser="bigdata" # api server port apiServerPort="12345" # install hosts # Note: install the scheduled hostname list. If it is pseudo-distributed, just write a pseudo-distributed hostname ips="node1,node2,node3" # ssh port, default 22 # Note: if ssh port is not default, modify here sshPort="22" # run master machine # Note: list of hosts hostname for deploying master masters="node1" # run worker machine # note: need to write the worker group name of each worker, the default value is "default" workers="node1:default,node2:default,node3:default" # run alert machine # note: list of machine hostnames for deploying alert server alertServer="node1" # run api machine # note: list of machine hostnames for deploying api server apiServers="node1"
3.6 一键部署DolphinScheduler
1)启动Zookeeper集群
[bigdata@node1 apache-dolphinscheduler-1.3.9-bin]$ zk.sh start
2)一键部署并启动DolphinScheduler
[bigdata@node1 apache-dolphinscheduler-1.3.9-bin]$ ./install.sh
3)查看DolphinScheduler进程
--------- node1 ---------- 29139 ApiApplicationServer 28963 WorkerServer 3332 QuorumPeerMain 2100 DataNode 28902 MasterServer 29081 AlertServer 1978 NameNode 29018 LoggerServer 2493 NodeManager 29551 Jps --------- node2 ---------- 29568 Jps 29315 WorkerServer 2149 NodeManager 1977 ResourceManager 2969 QuorumPeerMain 29372 LoggerServer 1903 DataNode --------- node3 ---------- 1905 SecondaryNameNode 27074 WorkerServer 2050 NodeManager 2630 QuorumPeerMain 1817 DataNode 27354 Jps 27133 LoggerServer
4)访问DolphinScheduler UI
DolphinScheduler UI地址为http://node1:12345/dolphinscheduler
初始用户的用户名为:admin,密码为:dolphinscheduler123
3.7 DolphinScheduler启停命令
DolphinScheduler的启停脚本均位于其安装目录的bin目录下。
1)一键启停所有服务
./bin/start-all.sh ./bin/stop-all.sh
注意同Hadoop的启停脚本进行区分。
2)启停 Master
./bin/dolphinscheduler-daemon.sh start master-server ./bin/dolphinscheduler-daemon.sh stop master-server
3)启停 Worker
./bin/dolphinscheduler-daemon.sh start worker-server ./bin/dolphinscheduler-daemon.sh stop worker-server
4)启停 Api
./bin/dolphinscheduler-daemon.sh start api-server ./bin/dolphinscheduler-daemon.sh stop api-server
5)启停 Logger
./bin/dolphinscheduler-daemon.sh start logger-server ./bin/dolphinscheduler-daemon.sh stop logger-server
6)启停 Alertr
./bin/dolphinscheduler-daemon.sh start alert-server ./bin/dolphinscheduler-daemon.sh stop alert-server
第4章 DolphinScheduler入门
4.1 安全中心配置
安全中心主要有租户管理、用户管理、告警组管理、Worker分组管理、队列管理、令牌管理等功能。安全中心只有管理员账户才有操作权限。
4.1.1 队列管理
此处的队列对应的是Yarn调度器的资源队列。故队列概念只对跑在Yarn上的任务类型有效。此处创建出的队列,可供后续任务进行选择。需要注意的是,在DolphinScheduler中创建队列,并不会影响到Yarn调度器的队列配置。
此处可不创建队列。
4.1.2 租户管理
租户对应的是Linux系统用户,是Worker执行任务使用的用户。如果Worker所在节点没有这个用户,Worker会在执行任务时创建这个用户。
此处创建一个bigdata租户,如下图。
注: 租户编码:对应Worker执行任务所使用的用户名。 租户名称:用于在DolphinScheduler中显示。 队列:该租户提交Yarn任务时的默认队列。
4.1.3 用户管理
用户对应的是DolphinScheduler的用户,用于登录DolphinScheduler。用户分管理员用户和普通用户。默认情况下,管理员只有授权和用户管理等权限,而普通用户只有创建项目,定义工作流、执行工作流等权限。
此处创建一个普通用户bigdata,如下图。
注: 用户名:DolphinScheduler登录账户 租户:该用户关联的租户 队列:默认为租户所关联的队列。 邮件、手机号:主要用于告警通知。
4.1.4 告警组管理
告警组可包含多名用户,用于指定告警发送对象。
1)创建告警组
2)增加用户
4.1.5 Worker分组管理
在任务执行时,可以将任务分配给指定Worker组,最终由该组中的Worker节点执行该任务。默认情况下,所有Worker均位于default组。
此处可不做配置。
4.1.6 令牌管理
令牌用于通过接口访问DolphinScheduler各项服务时的用户验证。普通用户通过UI页面访问各项服务时,无需使用令牌。若需将DolphinScheduler与第三方服务进行集成,则需调用其接口,此时需使用令牌。
4.2 项目管理
4.2.1 切换用户
默认不使用管理员用户操作项目和工作流等,故需先切换到普通用户bigdata。
1)admin用户退出
2)使用bigdata用户登录
4.2.2 创建项目
4.2.3 查看项目
4.3 工作流基础配置
下图为工作流配置页面,共包含三个模快,分别为工作流定义、工作流实例和任务实例。
工作流定义:用于定义工作流,包括工作流各节点任务详情及各节点依赖关系等。
工作流实例:工作流每执行一次就会生成一个工作流示例。此处可查看正在运行的工作流以及已经完成的工作流。
任务实例:工作流中的一个节点任务,每执行一次就会生成一个任务实例。此处可用于查看正在执行的节点任务以及已经完成的节点任务。
4.3.1 工作流定义
工作流要求:工作流需包含三个Shell类型的任务节点,分别是A,B,C。三个任务的依赖关系如下图所示:
1)创建工作流
2)配置任务节点
(1)节点A
(2)节点B
(3)节点C
3)配置任务节点的依赖关系
4)保存工作流定义
4.3.2 提交执行工作流
1)上线工作流
工作流须上线之后才能执行。处于上线状态的工作流定义不可修改,如需修改,须先下线。
2)单次运行工作流
3)定时执行工作流
(1)点击定时
(2)配置定时规则
此处示例为每分钟执行一次
(3)定时管理
(4)定时上线
4.3.3 查看工作流实例
1)查看所有工作流实例
2)查看工作流执行状态
4.3.4 查看任务实例
1)查看所有任务实例
2)查看任务实例日志
第5章 DolphinScheduler进阶
5.1 工作流传参
DolphinScheduler支持对任务节点进行灵活的传参,任务节点可通过${参数名}引用参数值。
5.1.1 局部参数
局部参数是指只针对单个任务节点有效的参数。
1)修改helloworld工作流Node-A节点如下
2)保存工作流并运行,查看Node-A输出日志。
5.1.2 全局参数
全局参数是指针对整个工作流的所有任务节点都有效的参数。
1)修改helloworld工作流每个任务节点如下
(1)节点A配置
(2)节点B配置
(3)节点C配置
2)保存工作流,并设置全局参数
3)执行工作流,查看三个任务节点输出日志。
5.1.3 系统内置参数
DolphinScheduler提供了一些时间相关的系统参数,方便定时调度使用。
1)系统参数
参数 | 说明 |
---|---|
${system.biz.date} | 定时时间前一天,格式为 yyyyMMdd |
${system.biz.curdate}} | 定时时间,格式为 yyyyMMdd |
${system.datetime} | 定时时间,格式为 yyyyMMddHHmmss |
2)时间自定义参数
可通过时间自定义参数,设置任意格式、任意时间的日期。
a. 自定义日期格式
$[yyyyMMdd], $[HHmmss], $[yyyy-MM-dd]
b. 自定义时间
参数 | 说明 |
---|---|
$[add_months(yyyyMMdd,12*N)] | 后 N 年 |
$[add_months(yyyyMMdd,-12*N)] | 前 N 年 |
$[add_months(yyyyMMdd,N)] | 后 N 月 |
$[add_months(yyyyMMdd,-N)] | 前 N 月 |
$[yyyyMMdd+7*N] | 后 N 周 |
$[yyyyMMdd-7*N] | 前 N 周 |
$[yyyyMMdd+N] | 后 N 天 |
$[yyyyMMdd-N] | 前 N 天 |
$[HHmmss+N/24] | 后 N 小时 |
$[HHmmss-N/24] | 前 N 小时 |
$[HHmmss+N/24/60] | 后 N 分钟 |
$[HHmmss-N/24/60] | 前 N 分钟 |
3)配置示例
若执行的脚本需要一个格式为yyyy-MM-dd的前一天日期的参数,进行如下配置即可。
5.2 引用依赖资源
有些任务需要引用一些额外的资源,例如MR、Spark等任务需引用jar包,Shell任务需要引用其他脚本等。DolphinScheduler提供了资源中心来对这些资源进行统一管理。
下面以Shell任务为例,演示如何引用资源中心的其他脚本。
1)在资源中心创建脚本
2)配置Shell任务引用脚本
修改工作流,引用上述脚本
3)保存工作流并执行,查看对应节点输出日志。
5.3 告警通知
5.3.1 准备电子邮箱账户
如需使用DolphinScheduler的邮件告警通知功能,需要准备一个电子邮箱账号,并启用SMTP服务。
1)点击邮箱账号设置
2)开启SMTP服务
3)授权码是邮箱账号在第三方客户端登录的凭证,须谨记。
5.3.2 配置AlertServer
1)修改AlertServer配置文件/opt/module/dolphinscheduler/conf/alert.properties
[bigdata@node1 ~]$ vim /opt/module/dolphinscheduler/conf/alert.properties
2)配置以下参数
a. 不使用加密协议
#alert type is EMAIL/SMS alert.type=EMAIL # mail server configuration mail.protocol=SMTP mail.server.host=smtp.qq.com mail.server.port=25 mail.sender=*********@qq.com mail.user=*********@qq.com mail.passwd=************* # TLS mail.smtp.starttls.enable=false # SSL mail.smtp.ssl.enable=false mail.smtp.ssl.trust=smtp.exmail.qq.com
b. 使用STARTTLS加密协议
#alert type is EMAIL/SMS alert.type=EMAIL # mail server configuration mail.protocol=SMTP mail.server.host=smtp.qq.com mail.server.port=587 mail.sender=*********@qq.com mail.user=*********@qq.com mail.passwd=************* # TLS mail.smtp.starttls.enable=true # SSL mail.smtp.ssl.enable=false mail.smtp.ssl.trust=smtp.qq.com
c. 使用SSL加密协议
#alert type is EMAIL/SMS alert.type=EMAIL # mail server configuration mail.protocol=SMTP mail.server.host=smtp.qq.com mail.server.port=465 mail.sender=*********@qq.com mail.user=*********@qq.com mail.passwd=************* # TLS mail.smtp.starttls.enable=false # SSL mail.smtp.ssl.enable=true mail.smtp.ssl.trust=smtp.qq.com
注:各邮箱支持的加密协议:https://blog.csdn.net/wustzjf/article/details/52481309
5.3.3 测试
1)运行工作流
3)选择通知人
通知人可通过邮箱执行,也可通过通知组指定。
5.4 工作流失败重跑
若工作流执行到一半失败了,需要重新启动工作流。重新启动时可选择从起点开始执行,也可选择从断点开始执行。
1)模拟失败场景
a. 修改Node-A配置如下
b. 修改资源中心的test.sh文件如下
2)运行工作流
3)查看工作流实例
4)工作失败重跑
a. 从起点开始
b. 从断点开始
据不完全统计,目前已经有 400 + 家公司及机构采用 DolphinScheduler 在生产环境使用,以下是部分案例(排名不分先后)