Linux服务器上的集群部署过程

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 安装和配置 > Python安装、启动 

Linux服务器上的集群部署过程

复制链接

1.软件配置

在运行DM-Engine之前,必须先进行必要的配置。配置文件路径为DM-Engine/conf/SysConfig.yaml,其中主要可配置项如下。

Agent:
# The hostname or ip of server.
 host: &host 127.0.0.1
 port: 8099
 CPU: 4
 # RAM size must be specified integer as bytes (b), kibibytes (k), mebibytes (m), gibibytes (g),
 # tebibytes (t), or pebibytes(p). E.g. 50b, 100k, or 250m.
 RAM: 4000m
#  Optional:EDGE, WORKER, MASTER, AUTO; If you don't set the role, it will be selected automatically.
 role: AUTO
 username: yonghong
 password: yh_dme_1239
 introducer:
   host: 127.0.0.1
   port: 18100
   username: yonghong
   password: yh_dme_1239
 env:
    SPARK_LOCAL_IP: *host
    SPARK_MASTER_HOST: *host
EDGE:
 max_concurrent: 200
 runtime_data_flush_period: 300
 task_timeout: 900
 # Setting how long time the session or experiment expire.
 # The value must integer,and time unit may be S(second), M(minute),
 # H(hour), or D(day)
 session_expired_time: 1D
#MASTER:
#  must_start: zookeeper,spark.master
#  zookeeper:
#      zoo.cfg:
#         clientPort: 38099

#WORKER:
#   started:
#   must_start: spark.worker
#   spark:
#      env:
#        SPARK_MASTER_HOST: 127.0.0.1

#        SPARK_MASTER_PORT: 7077

Agent所属配置项说明:

host: 主机名,本机ip地址,需要设置为服务器实际使用的ip。

port: 服务端口号,范围[0, 65535],如果启动时提示port被占用,请更换一个端口号,重启服务即可。

CPU: 分配的 core个数。

RAM: 分配的内存量。

role: 本DM-Engine节点的角色,默认为AUTO模式即根据现有集群配置自动分配节点角色;也可以指定为EDGE、MASTER、WORKER等一种或多种角色。

username、password: 用户名、密码,用于其他DM-Engine节点与本节点组网通信时认证使用。

introducer所属配置项指定的是现有集群上任意节点的 host、port、username、password;如果该系列配置项被设置,DM-Engine在启动时将按该配置连接集群上节点并进行组网;注意,如果本节点为集群第一个节点,并不需要设置该introducer配置项,将其注释掉即可。

EDGE所属配置项说明:

max_concurrent: 指定服务允许的最大任务并发数,一般并发数不宜超过CPU逻辑核数,当值为auto时最大并发数等于CPU核数,也可以根据需要设置为其它大于0的整数。

runtime_data_flush_period: 缓存数据刷新周期,单位为秒。

task_timeout: 单个节点任务等待收取前置任务数据的超时时间,单位为秒。

session_expired_time: 实验会话的超时时间,默认值为1天。

MASTER所属配置项说明:

must_start: 指定必须启动的组件,可选值为“zookeeper”、“spark.master”。

zookeeper: 设置zookeeper相关的配置,都是zoo.conf的标准参数,格式参考配置示例。

spark: 设置spark相关环境变量的配置项,格式参考配置示例;

WORKER所属配置项说明:

must_start: 指定必须启动的组件,目前可选值只有一个“spark.master”。

spark: 设置spark相关环境变量的配置项,都是spark-env.sh的标准参数,格式参考配置示例。

2.DM-Engine启动

切换到DM-Engine/bin目录,执行如下命令即可启动:

sh run.sh  

注意:

执行此命令的当前工作目录必须为bin,否则软件无法运行。

3.第三方工具包安装/更新

详见可参考Linux服务器上的单机部署过程下的第三方工具安装/更新