详细配置参数

<< Click to Display Table of Contents >>

当前位置:  数据集市 > MPP > 配置要求 

详细配置参数

Previous pageReturn to chapter overviewNext page

一个分布式数据集市系统中有两种配置文件,分别是本机属性配置 (Local Properties) 和全局属性配置(Global Properties)。

 

本机属性配置

本机属性配置文件是每个机器节点必须配有的属性文件。默认存储在 {bi.home}/bi.properties. 其中 bi.home 路径是指相对安装路径的 YH\Yonghong\bihome 目录。

属性

可选/必选

说明

dc.io.handlers=1

可选

定义处理IO通讯的线程数。一般情况下,一个线程足够了。

dc.io.channels=2

可选

定义与其它机器节点通讯时,最大Socket 连接数。

dc.io.ip=

必选

定义本机的IP,尤其在多网卡的时候。如果未定义,将试着从操作系统得出IP。

dc.node.types=mr

必选

定义本机的机器节点类型, 其中m - Map Node, r - Reduce Node, n – Naming Node, c - Client Node。一般是这些值的组合。

dc.global.path=global_bi.properties

必选

定义各个机器节点共享的配置文件路径。

mem.serial.mem=700

必选

定义可分批给内存计算的内存块大小。单位为兆(M)

mem.proc.count=2

必选

定义可用来做内存计算的CPU 个数。

dc.block.units=4

可选

定义一个数据块中数据单元的个数。这个数据块是内存装载或者从内存卸载的物理文件,分发到各个Map 节点当中。

dc.unit.rows= 262144

可选

定义一个数据单元的行数。这个数据块将形成为一个物理文件,分发到各个Map 节点当中。

dc.fs.naming.paths=

必选

定义命名节点存储元数据的文件路径,这里的文件路径可以是多个,以';' 隔开。这样元数据文件有更高的安全性。请输入绝对路径。默认值是{bihome}/cloud/cloud/qry_sub.m

dc.naming.waiting=30000

可选

定义启动Naming Node之后,至少等待多长时间才能切换到可用状态。

dc.naming.maps=1

可选

定义启动命名节点之后,至少有多少个活着的Map节点才能切换到可用状态。

dc.naming.reds=1

可选

定义启动命名节点之后,至少有多少个活着的Reduce节点才能切换到可用状态。

dc.naming.check.file=true

可选

定义启动命名节点之后,要不要确保元数据正确之后才切换到可用状态。所谓正确的元数据,是指这些元数据包含的文件夹和文件都是可用的。

dc.fs.sub.path=

必选

定义Map节点或Reduce节点存储元数据的文件路径。请输入决定路径。默认值是默认值是{bihome}/cloud/cloud/qry_sub.m

dc.fs.physical.path=

必选

定义Map节点或Reduce节点存储物理数据的文件夹。请输入决定路径。默认值是默认值是{bihome}/cloud/cloud

dc.col.cache.count=20

可选

定义每种列存储类型的最大内存缓存个数。

dc.data.debug=false

可选

定义是否输出数据的调试信息。

dc.inverted.supported=false

可选

定义是否尝试生成列索引,以加快性能。

dc.inverted.ratio=3.1

可选

定义在尝试生成列索引的时候,平均每行的索引大小。

dc.buf.cache.count=10

可选

定义通信使用的数据缓冲区的缓存个数

dc.float.frags=4

可选

单精度浮点数入集市保留的小数位数。

dc.double.frags=4

可选

双精度浮点数入集市保留的小数位数。

dc.mr.debug=false

可选

执行Map, Reduce任务的时候,每隔20秒打印Map, Reduce的执行情况。

dc.orderby.limit=500000

可选

支持排序的最大分组数。

map.aggr.parallel=false

可选

是否在Map端对一个zb文件按分片、Hash分区并行处理。

red.aggr.parallel=true

可选

是否在Reduce端按Hash分区并行处理。

map.part.size=4

可选

Map端hash分区的个数。

red.part.size=32

可选

Reduce端Hash分区的个数。

aggr.timeout=600000

可选

并行处理等待相关线程结束处理的超时时间。

parallel.min.groups=10000

可选

Reduce端最小需要并行的分组数。

其中标有可选属性在系统中有默认值,默认值等于第一列描述中的符合后面的结果。

 

全局属性配置

全局属性配置文件是存储了所有机器群共享的属性文件。默认存储在 {bi.home}/global_bi.properties. 其中 bi.home 路径是指节点的安装路径 YH\Yonghong\bihome 目录。

属性

可选/必选

说明

dc.io.local=true

可选

标注是单机还是多机版。默认是本地单机版。

dc.cache.max=5242880

可选

定义最大的内存缓存,超过这么多的数据被读入/ 写出,将发起至少一次物理读入/ 写出。

dc.io.timeout=15000

可选

定义两个机器节点之间通讯的最大等待时间。

dc.io.block=131072

可选

定义Socket 读写的缓存大小。

dc.io.sport=5083

可选

定义各个机器节点之间通讯的端口。

dc.io.fport=5066

可选

定义各个机器节点之间传输文件的端口。

dc.node.naming=

必选

定义命名节点(Naming Node)的IP,如果是本地单机版,则无需定义。

dc.fs.dup=2

可选

定义文件系统的复制份数。

dc.update.period=15000

可选

定义心跳的周期。每个心跳周期,Map/Reduce 节点将发出一份报告给命名节点(Naming Node),申明自己的存活。

dc.task.timeout=60000

可选

定义一个任务完成的最大时间。如果超出这么长时间还未完成,系统将试着重新分配任务。

dc.nodes.pin=

可选

定义各个机器节点之间通讯时所用的Pin码。如果Pin为空,则不会检查Pin。默认为空。

dc.doctor.repair=false

可选

定义是否需要恢复丢失的文件。

dc.mismatch.remove=false

可选

定义是否删除Meta中不存在的zb文件。

file.sync.interval=3600000

可选

定义全量更新元数据文件的时间间隔。

global.data.timeout=600000

可选

定义获取维度表的超时时间。

zk.conn.timeout=120000

可选

定义客户端到ZooKeeper集群节点间通讯的超时时间。

zk.conn.hosts

可选

定义客户端到ZooKeeper集群的地址,多个地址以逗号分隔,如zk.conn.hosts=192.168.3.138:2181,192.168.3.138:2182,192.168.3.174:2181

dc.use.backup=false

可选

定义是否启用Naming的备份机制。

dc.backup.max.bytes=1048576

可选

定义启用Naming备份机制后,每次Naming节点到ZooKeeper最大可传输日志的大小。