<< Click to Display Table of Contents >> 详细配置参数 |
一个分布式数据集市系统中有两种配置文件,分别是本机属性配置 (Local Properties) 和全局属性配置(Global Properties)。
❖本机属性配置
本机属性配置文件是每个机器节点必须配有的属性文件。默认存储在 {bi.home}/bi.properties. 其中 bi.home 路径是指相对安装路径的 YH\Yonghong\bihome 目录。
属性 |
可选/必选 |
说明 |
---|---|---|
dc.io.handlers=1 |
可选 |
定义处理IO通讯的线程数。一般情况下,一个线程足够了。 |
dc.io.channels=2 |
可选 |
定义与其它机器节点通讯时,最大Socket 连接数。 |
dc.io.ip= |
必选 |
定义本机的IP,尤其在多网卡的时候。如果未定义,将试着从操作系统得出IP。 |
dc.node.types=mr |
必选 |
定义本机的机器节点类型, 其中m - Map Node, r - Reduce Node, n – Naming Node, c - Client Node。一般是这些值的组合。 |
dc.global.path=global_bi.properties |
必选 |
定义各个机器节点共享的配置文件路径。 |
mem.serial.mem=700 |
可选 |
定义可分批给内存计算的内存块大小。单位为兆(M) |
mem.proc.count=2 |
可选 |
定义可用来做内存计算的CPU 个数。 |
dc.block.units=4 |
可选 |
定义一个数据块中数据单元的个数。这个数据块是内存装载或者从内存卸载的物理文件,分发到各个Map 节点当中。 |
dc.unit.rows= 262144 |
可选 |
定义一个数据单元的行数。这个数据块将形成为一个物理文件,分发到各个Map 节点当中。 |
dc.fs.naming.paths= |
必选 |
定义命名节点存储元数据的文件路径,这里的文件路径可以是多个,以';' 隔开。这样元数据文件有更高的安全性。请输入绝对路径。默认值是{bihome}/cloud/cloud/qry_naming.m |
dc.naming.waiting=30000 |
可选 |
定义启动Naming Node之后,至少等待多长时间才能切换到可用状态。 |
dc.naming.maps=1 |
可选 |
定义启动命名节点之后,至少有多少个活着的Map节点才能切换到可用状态。 |
dc.naming.reds=1 |
可选 |
定义启动命名节点之后,至少有多少个活着的Reduce节点才能切换到可用状态。 |
dc.naming.check.file=true |
可选 |
定义启动命名节点之后,要不要确保元数据正确之后才切换到可用状态。所谓正确的元数据,是指这些元数据包含的文件夹和文件都是可用的。 |
dc.fs.sub.path= |
必选 |
定义Map节点或Reduce节点存储元数据的文件路径。请输入决定路径。默认值是默认值是{bihome}/cloud/cloud/qry_sub.m |
dc.fs.physical.path= |
必选 |
定义Map节点或Reduce节点存储物理数据的文件夹。请输入决定路径。默认值是默认值是{bihome}/cloud/cloud |
dc.col.cache.count=20 |
可选 |
定义每种列存储类型的最大内存缓存个数。 |
dc.data.debug=false |
可选 |
定义是否输出数据的调试信息。 |
dc.inverted.supported=false |
可选 |
定义是否尝试生成列索引,以加快性能。 |
dc.inverted.ratio=3.1 |
可选 |
定义在尝试生成列索引的时候,平均每行的索引大小。 |
dc.buf.cache.count=10 |
可选 |
定义通信使用的数据缓冲区的缓存个数 |
dc.float.frags=4 |
可选 |
单精度浮点数入集市保留的小数位数。 |
dc.double.frags=4 |
可选 |
双精度浮点数入集市保留的小数位数。 |
dc.mr.debug=false |
可选 |
执行Map, Reduce任务的时候,每隔20秒打印Map, Reduce的执行情况。 |
dc.orderby.limit=500000 |
可选 |
支持排序的最大分组数。 |
map.aggr.parallel=false |
可选 |
是否在Map端对一个zb文件按分片、Hash分区并行处理。 |
red.aggr.parallel=true |
可选 |
是否在Reduce端按Hash分区并行处理。 |
map.part.size=4 |
可选 |
Map端hash分区的个数。 |
red.part.size=32 |
可选 |
Reduce端Hash分区的个数。 |
aggr.timeout=600000 |
可选 |
并行处理等待相关线程结束处理的超时时间。 |
parallel.min.groups=10000 |
可选 |
Reduce端最小需要并行的分组数。 |
其中标有可选属性在系统中有默认值,默认值等于第一列描述中的符合后面的结果。
❖全局属性配置
全局属性配置文件是存储了所有机器群共享的属性文件。默认存储在 {bi.home}/global_bi.properties. 其中 bi.home 路径是指节点的安装路径 YH\Yonghong\bihome 目录。
属性 |
可选/必选 |
说明 |
---|---|---|
dc.io.local=true |
可选 |
标注是单机还是多机版。默认是本地单机版。 |
dc.cache.max=5242880 |
可选 |
定义最大的内存缓存,超过这么多的数据被读入/ 写出,将发起至少一次物理读入/ 写出。 |
dc.io.timeout=15000 |
可选 |
定义两个机器节点之间通讯的最大等待时间。 |
dc.io.block=131072 |
可选 |
定义Socket 读写的缓存大小。 |
dc.io.sport=5083 |
可选 |
定义各个机器节点之间通讯的端口。 |
dc.io.fport=5066 |
可选 |
定义各个机器节点之间传输文件的端口。 |
dc.node.naming= |
必选 |
定义命名节点(Naming Node)的IP,如果是本地单机版,则无需定义。 |
dc.fs.dup=2 |
可选 |
定义文件系统的复制份数。 |
dc.update.period=15000 |
可选 |
定义心跳的周期。每个心跳周期,Map/Reduce 节点将发出一份报告给命名节点(Naming Node),申明自己的存活。 |
dc.task.timeout=60000 |
可选 |
定义一个任务完成的最大时间。如果超出这么长时间还未完成,系统将试着重新分配任务。 |
dc.nodes.pin= |
可选 |
定义各个机器节点之间通讯时所用的Pin码。如果Pin为空,则不会检查Pin。默认为空。 |
dc.doctor.repair=false |
可选 |
定义是否需要恢复丢失的文件。 |
dc.mismatch.remove=false |
可选 |
定义是否删除Meta中不存在的zb文件。 |
file.sync.interval=3600000 |
可选 |
定义全量更新元数据文件的时间间隔。 |
global.data.timeout=600000 |
可选 |
定义获取维度表的超时时间。 |
zk.conn.timeout=120000 |
可选 |
定义客户端到ZooKeeper集群节点间通讯的超时时间。 |
zk.conn.hosts |
可选 |
定义客户端到ZooKeeper集群的地址,多个地址以逗号分隔,如zk.conn.hosts=192.168.3.138:2181,192.168.3.138:2182,192.168.3.174:2181 |
dc.use.backup=false |
可选 |
定义是否启用Naming的备份机制。 |
dc.backup.max.bytes=1048576 |
可选 |
定义启用Naming备份机制后,每次Naming节点到ZooKeeper最大可传输日志的大小。 |