Join结果加速

<< Click to Display Table of Contents >>

当前位置:  数据集市 > 数据抽取 > 从数据源抽取数据 

Join结果加速

Previous pageReturn to chapter overviewNext page

在两个或多个数据集做join,增量导入入集市时,勾选“Join结果加速”选项,会将join计算从Client节点转移分摊到到各个Map节点进行,减小Client节点内存压力,提高运算效率。

当组合数据集和自服务数据集满足条件时,“Join结果加速”的选项可勾选,不满足条件时,置灰。

         join入集市选项

                                                 【图1:Join结果加速为可勾选状态】

 

满足Join结果加速的条件:

1、环境需大于一个Map节点,单Map节点或本地集市可勾选此功能,但执行报错。

2、组合数据集需要为join计算、自服务数据集需要结果前最后一个操作节点为“联接”,否则“Join结果加速”置灰不可选。

                 join入集市自服务数据集

                                                 【图2】

 

3、来自同一数据库的两个或多个sql数据集做join时,要保证sql不会下推到数据库计算,否则“Join结果加速”置灰不可选。

                 join入集市不merge sql

                                                 【图3】

 

4、只支持单层join,不支持多层join加速入集市,例(A1 join A2)join (B1 join B2)【注:join两边都是子查询,属于多层】,多层join时,Join结果加速置灰不可选。

                 join入集市多层join

                                                 【图4:此图为多层join】

 

勾选“join结果加速”后,只剩“追加”功能可选。

         join入集市追加

                                                 【图5】

 

参数:

join.grid.transmit.timeout

执行任务时分发和传输数据的时间限制,默认1200000毫秒,超时会报错,任务停止,可在bi.properties中配置。