加入标签

<< Click to Display Table of Contents >>

当前位置:  数据集市 > 数据抽取 > 从数据源抽取数据 

加入标签

Previous pageReturn to chapter overviewNext page

在调度任务中,新建作业,任务类型为增量导入数据,选择一个数据集,在脚本中通过 setMeta() 方法给入库的云文件加入标签,如下图脚本中所示。

SetMeta

关于按列分割,并行导入集市的功能,当用户勾选分割时,会自动弹出分割对话框。分割类型分为平均分割和分组分割,平均分割只能选择一个分割列,分割份数为整数,如:3。分组分割通过 Group By 进行分组,不能填写分割份数,但可以选择多个分割列。为了不影响导入数据的效率,建议分割列的列数不超过 10。选择分组分割,入集市的数据会自动按分组数据打 Meta,以方便对云文件夹中的云文件进行过滤。 Meta 中的 key 为分割列对应的列名 ,Meta 中的 value 为分割列对应的值。当用户不勾选分割时,云文件会按系统默认的设置进行生成。

注意:择分组分割,入集市的数据会自动按分组数据打 Meta,但是必须满足以下三个条件:

A.数据的总行数 > dc.unit.rows ( 默认为 262144)

B.分组的份数 <= dc.split.range ( 默认为 1000)

C.(数据的总行数 / 分组的份数) > dc.unit.rows ( 默认为 262144)