<< Click to Display Table of Contents >> 创建自服务数据集复制链接 |
1.创建自服务数据集
点击数据集页面左侧顶部的图标,进入新建数据集页面。点击自服务数据集进入创建页面。
2.自服务数据集数据编辑区域
进入自服务数据集创建界面后,自服务数据集的数据编辑区域整体布局如下:
2.1 添加输入节点
自服务数据集左侧资源树上有数据和操作两个部分,两个部分可以互相切换。
•当选项卡为数据时,可以以拖动左侧项到右侧空白区域的方式添加数据节点,具体参考添加数据节点 ;
•当选项卡为操作时,可以以拖动左侧项到右侧空白区域的方式添加如下操作节点:
(具体参考操作节点各自的介绍,包括关联、抽样、排序、透视表、逆透视表、分组和汇总、自循环列、镜像和去重)
2.2 数据集结果节点
数据集结果节点是所有节点数据处理的终结点,数据集结果节点只能有一个输入。
节点右键菜单:重命名、添加备注。
2.3 节点编辑
支持对节点进行如下操作:
操作 |
说明 |
---|---|
选中 |
单击可以选中单个节点,也可以按 Ctrl 键对节点进行多选。或者拖拽鼠标框选单个或多个节点。 |
打开数据集 |
输入节点是数据集时,选中节点,右键菜单选择打开,可以直接打开数据集进行编辑,也可以双击打开数据集进行编辑。 |
重命名 |
节点右键菜单点击重命名,可以对节点进行重命名。 |
添加备注/编辑备注 |
节点右键菜单点击添加备注/编辑备注,可以对节点进行添加/编辑备注。参考备注章节。 |
在源始的输入节点,选中节点,右键菜单选择替换数据集,弹出弹框 选择用来替换当前数据集的数据集,目前多维数据集、流式数据集和组合数据集不可用于替换,不可选的数据集置灰。如果用来替换的数据集列有变化会提示。 |
|
复制 |
选中输入节点可以复制。 |
删除 |
选中节点,鼠标右击,在右键菜单中点击删除,或者使用鼠标框选一个或多个节点点击键盘 Delete键进行删除,能够删除节点以及节点的输入、输出连线,数据集结果节点除外。 |
刷新 |
点击节点右键刷新,可以更新同步数据。 |
展示SQL语句 |
如果一个节点的所有输入节点和节点自身都勾选了数据库内计算,则可以通过展示SQL语句,查看这个节点实际上进行数据库内计算时所执行的SQL语句。 |
刷新元数据 |
刷新整个自服务数据集的元数据。用户点击刷新元数据按钮时,右侧区域将切换到数据集结果节点的元数据tab。如果数据有变化(增加或删除),点击该按钮数据会进行同步刷新。 在表达式、过滤等位置引用的列如果发生变化,刷新数据时会提示 “ 数据集的列如果发生变化可能会导致表达式列、层次或行过滤不可用,是否清空表达式列、层次和行过滤? ”,否则不会提示。本产品默认字符类型、字符串类型、字节类型、布尔类型、日期类型、时间类型、时间戳类型的数据段存放在维度目录下,其他类型数据段存放在度量目录下。 |
2.4 节点连线
•自动连线
以每个节点输入端或输出端所在边框的中点为圆心,在半径为 75px 半圆内区域会触发和其它节点的自动连线。
•手动连线
不能自动连线的部分,都可以进行手动连线。手动连线时,当鼠标移至输出端时,空心圆点变为实心并放大,鼠标为十字同时会出现提示框;此时按住鼠标并移至下一节点的输入端时,下一节点的输入端圆点也会变为实心;如移动到输出端则该圆点也放大。
•删除连线
可以点击连线上的删除图标进行删除;删除节点也会自动删除左右的连线。
➢注意:输入节点只能连接一个输出节点,但镜像节点除外。
2.5 节点和连线的状态
1)无效节点
操作节点未设置合法的属性,数据集节点数据更新后未刷新,数据节点无法正常运作等都可能导致数据节点不可用,这时数据节点右下角会有红色感叹号标记。
可以参考如下方式来消除这个状态:
•双击或右键编辑,为操作节点配置正确的属性;
•刷新元数据或在节点上右键点击刷新,更新数据节点;
•根据提示对数据集进行改动使其可用。
2)不能下推数据库执行的橙色节点和橙色连线
橙色的节点表示此节点上有不能下推数据库执行的信息。
某个节点前面的线如果是橙色的,表示这个节点本身不能下推;如果是绿色的,则表示节点本身是可以下推的,但是节点上新增的信息不能下推。
示例1:如下图,联接节点前面的线是绿色的,因为联接这个操作本身是可以下推数据库执行的。但是联接节点上新加了一个五分钟的表达式,这个表达式不能下推数据库执行,所以联接节点标识为橙色,表示此节点有不能下推的信息。后续镜像和数据集结果节点用到了五分钟这个表达式的原因,导致它们都不能下推数据库执行,所以这些节点及其前面的线也标识为橙色。
示例2:如下图,联接节点前面的线是绿色的,因为联接这个操作本身是可以下推数据库执行的。但是联接节点上新加了一个五分钟的表达式,这个表达式不能下推数据库执行,所以联接节点标识为橙色,表示此节点有不能下推的信息。后续分组和汇总以及数据集结果节点没有用到了五分钟这个表达式,这些节点上的信息全部能下推数据库执行,所以它们及其前面的线都是绿色的。
示例3:如下图,联接节点前面的线是橙色的,因为联接这个操作本身就是不可以下推数据库执行的(MySQL数据库,外部联接,不能下推数据库执行)。因为联接节点不能下推,导致镜像和数据集结果节点都不能下推数据库执行,所以这些节点及其前面的线也标识为橙色。
2.6 自动布局
默认情况下,数据集结果节点没有与输入节点连接时,【自动布局】为不可编辑的置灰状态,只有先将输入节点与数据集结果节点连接,自动布局才可使用。
点击自动布局,节点和节点之间的布局会根据既定算法优化,布局会更加合理美观。
布局前:
布局后,格式如下:
3.数据集编辑区数据治理
自服务数据集可以在每个操作节点中的元数据编辑区进行数据治理,也可以在最后输出结果节点的元数据编辑区进行数据治理。具体的数据治理说明参考数据治理。
•在自服务数据集的元数据区域,把鼠标移到字段上能看到字段的来源,方便追踪字段的原始节点: