创建自服务数据集

<< Click to Display Table of Contents >>

当前位置:  数据准备 > 数据集 > 自服务数据集 

创建自服务数据集

复制链接

1.创建自服务数据集

点击数据集页面左侧顶部的Add_icon图标,进入新建数据集页面。点击自服务数据集进入创建页面。

selfService

2.自服务数据集数据编辑区域

进入自服务数据集创建界面后,自服务数据集的数据编辑区域整体布局如下:

selfService_setting

2.1 添加输入节点

自服务数据集左侧资源树上有数据和操作两个部分,两个部分可以互相切换。

Query_self_tab

当选项卡为数据时,可以以拖动左侧项到右侧空白区域的方式添加数据节点,具体参考添加数据节点

当选项卡为操作时,可以以拖动左侧项到右侧空白区域的方式添加如下操作节点:

(具体参考操作节点各自的介绍,包括关联抽样排序透视表逆透视表分组和汇总自循环列镜像去重

Query_self_operation

2.2 数据集结果节点

Query_self_node_right_menu_2

数据集结果节点是所有节点数据处理的终结点,数据集结果节点只能有一个输入。

节点右键菜单:重命名、添加备注。

2.3 节点编辑

Query_self_node_right_menu

支持对节点进行如下操作:

操作

说明

选中

单击可以选中单个节点,也可以按 Ctrl 键对节点进行多选。或者拖拽鼠标框选单个或多个节点。

打开数据集

输入节点是数据集时,选中节点,右键菜单选择打开,可以直接打开数据集进行编辑,也可以双击打开数据集进行编辑。

重命名

节点右键菜单点击重命名,可以对节点进行重命名。

添加备注/编辑备注

节点右键菜单点击添加备注/编辑备注,可以对节点进行添加/编辑备注。参考备注章节。

替换数据集

在源始的输入节点,选中节点,右键菜单选择替换数据集,弹出弹框

queryshot7

选择用来替换当前数据集的数据集,目前多维数据集、流式数据集和组合数据集不可用于替换,不可选的数据集置灰。如果用来替换的数据集列有变化会提示。

queryshot8

复制

选中输入节点可以复制。

删除

选中节点,鼠标右击,在右键菜单中点击删除,或者使用鼠标框选一个或多个节点点击键盘 Delete键进行删除,能够删除节点以及节点的输入、输出连线,数据集结果节点除外。

刷新

点击节点右键刷新,可以更新同步数据。

展示SQL语句

如果一个节点的所有输入节点和节点自身都勾选了数据库内计算,则可以通过展示SQL语句,查看这个节点实际上进行数据库内计算时所执行的SQL语句。

刷新元数据

刷新整个自服务数据集的元数据。用户点击刷新元数据按钮时,右侧区域将切换到数据集结果节点的元数据tab。如果数据有变化(增加或删除),点击该按钮数据会进行同步刷新。

clip0117

在表达式、过滤等位置引用的列如果发生变化,刷新数据时会提示 “ 数据集的列如果发生变化可能会导致表达式列、层次或行过滤不可用,是否清空表达式列、层次和行过滤? ”,否则不会提示。本产品默认字符类型、字符串类型、字节类型、布尔类型、日期类型、时间类型、时间戳类型的数据段存放在维度目录下,其他类型数据段存放在度量目录下。

2.4 节点连线

自动连线

以每个节点输入端或输出端所在边框的中点为圆心,在半径为 75px 半圆内区域会触发和其它节点的自动连线。

手动连线

不能自动连线的部分,都可以进行手动连线。手动连线时,当鼠标移至输出端时,空心圆点变为实心并放大,鼠标为十字同时会出现提示框;此时按住鼠标并移至下一节点的输入端时,下一节点的输入端圆点也会变为实心;如移动到输出端则该圆点也放大。

Query_SelfLine

删除连线

可以点击连线上的删除图标进行删除;删除节点也会自动删除左右的连线。

注意:输入节点只能连接一个输出节点,但镜像节点除外。

2.5  节点和连线的状态

1)无效节点

操作节点未设置合法的属性,数据集节点数据更新后未刷新,数据节点无法正常运作等都可能导致数据节点不可用,这时数据节点右下角会有红色感叹号标记。

Query_SelfNodeInvalid

可以参考如下方式来消除这个状态:

双击或右键编辑,为操作节点配置正确的属性;

刷新元数据或在节点上右键点击刷新,更新数据节点;

根据提示对数据集进行改动使其可用。

2)不能下推数据库执行的橙色节点和橙色连线

橙色的节点表示此节点上有不能下推数据库执行的信息。

某个节点前面的线如果是橙色的,表示这个节点本身不能下推;如果是绿色的,则表示节点本身是可以下推的,但是节点上新增的信息不能下推。

示例1:如下图,联接节点前面的线是绿色的,因为联接这个操作本身是可以下推数据库执行的。但是联接节点上新加了一个五分钟的表达式,这个表达式不能下推数据库执行,所以联接节点标识为橙色,表示此节点有不能下推的信息。后续镜像和数据集结果节点用到了五分钟这个表达式的原因,导致它们都不能下推数据库执行,所以这些节点及其前面的线也标识为橙色。

Query_SelfNodeStatus1

示例2:如下图,联接节点前面的线是绿色的,因为联接这个操作本身是可以下推数据库执行的。但是联接节点上新加了一个五分钟的表达式,这个表达式不能下推数据库执行,所以联接节点标识为橙色,表示此节点有不能下推的信息。后续分组和汇总以及数据集结果节点没有用到了五分钟这个表达式,这些节点上的信息全部能下推数据库执行,所以它们及其前面的线都是绿色的。

Query_SelfNodeStatus2

Query_SelfNodeStatus3

示例3:如下图,联接节点前面的线是橙色的,因为联接这个操作本身就是不可以下推数据库执行的(MySQL数据库,外部联接,不能下推数据库执行)。因为联接节点不能下推,导致镜像和数据集结果节点都不能下推数据库执行,所以这些节点及其前面的线也标识为橙色。

Query_SelfNodeStatus4png

2.6 自动布局

默认情况下,数据集结果节点没有与输入节点连接时,【自动布局】为不可编辑的置灰状态,只有先将输入节点与数据集结果节点连接,自动布局才可使用。

点击自动布局,节点和节点之间的布局会根据既定算法优化,布局会更加合理美观。

布局前:

clip0137

布局后,格式如下:

clip0138

3.数据集编辑区数据治理

自服务数据集可以在每个操作节点中的元数据编辑区进行数据治理,也可以在最后输出结果节点的元数据编辑区进行数据治理。具体的数据治理说明参考数据治理

在自服务数据集的元数据区域,把鼠标移到字段上能看到字段的来源,方便追踪字段的原始节点:

Column_source