自服务数据集概述

<< Click to Display Table of Contents >>

当前位置:  数据准备 > 数据集 > 自服务数据集 

自服务数据集概述

复制链接

1.概述

1.1应用场景

用户可以使用简单、快捷、可视的方式让数据更规范,更符合数据分析需求。

1.1功能简介

用户可通过添加数据节点的方式,将来自不同类型的数据集数据作为输入节点,例如Excel数据集,内嵌数据集,SQL数据集,Mongo等各种任意数据集。在输入节点之后接入各种联接和转换节点,各个节点之间可以任意组合和编辑,最后连线数据集结果节点,就可以完成数据的准备工作。

2.应用举例

下图数据集中存在多个订单的销量,订单ID,门店和会员等级,通过自服务数据集整理出各类会员的总销量,并按销量从高到低排序。

query_selfexample_zoom59

1)创建数据集,选择自服务数据集。

query_selfcreate_zoom60

2)将图示数据集作为数据节点添加到自服务数据集。

query_selfnode_zoom60

3)添加操作节点“分组与汇总”,将原节点按会员等级分组,汇总展示剩余库存。

query_selfexample0_zoom60

4)添加操作节点“排序”,将分组和汇总节点按剩余库存降序排序,输出到数据集结果。

query_selfexample1_zoom60

5)点击保存,保存自服务数据集,就得到了一个根据需要简单处理过后的新数据集。

3.功能说明

点击数据集页面左侧顶部的add_icon_zoom70图标,进入新建数据集页面。点击自服务数据集进入创建页面。

selfservice_zoom66

3.1自服务数据集数据编辑

进入自服务数据集创建界面后,自服务数据集的数据编辑区域整体布局如下:

selfservice_setting_zoom80

3.2 添加数据、操作节点

自服务数据集左侧资源树上有数据和操作两个部分,两个部分可以互相切换。

query_self_tab

当选项卡为数据时,可以以拖动左侧项到右侧空白区域的方式添加数据节点,具体参考添加数据节点

当选项卡为操作时,可以以拖动左侧项到右侧空白区域的方式添加如下操作节点:包括联接联合抽样排序透视表逆透视表分组和汇总自循环列镜像去重

query_self_operation

3.3 数据集结果节点

query_self_node_right_menu_2

数据集结果节点是所有节点数据处理的终结点,数据集结果节点只能有一个输入。

节点右键菜单:重命名、添加备注。

3.4 节点编辑

query_self_node_right_menu

支持对节点进行如下操作:

操作

说明

选中

单击可以选中单个节点,也可以按 Ctrl 键对节点进行多选。或者拖拽鼠标框选单个或多个节点。

打开数据集

输入节点是数据集时,选中节点,右键菜单选择打开,可以直接打开数据集进行编辑,也可以双击打开数据集进行编辑。

重命名

节点右键菜单点击重命名,可以对节点进行重命名。

添加备注/编辑备注

节点右键菜单点击添加备注/编辑备注,可以对节点进行添加/编辑备注。参考备注章节。

替换数据集

在源始的输入节点,选中节点,右键菜单选择替换数据集,弹出弹框

queryshot7_zoom48

选择用来替换当前数据集的数据集,目前多维数据集、流式数据集和组合数据集不可用于替换,不可选的数据集置灰。如果用来替换的数据集列有变化会提示。

queryshot8_zoom62

复制/粘贴

支持选中单个或多个节点进行复制,数据集结果节点除外,粘贴后的节点包含节点和连线。

删除

选中单个或多个节点,鼠标右击,在右键菜单中点击删除,或者使用鼠标框选一个或多个节点点击键盘 Delete键进行删除,能够删除节点以及节点的输入、输出连线,数据集结果节点除外。

刷新

点击节点右键刷新,可以更新同步数据。

展示SQL语句

如果一个节点的所有输入节点和节点自身都勾选了数据库内计算,则可以通过展示SQL语句,查看这个节点实际上进行数据库内计算时所执行的SQL语句。

刷新元数据

刷新整个自服务数据集的元数据。用户点击刷新元数据按钮时,右侧区域将切换到数据集结果节点的元数据tab。如果数据有变化(增加或删除),点击该按钮数据会进行同步刷新。

clip0117_zoom70

在表达式、过滤等位置引用的列如果发生变化,刷新数据时会提示 “ 数据集的列如果发生变化可能会导致表达式列、层次或行过滤不可用,是否清空表达式列、层次和行过滤? ”,否则不会提示。本产品默认字符类型、字符串类型、字节类型、布尔类型、日期类型、时间类型、时间戳类型的数据段存放在维度目录下,其他类型数据段存放在度量目录下。

3.5 节点连线

自动连线

以每个节点输入端或输出端所在边框的中点为圆心,在半径为 75px 半圆内区域会触发和其它节点的自动连线。

手动连线

不能自动连线的部分,都可以进行手动连线。手动连线时,当鼠标移至输出端时,空心圆点变为实心并放大,鼠标为十字同时会出现提示框;此时按住鼠标并移至下一节点的输入端时,下一节点的输入端圆点也会变为实心;如移动到输出端则该圆点也放大。

query_selfline_zoom90

删除连线

可以点击连线上的删除图标进行删除;删除节点也会自动删除左右的连线。

注意:输入节点只能连接一个输出节点,但镜像节点除外。

3.6 节点和连线的状态

1)无效节点

操作节点未设置合法的属性,数据集节点数据更新后未刷新,数据节点无法正常运作等都可能导致数据节点不可用,这时数据节点右下角会有红色感叹号标记。

query_selfnodeinvalid

可以参考如下方式来消除这个状态:

双击或右键编辑,为操作节点配置正确的属性;

刷新元数据或在节点上右键点击刷新,更新数据节点;

根据提示对数据集进行改动使其可用。

2)不能下推数据库执行的橙色节点和橙色连线

橙色的节点表示此节点上有不能下推数据库执行的信息。

某个节点前面的线如果是橙色的,表示这个节点本身不能下推;如果是绿色的,则表示节点本身是可以下推的,但是节点上新增的信息不能下推。

示例1:如下图,联接节点前面的线是绿色的,因为联接这个操作本身是可以下推数据库执行的。但是联接节点上新加了一个五分钟的表达式,这个表达式不能下推数据库执行,所以联接节点标识为橙色,表示此节点有不能下推的信息。后续镜像和数据集结果节点用到了五分钟这个表达式的原因,导致它们都不能下推数据库执行,所以这些节点及其前面的线也标识为橙色。

query_selfnodestatus1_zoom57

示例2:如下图,联接节点前面的线是绿色的,因为联接这个操作本身是可以下推数据库执行的。但是联接节点上新加了一个五分钟的表达式,这个表达式不能下推数据库执行,所以联接节点标识为橙色,表示此节点有不能下推的信息。后续分组和汇总以及数据集结果节点没有用到了五分钟这个表达式,这些节点上的信息全部能下推数据库执行,所以它们及其前面的线都是绿色的。

query_selfnodestatus2_zoom57

query_selfnodestatus3_zoom59

示例3:如下图,联接节点前面的线是橙色的,因为联接这个操作本身就是不可以下推数据库执行的(MySQL数据库,外部联接,不能下推数据库执行)。因为联接节点不能下推,导致镜像和数据集结果节点都不能下推数据库执行,所以这些节点及其前面的线也标识为橙色。

query_selfnodestatus4png_zoom60

3.7 自动布局

默认情况下,数据集结果节点没有与输入节点连接时,【自动布局】为不可编辑的置灰状态,只有先将输入节点与数据集结果节点连接,自动布局才可使用。

点击自动布局,节点和节点之间的布局会根据既定算法优化,布局会更加合理美观。

布局前:

clip0137

布局后,格式如下:

clip0138

4.数据集数据

自服务数据集可以在每个节点中的数据区域进行数据字段整理和数据治理,详情可参考数据字段管理数据治理

您可以把鼠标移动到自服务数据集的元数据页面的字段上,也可以在数据详情页面的列头上,查看字段的来源,方便追踪字段的原始节点。

column_source_zoom66 column_source_1_zoom66