创建数据集

<< Click to Display Table of Contents >>

当前位置:  数据准备 > 数据集 

创建数据集

复制链接

1.选择想要创建的数据集

以下两种方式进入创建数据集页面:

数据集模块

1)点击左侧导航的【创建数据集】,进入数据集页面。

2)点击左侧顶部的Add_icon图标,进入新建数据集页面。

Add_Dataset

3)在新建数据集页面选择所需的数据集类型,进入数据集配置页面。

dbshot22

在已连接的数据源页面,通过顶部工具栏的【新建数据集】进入连接到该数据源的创建数据集页面。

2.数据集管理

通过数据集界面左侧的数据集资源树可以进行现有数据集、数据源和脱敏的管理,详情参考数据集管理数据脱敏

Add_Dataset

3.数据集工具栏

在已打开的数据集配置界面顶部提供数据集工具栏进行数据集相关操作。

queryshot2

工具栏中每项功能如下:

功能项

具体功能

编辑参数/刷新参数

详情参考编辑和刷新参数

设置->备注

给数据集添加备注,参考备注章节。

设置->缓存设置

仅在SQL数据集上支持。在系统设置中启用了全局缓存设置,才支持单个数据集上开启缓存设置。参考SQL数据集缓存设置。

检测性能

检测当前数据集的性能,详情参考检测性能

下载

下载当前数据源到本地,目前仅在桌面版支持,详情参考数据集下载

保存

保存当前数据集(如果是新建数据集需要选择保存的路径)

另存为

点击另存为,将当前数据源另存为到目标路径

新建报告

未保存的数据集先保存并跳转到已选择此数据集的制作报告页面;已经保存的数据集直接跳转到已选择此数据集的制作报告页面。

4.数据集配置和使用

queryshot3

数据集配置的界面各功能区说明如下:

序号

功能项

具体功能

1

数据集编辑区

不同类型的数据集,数据集编辑区界面各不相同。详情参考各类数据集页面。

提供刷新数据按钮,如果数据有变化(增加或删除),点击该按钮数据会进行同步刷新。

2

元数据/数据详情

以选项卡的形式切换当前数据集数据的展示形式,支持【数据详情】和【元数据】两种方式展示数据。

*多维数据集只有元数据形式

3

排序

设置数据列在数据集中的排序方式,目前支持“数据源排序”和“字母排序”。

*多维数据集不支持此功能

4

添加过滤

为数据集添加行过滤,详情参考数据治理>过滤

5

显示总行数

点击“显示总行数”按钮后,会弹出新的对话框显示出所预览数据集的总行数。

clip0100

【刷新总行数】数据库中增删数据后,点击该按钮,总计数目会进行同步。

*多维数据集不支持此功能

6

更多

提供更多数据源相关功能,支持导出到数据库、导出为CSV文件、导出为Excel文件。详情参考导出到数据库

*多维数据集,Neo4j数据集不支持此功能

7

数据集数据区设置

不同类型的数据集支持的设置各不相同,当前显示数据详情和元数据时也会有不同的设置项。

数据详情页面:

Dataset_function

刷新图标:刷新当前数据详情中预览的数据。

性能优化(9.4.2之前叫SQL解析器):仅SQL数据集可设置,10.0之前默认为勾选状态,10.0及之后默认为不勾选状态。勾选后生成的SQL会尽量不拼子查询,不勾选情况下会拼子查询。10.0之后新增的数据源没有此选项,比如Kyligence Enterprise,Doris,TiDB。可在管理系统->系统设置->系统参数配置->基本参数配置中,修改sql.parse的值,来更改此选项的默认状态。

库内计算:仅SQL数据集可设置,默认保留勾选,执行数据集查询时将会对SQL进行封装,计算将会下推到数据库内执行,取消勾选数据库内计算后,数据集的后续操作将不会在数据库内执行,计算将会交给内存处理。取消数据库内计算后点击刷新数据,元数据列中不能下推到数据库影响性能的橙色标识列将变为黑色,数据集将会放入后期处理,作用于当前数据集,调用此数据集的对象也受其影响。建议不要勾掉此选项,此选项仅在SQL数据集里的SQL语句从数据库里查询数据较快,且返回的数据结果较少的情况下适用。

显示隐藏列:设置隐藏列是否可见,详情参考显示与隐藏

预览行数:数据详情展示可设置,预览数据集时所显示的行数。默认为 200 行,可以根据需要设置预览行数,预览行数可以是在1-20000之间的任意整数;

元数据页面:

样本行数:元数据展示可设置,用户可设定采集样本数据的行数。默认5000行,用户可以自定义或者选择全量数据。假设用户勾选全量数据,在编辑报告中可以对数据集的全部数据进行编辑,在编辑模式下绑定框的左上角显示 “ 全量数据 ”。用户可设定采集样本数据的行数。假设用户设定为 5000 行,在编辑报告中只能对前 5000 行数据进行编辑,在编辑模式下绑定框的左上角显示 “ 数据样本行数 5000”;

元数据方式展示数据时,可以在名称处点击搜索图标进行数据列搜索,快速选中数据列。

说明:对于可以下推到数据库的场合,勾选库内计算和性能优化(9.4.2之前叫SQL解析器),可以提升应用此数据集的报告在查看时的性能。

8

数据集数据区

展示数据集中的数据,支持以数据详情和元数据两种形式展示,详情参考具体的数据集介绍和数据治理

注意:

移动数据段时,会有边线提示该数据段即将要移动到的位置,需要配置参数manual.sort.repository=true,移动才会生效。

多维数据集只有元数据形式

5.数据集选项卡

产品支持打开多个数据源的配置。用户可以通过数据源配置页面底部的选项卡在不同的页面切换,完成数据源相关的配置。

配置完成后,用户可以点击Data_Close关闭当前打开的数据源配置页面;也可以点击Data_CloseAll一次关闭所有的数据源配置页面。

dbshot5