抽取数据

<< Click to Display Table of Contents >>

当前位置:  创建数据集 > 自服务数据集 > 数据治理 

抽取数据

Previous pageReturn to chapter overviewNext page

抽取同步数据

抽取数据支持的任务类型为同步数据。同步数据并不是真正意义上的数据查询。它不与数据库连接,不进行实际的数据查询,而是将数据库里的数据保存到本地,让保存在文件里的数据通过可操作而变得真实。它的主要功能是使数据展示和数据操作与其他数据集模块产生的结果一致。

同步数据所使用的数据来源于已经建立好的文件,而不是直接从数据库里读取数据。因此用户会困惑并质疑文件里的数据到底是否能按照数据库的操作方式进行真正的操作。当数据文件通过特别的存储技术被读取并加入到数据集结果的时候,用户可以通过同步数据对数据进行各种操作。此时用户的感觉就像操作真正的数据库一样,这就是同步数据最重要的作用。

抽取数据后会在调度任务模块创建一个任务,可以立即运行或在自定义的时间去执行数据集并把结果存储到部署的硬盘中,基于该数据集定制的报表会优先采用同步数据的结果来展现数据。如果数据库中的实际数据会变化,可以制定一个循环执行的任务来定时更新同步数据的结果。

同步数据可以显著提高数据集的性能,尤其是提高复杂数据集的性能。

除了数据集市数据集、内嵌数据集和多维数据集不可以同步外,其他数据集皆可同步。当用户需要同步数据时,打开此数据集,在元数据区域点击 “ 抽取数据 ”,如下图所示:

抽取数据

 

一次性抽取数据

点击 “ 抽取数据 ”后,弹出抽取数据对话框,如下图所示:

抽取数据弹框

【类型】支持抽取数据的任务类型为同步数据。

【追加】默认不勾选,勾选后会将数据库中最新的数据附加到历史数据中。

【更新依据列】默认不显示,勾选追加后才显示,更新依据列中只可以选择数值列和日期列。

【定时抽取数据】不勾选。

【保存配置】用户设置抽取数据对话框中的配置信息后,点击保存配置可以在数据集上保存相关配置。

【立即运行】用户点击立即运行后会开始进行一次性抽取数据,此时,抽取数据对话框消失,弹出抽取数据过程对话框,如下图所示。

抽取数据进度

抽取数据过程对话框中会显示数据抽取的步骤,包括:开始执行、执行数据生成DataGrid、创建数据文件、分发存储数据文件和执行完成,方便用户知道目前数据抽取的进度。已执行完成的步骤前显示已执行步骤,正在执行的步骤前显示正在执行步骤,待执行的步骤前不显示任务图标。当数据集正在抽取中时,抽取数据前显示橙色图标,抽取数据按钮为置灰状态。用户点击“取消抽取”可以停止抽数。用户点击右上角的“×”可以关闭对话框,后台继续执行抽数。抽取数据成功后,抽取数据旁会显示绿色图标和释放按钮;抽取数据失败后,抽取数据旁会显示红色图标,红色图标中会显示抽取数据失败的原因。如下图为抽取数据成功。

抽取数据成功

鼠标悬停在图标上时,可查看抽取数据的实时信息,如下图所示:

绿色图标信息

用户如需释放已同步的数据集数据,可点击 “ 释放 ”,释放已同步的数据集数据。

 

定时抽取数据

点击“抽取数据”弹出抽取数据对话框后,勾选“定时抽取数据”即可开始定时同步数据,如下图所示:

定时抽取数据弹框

【定时抽取数据】默认不勾选,勾选后用户可以自定义时间定时抽取数据。

【运行时间频率 & 时间条件】默认不显示,勾选定时抽取数据后才显示。用户可以选择“每天、每周、每月”的任意时间定时抽取数据。运行时间频率与时间条件的设置方法详见调度任务->作业 。

【定时运行】用户点击定时运行后,会按设置的时间定时抽取数据。

当用户设置定时同步的时间为现在的时间时,抽取数据的过程同一次性抽取数据;当用户设置定时同步的时间为未来时间时,抽取数据旁会显示绿色图标记录抽取数据的实时信息,如下图所示:

待运行

 

说明

1.用户只要有某个数据集的写权限就可以对该数据集抽取数据。

2.修改抽取数据对话框中的配置信息后,点击“保存配置 ”只是在数据集上保存配置信息,点击“立即运行/定时运行”按钮后配置信息才会生效。

3.同步追加数据入集市,选择的更新依据列的新数据必须大于该列旧数据的最大值才能成功将新数据追加到历史数据中,反之则不会将新数据追加到历史数据中。

4.对于一次性抽取数据,点击“取消抽取”或“释放”按钮,抽取数据旁的图标会消失;对于定时抽取数据,只有删除相关的定时任务图标才会消失。