数据抽取方式

<< Click to Display Table of Contents >>

当前位置:  数据集市 > 数据抽取 > 从数据源抽取数据 

数据抽取方式

Previous pageReturn to chapter overviewNext page

通过两种方式将用户的数据导入到数据集市系统中(包含本地云和分布式云)。

 

自动方式

启动系统中这节点,在 Client 节点上会有日志显示 Naming 节点可用。在 Client 节点上进入调度任务界面,增加一个作业,定义该作业的任务是增量导入数据。该任务专门负责把一个Data Set (数据集)里的数据,提取到集市系统中。选项指标:

数据集:选择一个数据集,该数据集的数据会被提取出来。该数据集是通过创建数据集界面来定义的,访问一个数据库。

文件夹:提取出来的数据块放到哪个文件夹下。

文件前缀:提取出来的数据块以什么文件名为前缀。如果有 2 个数据块,前缀为 aa,那就有 aa0.zb, aa1.zb 两个物理文件。

追加:是否追加文件,否则会删掉历史的文件。如果已有一个 aa 文件,可以再追加一个 bb 文件。如果要追加的文件名已存在,会停止追加。

脚本:可以在运行 query 之前执行此脚本。此脚本可以修改 folder, file, append 的值,还可以通过 setMeta/getMeta 来修改元数据;还可以给参数赋值。

当一个作业被成功执行完后,就可以通过创建数据集市数据集来访问该文件夹里的数据。还可以采用过滤元数据的值,来跨粒度访问各数据块。

用户可以指定计划,每隔多久提取一次数据,并在提取的时候,通过加元数据属性,来给数据块打标签。如果加日期标签,可以控制只访问某时间段的数据。

关于调度任务的具体说明,请参见相关文档。

 

手动方式

Z 产品提供了一些 API 接口来访问数据库,并读取数据,然后生成压缩后文件。数据集市系统提供了一些 API 管理命令。包括 AddFolderTask (将压缩后的物理文件,新加入一个 Folder 到云系统中),RemoveFolderTask (删除某个 Folder), RemoveGSFileTask (删除某个文件)。