<< Click to Display Table of Contents >> Excel数据集复制链接 |
1.概述
1.1 应用场景
相对于其他数据集,Excel 数据集的使用简单方便。当用户的数据存储在Excel、CSV、TXT或LOG文件中时,可以通过Excel数据集直接上传数据,作为数据集使用。
当文件存储在其他服务器中时,也支持通过SMB3协议或者HUAWEI OBS获取文件资源。
1.2 功能简介
支持多种类型的文件创建Excel数据集,本地上传文件可以合并生成一个数据集、生成多个数据集。
2.创建Excel数据集
2.1 普通表批量创建多个Excel数据集
一次性上传普通表中的多个Sheet创建多个Excel数据集。
2)选择“Excel数据集”,弹出“新建Excel数据集”对话框。数据源选择“本地文件”。
3)点击右下角的“上传”按钮,在本地选择“3D”Excel文件。
4)上传完成后,勾选“3D.xlsx”前的复选框,全选该文件下的多个Sheet。
5)3个sheet中的数据列数和数据类型均不相同,因此选中“生成多个数据集”。
6)点击“确定”。
7)在弹出的“保存”对话框中,点击右上角的添加图标,新建“3D”文件夹存放数据集,文件名称为保存后的数据集名称,此处无需修改,
8)点击“确定”,保存完成后,默认展示第一个sheet文件 “3D device”。
9)创建完成的3个Excel数据集如下所示。
2.2 交叉表创建Excel数据集
上传交叉表创建Excel数据集,交叉表数据如下。
2)选择“Excel数据集”,弹出“新建Excel数据集”对话框。数据源选择“本地文件”。
3)点击“上传”按钮,在本地选择“咖啡.xlsx”Excel文件。
4)上传完成后,点击“确定”。
5)点击“高级设置”,在展开页面中,选中“生成逆透视表”,行表头层级设置为“1”,列表头层级设置为“2”。
6)点击“刷新数据”,刷新完成后,在数据详情页面可以看到1个行表头数据,2个列表头数据和数据都分别作为一列,数据按照从上到下,从左到右,并与行列表头数据对应的顺序列出。
7)点击右上角“保存”按钮,保存为“咖啡”数据集。
2)选择“Excel数据集”,弹出“新建Excel数据集”对话框。
3)选择NAS SMB类型数据源。选择完成后点击“确定”。
4)选择想要获取的文件类型。
5)填写想要获取数据文件的资源路径。
6)填写NAS SMB用户信息。
7)选择用于构建元数据的示例文件与示例Sheet。
8)设置数据文件的合并方式。
9)点击“刷新数据”,刷新完成后,点击右上角“保存”按钮,保存为“NAS_SMB”数据集。
3.功能说明
您可以通过两种方式进入创建数据集页面:
•点击数据集页面左侧顶部的图标,进入新建数据集页面,选择“Excel数据集”。
•在新建数据源页面,选择EXCEL&TEXT。
3.1 上传Excel前后数据说明
o上传Excel文件前请检查是否存在以下情况,以免影响数据的准确性
o行合并:如果上传的Excel文件,有合并列的单元格,上传后,合并行拆分为多行,拆分后的第一行有列数据,其他行的列数据均为空。
o列合并:如果上传的Excel文件,有合并列的单元格,合并列拆分为多列,拆分后的第一列显示合并列名称,有行数据,其他列的列名分别为列0,列1,...,列N,其他列的行数据均为空。
o计算公式:如果上传的Excel文件,有计算公式,上传后只保留计算结果,不保留计算公式。
o空行、空列:如果上传的Excel文件,有空行、空列,上传后,不显示数据,不保留位置。
•本地文件弹窗页面
NAS SMB/HUAWEI OBS弹窗页面
功能 |
说明 |
---|---|
数据源 |
Excel数据集支持上传本地文件或从NAS SMB、HUAWEI OBS中实时获取文件。 支持选择本地文件、NAS SMB类型数据源、HUAWEI OBS类型数据源。 |
工作表 |
工作表包含所有Excel和Sheet表,默认只选中每个Excel文件的第一个Sheet 表。Excel和Sheet表可以根据需求单选或多选。 ➢说明: 当选择为NAS SMB类型数据源、HUAWEI OBS类型数据源时无此项。 |
上传/打开 |
点击上传,弹出对话框,可选择需要上传的单个或多个文件。 ➢说明: vividime Desktop中此对应项叫作“打开”。 一次性上传多个文件时,文件类型需相同,如支持.xlsx+.xlsx文件,不支持.xlsx+.csv文件。 当选择为NAS SMB类型数据源、HUAWEI OBS类型数据源时无此项。 |
合并为一个数据集/生成多个数据集 |
默认选中“合并为一个数据集”,点击“保存”,合并多个sheet为一个数据集。支持单个或多个Excel文件的Sheet数据合并,Sheet数据会按照第一个Sheet表的列数和列的数据类型进行匹配。合并规则如下。 •当第一个后面的Sheet表列数与第一个 Sheet表列数不匹配时,会弹出提示。 •当第一个后面的Sheet表列数与第一个Sheet表列数据类型不匹配时,会按照第一个sheet表的数据类型显示。 ➢说明: 当选择为NAS SMB类型数据源、HUAWEI OBS类型数据源时无此项 |
选择“生成多个数据集”,再点击“确定”,弹出如下保存对话框,修改文件名称和保存路径,确定无误后,点击“确定”生成多个数据集。 ➢说明: 当选择为NAS SMB类型数据源、HUAWEI OBS类型数据源时无此项 |
3.3 基础设置—本地文件
本地文件页面基础配置和创建时相同,详情可参考新建Excel数据集弹窗说明。
功能 |
说明 |
---|---|
文件类型 |
文件类型包括Excel、CSV/TXT/Log类型文件,用于获取资源路径下对应类型的文件数据。 |
资源路径 |
选中文件类型后,在资源路径上填写资源的相对路径,系统会结合数据源中的配置信息来获取文件或文件夹的信息。 ➢说明: 若想获取根路径文件夹下所有的文件,填写资源路径“/”来进行获取。 若想获取根路径文件夹下指定文件夹下的数据文件,填写“/文件夹”来进行获取。 若想获取根路径文件夹下指定文件夹下的指定文件,填写“/文件夹/文件.后缀”进行获取。 |
用户名/密码 |
填写好您想要获取的资源路径后,您需要填写您的NAS SMB账号用于资源获取的鉴权。 |
示例文件/示例Sheet |
示例文件/示例Sheet用于定义数据集的元数据结构,作为合并文件的基础。 ➢注意: 当文件类型为CSV/TXT/Log时没有示例Sheet选项。 此项为实时获取,若发生数据源、文件资源、资源路径的变动或修改,建议重新选择示例文件,以确保其准确性。 |
自动合并文件 |
当文件夹下新增数据文件时,自动合并文件可以自动追加数据,使其合并到数据集。若文件类型为Excel,此属性中包括三种选项,分别为空、全部、示例文件的Sheet列表; 若文件类型为CSV、TXT、Log,此属性中只包括两种选项,分别为空、全部。 ➢说明: 自动合并文件选择为不同选项时采用不同的文件合并逻辑,详情可参考 自动合并文件场景说明 。 |
手动合并文件 |
当自动合并文件选择为空时,手动选择指定文件的指定Sheet数据进行合并,此时文件夹中新增文件数据不会追加到数据集中。 ➢说明: 删除手动合并文件列表中的文件时,仅在列表中被删除,并不会影响实际存储中的文件。 |
更新文件列表 |
点击更新文件列表时,手动合并文件中展示的资源路径下的文件列表信息会被更新。 |
场景1:
当文件类型为Excel,自动合并文件选择全部,数据集会以示例文件中的示例Sheet为数据结构模板,将资源路径下全部Excel文件的全部Sheet中的数据都进行合并,进而展示数据。
示例:文件夹下存在“上海销售部月报总结.xlsx”、“北京销售部月报总结.xlsx”两个文件,“上海销售部月报总结.xlsx”文件中存在20240701、20240801,“北京销售部月报总结.xlsx”文件中存在20240801、20240901,当【自动合并文件】选择为【全部】的时候,数据集会获取“上海销售部月报总结.xlsx”文件中20240701、20240801与“北京销售部月报总结.xlsx”文件中20240801、20240901,并将其全部进行合并。
场景2:
当选择为指定的Sheet时,数据集会以示例文件的示例Sheet为数据结构模板,将资源路径下所有符合文件类型的文件中Sheet名称与指定的Sheet相同的数据都进行合并,进而展示数据。
示例:文件夹下存在“20240701月报.xlsx”、“20240801月报.xlsx”、“20240901月报.xlsx”三个文件,“20240701月报.xlsx”中存在人力部、研发部,“20240801月报.xlsx”文件中存在销售部、人力部、研发部,“20240901月报.xlsx”文件中存在销售部、人力部,当【自动合并文件】选择为【销售部】的时候,数据集会获取“20240801月报.xlsx”文件中销售部与“20240901月报.xlsx”文件中销售部,并将其进行合并。
相比与NAS SMB数据源没有用户名/密码信息,并且资源路径是以HUAWEI OBS数据源中的桶为根路径来进行数据文件获取。其余配置项可参考基础设置—NAS SMB数据源。
3.6 高级设置—Excel类型
若多个sheet生成多个数据集,需先保存数据集后,再选择数据集进行高级设置。
说明 |
|
---|---|
加载方式 |
源表:若上传的Excel为普通表,加载方式选择“源表”,直接使用文件的原始数据。 生成逆透视表:若上传的Excel为交叉表,加载方式选择“生成逆透视表”,可将交叉表的列数据转换成行数据。 |
起始行 |
读取数据开始的行数,默认是 1。 |
表头 |
包括自动,第一行,无。 •自动:表示系统自动取文件中有数据的第一行为表头。 •第一行:表示将每个Sheet表的第一行作为表头行。 •无:表示各Sheet表都没有表头行, Sheet表中内容都按照数据来处理。 |
删除无效行 |
默认上传Excel 时是不删除数据的。如果勾选了删除无效行,系统会自动删除不合理的数据行。 ➢例如: 数据行中的某一行 10 个数据中有 9 个数据为空,则系统会自动删除这一行。 |
刷新数据 |
如果上传的文件发生更改,点击刷新数据以刷新元数据和数据详情。 |
当加载方式选择“生成逆透视表”时,包含行表头和列表头属性,界面如下。
行表头层级和列表头层级可将交叉表换转换成只有行表头的表格,属性说明如下。
属性 |
说明 |
---|---|
行表头层级 |
所上传表格的行表头数。 |
列表头层级 |
所上传表格的列表头数。 |
3.7 高级设置—CSV/TXT/LOG类型
CSV/TXT/LOG的加载方式、起始行、表头属性说明可参考Excel高级设置,编码类型和分隔属性说明如下。
属性 |
说明 |
---|---|
编码类型 |
当选择上传的文件后,系统会自动加载对应的编码类型,也可以根据需求从下拉选框中选择,可选的编码类型包括:UTF-8、GB18030、UTF-16BE、UTF-16LE、ASCII。 |
分隔符 |
系统会自动检测分隔符。用户也可以通过下拉框,选择分隔符。可选的分隔符类型包括:逗号、分号、竖线、制表符、空格、自定义。选择自定义时,用户可自己输入所需的分隔符。 |
3.8 编辑文件、删除文件
编辑文件:上传文件后,如需更新Excel文件中的数据,点击编辑图标,可打开对应的本地文件进行编辑。
删除文件:上传文件后,点击删除图标即可删除文件。
➢说明:
编辑文件目前只支持Desktop,Server端不支持。
3.9 data_source列说明
11.0版本及以后,在Excel数据集中获取文件数据后为了更好的排查和使用数据,新增了data_source列来确定数据来源。
当文件为Excel类型时,data_source列数据显示为“文件名称.后缀_Sheet页名称”;当文件为CSV类型时,data_source列数据显示为“文件名称.后缀”。
•使用场景1
当有多个文件进行合并后在数据使用过程中发现数据错误,可以通过过滤data_source列来进行数据问题排查,追溯问题数据来源与哪个文件。
•使用场景2
当文件名称中存在数据中没有的关键信息时,可以对data_source列进行处理,获取data_source中指定的内容。
假设存在以下文件进行数据合并。
需要获取数据时间,就可以将文件名称中日期部分通过计算列或拆分列的处理再进行转换为日期列,来获取数据所对应的时间。
3.10 Desktop数据更新
Desktop支持Excel文件的行数据自动更新:上传Excel,CSV文件后,保存数据集,当本地Excel,CSV文件的行数据更新(增加、删除、修改)后,Desktop中的Excel数据集会自动更新数据。
Desktop支持Excel文件的列数据更新提醒:上传Excel文件后,保存数据集,当本地Excel文件的列数据更新(增加、删除、修改)后,在桌面版上打开对应Excel数据集时,弹出提示“数据集名称+本地数据有更新,请及时刷新数据!”。
➢说明:
仅Desktop支持Excel自动更新。Z-Suit、X-Suite不支持该功能。