打标签的作用

<< Click to Display Table of Contents >>

当前位置:  VooltDB数据集市 > 集市常见问题 

打标签的作用

复制链接

入集市时,通过分组分割,加入标签,setMeta脚本等方式,给入集市的数据块加入标签,可以实现控制指定访问某个标签值对应的数据块。

在集市数据集里,如果不加文件过滤,则会查询指定集市文件夹的所有数据。添加文件过滤,可以对所有打的标签按标签值进行过滤,只查询要访问的数据块,加速查询的速度,同时减少资源消耗。标签列不推荐使用粒度过细的数据字段,例如用时间戳分区,将带来分块数量的急剧增加,从而导致性能下降。

MPPFAQ1

 

测试数据:

假设现基于一个1500W行的数据集做报表,只展示其中日期为2022-03-11的数据。

1)常规的报表制作方法为:

将1500W行的数据集增量入集市,入集市后创建集市数据集,查询全量数据;

对集市数据集添加过滤器,过滤条件设置为日期=2022-03-11,然后基于此做报表。

2)应用“加入标签”的方法为:

将1500W行的数据集勾选“加入标签”,按日期列打标签分块存储;

Label1

创建集市数据集,添加文件过滤,只查询日期为2022-03-11日的数据块,然后基于此制作报表。Label2

分别对上述1)和2)两种方式做的报表的打开时间进行了测试,报表在设置加入标签和不设置加入标签的情况下的性能如下表所示:

 

报表打开时间(ms)

设置加入标签

397

不设置加入标签

654

通过上表可以看出,设置加入标签入集市后,集市报表打开的速度会快40%左右。因此,通常对于需要过滤后按分区查询的场景,我们可以考虑设置加入标签来提高查询效率。

注:上表测试结果仅供参考,在实际测试环境中测试结果会受cpu、网络等因素影响。