<< Click to Display Table of Contents >> 打标签的作用复制链接 |
入集市时,通过分组分割,加入标签,setMeta脚本等方式,给入集市的数据块加入标签,可以实现控制指定访问某个标签值对应的数据块。
在集市数据集里,如果不加文件过滤,则会查询指定集市文件夹的所有数据。添加文件过滤,可以对所有打的标签按标签值进行过滤,只查询要访问的数据块,加速查询的速度,同时减少资源消耗。标签列不推荐使用粒度过细的数据字段,例如用时间戳分区,将带来分块数量的急剧增加,从而导致性能下降。
➢测试数据:
假设现基于一个1500W行的数据集做报表,只展示其中日期为2022-03-11的数据。
1)常规的报表制作方法为:
将1500W行的数据集增量入集市,入集市后创建集市数据集,查询全量数据;
对集市数据集添加过滤器,过滤条件设置为日期=2022-03-11,然后基于此做报表。
2)应用“加入标签”的方法为:
将1500W行的数据集勾选“加入标签”,按日期列打标签分块存储;
创建集市数据集,添加文件过滤,只查询日期为2022-03-11日的数据块,然后基于此制作报表。
分别对上述1)和2)两种方式做的报表的打开时间进行了测试,报表在设置加入标签和不设置加入标签的情况下的性能如下表所示:
|
报表打开时间(ms) |
设置加入标签 |
397 |
不设置加入标签 |
654 |
通过上表可以看出,设置加入标签入集市后,集市报表打开的速度会快40%左右。因此,通常对于需要过滤后按分区查询的场景,我们可以考虑设置加入标签来提高查询效率。
注:上表测试结果仅供参考,在实际测试环境中测试结果会受cpu、网络等因素影响。