<< Click to Display Table of Contents >> 系统监控概览 |
主要用来掌握全局系统信息,主要包括系统指标、24小时内运行数据集数量趋势、数据集类型分布、数据集执行时长Top10、仪表盘访问Top10、调度任务类型分布、近一周作业出错排行 Top10 和集市节点状态。用户可点击各个子模块的超链接跳转到目标仪表盘查看详细信息。进入系统监控界面默认打开系统监控概览仪表盘。
❖系统指标
系统指标显示如图:
内存占用:当前节点的内存使用情况和总的内存量,点击具体数据跳转至 “ 内存信息统计 ” ;
仪表盘总数:统计系统中仪表盘的总量,点击具体数跳转至 “ 仪表盘所依赖的数据集信息统计 ” ;
数据集总数 / 集市数据集总数:统计系统中普通数据集和数据集市数据集的总数;
调度任务数 / 失败数:统计调度任务的总数和失败作业的总数;
在线并发用户数 / 系统总用户数:统计在线并发用户数量和系统中的总用户数,点击在线并发用户数的具体数跳转至 “ 用户登录信息统计 ”。
❖24 小时内运行数据集数量趋势
统计24小时内系统中运行数据集的数量变化趋势,可以整体查看某个时间点的运行数据集并发的峰值数,以决定是否需要避开并发高峰期,便于及时调整其它任务的运行时间。点击标题跳转到 “ 仪表盘 & 数据集 & 数据集市数据集信息统计 ”。
当系统中存在影响系统稳定性的进程,如:节点版本不一致、数据集运行时间超过alert.query.runtime的设置值、数据库宕机、集群间通信断路、FullGC过于频繁时,更新时间右侧的告警图标会由灰色变成红色。鼠标移动到该红色图标上时,会显示出所有预警信息。点击版本不一致的预警信息后,可以通过超链接跳转到“数据集市节点信息统计”报表。该报表中所有节点当前状态统计表格对版本较低的节点进行了高亮显示。点击数据集运行时间过长的预警信息后,可以通过超链接跳转到“运行资源信息监控统计”报表,该报表中对预警提到的条目进行高亮显示。需要注意的是,属性alert.query.runtime的初始值是0,默认不开启。
❖数据集类型分布
统计数据集类型的数量分布,以饼图的形式展示系统中各种不同类型的数据集的数量,更加直观。点击标题跳转到 “ 仪表盘所依赖的数据集信息统计 ”。
❖数据集执行时长 Top10
统计数据集执行时间最长的 10 条记录,可以使用户了解系统中哪些数据集执行较慢,便于进一步分析。点击标题跳转到 “ 运行资源信息监控统计 ”。
❖仪表盘访问 Top10
统计系统中访问次数前 10 的报表。点击标题跳转到 “ 仪表盘访问信息监控 ”。
❖调度任务类型分布
统计不同类型的作业的数量。以饼图的形式进行展示,更加直观。
❖近一周作业出错排行 Top10
统计最近一周的运行作业的出错情况,显示任务的出错次数排行榜的前十名。
❖集市节点状态
显示集市系统各节点类型及状态。对于单独作为C节点的机器,集市节点状态中仅显示本机C节点的状态。点击标题,跳转到 “ 数据集市节点信息统计 ”。