Skip to content

Commit

Permalink
support monitoring apache doris database health and metrics (#1025)
Browse files Browse the repository at this point in the history
Signed-off-by: Logic <zqr10159@126.com>
  • Loading branch information
zqr10159 authored Jun 10, 2023
1 parent 421d9e9 commit 3ad3bf7
Show file tree
Hide file tree
Showing 4 changed files with 1,052 additions and 0 deletions.
170 changes: 170 additions & 0 deletions home/docs/help/doris_be.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,170 @@
---
id: doris_be
title: 监控:DORIS数据库BE监控
sidebar_label: DORIS数据库BE
keywords: [开源监控系统, 开源数据库监控, DORIS数据库BE监控]
---

> 对DORIS数据库FE的通用性能指标进行采集监控。支持DORIS2.0.0。
### 配置参数

| 参数名称 | 参数帮助描述 |
| ------------ | ------------------------------------------------------------ |
| 监控Host | 被监控的对端IPV4,IPV6或域名。注意⚠️不带协议头(eg: https://, http://) |
| 监控名称 | 标识此监控的名称,名称需要保证唯一性 |
| 端口 | 数据库对外提供的端口,默认为8040 |
| 查询超时时间 | 设置连接未响应的超时时间,单位ms毫秒,默认3000毫秒 |
| 数据库名称 | 数据库实例名称,可选 |
| 采集间隔 | 监控周期性采集数据间隔时间,单位秒,可设置的最小间隔为30秒 |
| 是否探测 | 新增监控前是否先探测检查监控可用性,探测成功才会继续新增修改操作 |
| 描述备注 | 更多标识和描述此监控的备注信息,用户可以在这里备注信息 |

### 采集指标

#### 指标集合:doris_be_load_channel_count

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------- |
| value || 当前打开的 load channel 个数 |

#### 指标集合:doris_be_memtable_flush_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------- |
| value || memtable写入磁盘的个数累计值 |

#### 指标集合:doris_be_plan_fragment_count

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------- |
| value || 当前已接收的 fragment instance 的数量 |

#### 指标集合:doris_be_process_thread_num

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------------------------- |
| value || BE 进程线程数。通过 `/proc/pid/task` 采集 |

#### 指标集合:doris_be_query_scan_rows

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value || 读取行数的累计值。这里只统计读取 Olap 表的数据量。并且是 RawRowsRead(部分数据行可能被索引跳过,并没有真正读取,但仍会记录到这个值中) |

#### 指标集合:doris_be_result_buffer_block_count

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------- |
| value || 当前查询结果缓存中的 query 个数 |

#### 指标集合:doris_be_send_batch_thread_pool_queue_size

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------------------- |
| value || 导入时用于发送数据包的线程池的排队个数 |

#### 指标集合:doris_be_tablet_base_max_compaction_score

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------------- |
| value || 当前最大的 Base Compaction Score |

#### 指标集合:doris_be_timeout_canceled_fragment_count

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | --------------------------------------------- |
| value || 因超时而被取消的 fragment instance 数量累计值 |

#### 指标集合:doris_be_load_rows

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------- |
| value || 通过 tablet sink 发送的行数累计 |

#### 指标集合:doris_be_all_rowsets_num

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------- |
| value || 当前所有 rowset 的个数 |

#### 指标集合:doris_be_all_segments_num

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------- |
| value || 当前所有 segment 的个数 |

#### 指标集合:doris_be_heavy_work_max_threads

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------ |
| value || brpc heavy线程池线程个数 |

#### 指标集合:doris_be_light_work_max_threads

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------ |
| value || brpc light线程池线程个数 |

#### 指标集合:doris_be_heavy_work_pool_queue_size

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------------------------------- |
| value || brpc heavy线程池队列最大长度,超过则阻塞提交work |

#### 指标集合:doris_be_light_work_pool_queue_size

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------------------------------- |
| value || brpc light线程池队列最大长度,超过则阻塞提交work |

#### 指标集合:doris_be_heavy_work_active_threads

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------- |
| value || brpc heavy线程池活跃线程数 |

#### 指标集合:doris_be_light_work_active_threads

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------- |
| value || brpc light线程池活跃线程数 |

#### 指标集合:doris_be_compaction_bytes_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| ---------- | -------- | ---------------------------------- |
| base | 字节 | Base Compaction 的数据量累计 |
| cumulative | 字节 | Cumulative Compaction 的数据量累计 |

#### 指标集合:doris_be_disks_avail_capacity

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------- |
| path || 指定数据目录 |
| value | 字节 | `{path="/path1/"}` 表示 `/path1` 目录所在磁盘的剩余空间 |

#### 指标集合:doris_be_disks_total_capacity

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------- |
| path || 指定数据目录 |
| value | 字节 | `{path="/path1/"}` 表示 `/path1` 目录所在磁盘的全部空间 |

#### 指标集合:doris_be_local_bytes_read_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | --------------------------------- |
| value | 字节 |`LocalFileReader` 读取的字节数 |

#### 指标集合:doris_be_local_bytes_written_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | --------------------------------- |
| value | 字节 |`LocalFileWriter` 写入的字节数 |

#### 指标集合:doris_be_memory_allocated_bytes

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | --------------------------------------------------- |
| value | 字节 | BE 进程物理内存大小,取自 `/proc/self/status/VmRSS` |
127 changes: 127 additions & 0 deletions home/docs/help/doris_fe.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,127 @@
---
id: doris_fe
title: 监控:DORIS数据库FE监控
sidebar_label: DORIS数据库FE
keywords: [开源监控系统, 开源数据库监控, DORIS数据库FE监控]
---

> 对DORIS数据库FE的通用性能指标进行采集监控。支持DORIS2.0.0。
### 配置参数

| 参数名称 | 参数帮助描述 |
| ------------ | ------------------------------------------------------------ |
| 监控Host | 被监控的对端IPV4,IPV6或域名。注意⚠️不带协议头(eg: https://, http://) |
| 监控名称 | 标识此监控的名称,名称需要保证唯一性 |
| 端口 | 数据库对外提供的端口,默认为8030 |
| 查询超时时间 | 设置连接未响应的超时时间,单位ms毫秒,默认3000毫秒 |
| 数据库名称 | 数据库实例名称,可选 |
| 采集间隔 | 监控周期性采集数据间隔时间,单位秒,可设置的最小间隔为30秒 |
| 是否探测 | 新增监控前是否先探测检查监控可用性,探测成功才会继续新增修改操作 |
| 描述备注 | 更多标识和描述此监控的备注信息,用户可以在这里备注信息 |

### 采集指标

#### 指标集合:doris_fe_connection_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------- |
| value || 当前FE的MySQL端口连接数 |

#### 指标集合:doris_fe_edit_log_clean

不应失败,如失败,需人工介入

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------- |
| success || 清理历史元数据日志成功的次数 |
| failed || 清理历史元数据日志失败的次数 |


#### 指标集合:doris_fe_edit_log

| 指标名称 | 指标单位 | 指标帮助描述 |
| ----------------- | -------- | ------------------------ |
| write || 元数据日志写入次数的计数 |
| read || 元数据日志读取次数的计数 |
| current || 元数据日志当前数量 |
| accumulated_bytes | 字节 | 元数据日志写入量的累计值 |
| current_bytes | 字节 | 元数据日志当前值 |

#### 指标集合:doris_fe_image_clean

不应失败,如失败,需人工介入

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------------- |
| success || 清理历史元数据镜像文件成功的次数 |
| failed || 清理历史元数据镜像文件失败的次数 |

#### 指标集合:doris_fe_image_write

不应失败,如失败,需人工介入

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------- |
| success || 生成元数据镜像文件成功的次数 |
| failed || 生成元数据镜像文件失败的次数 |

#### 指标集合:doris_fe_query_err

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------- |
| value || 错误查询的累积值 |

#### 指标集合:doris_fe_max_journal_id

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value || 当前FE节点最大元数据日志ID。如果是Master FE,则是当前写入的最大ID,如果是非Master FE,则代表当前回放的元数据日志最大ID。用于观察多个FE之间的 id 是否差距过大。过大则表示元数据同步出现问题 |

#### 指标集合:doris_fe_max_tablet_compaction_score

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value || 所有BE节点中最大的 compaction score 值。该值可以观测当前集群最大的 compaction score,以判断是否过高。如过高则可能出现查询或写入延迟 |

#### 指标集合:doris_fe_qps

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------ |
| value || 当前FE每秒查询数量(仅统计查询请求) |

#### 指标集合:doris_fe_query_err_rate

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------- |
| value || 每秒错误查询数 |

#### 指标集合:doris_fe_report_queue_size

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value || BE的各种定期汇报任务在FE端的队列长度,该值反映了汇报任务在 Master FE 节点上的阻塞程度,数值越大,表示FE处理能力不足 |

#### 指标集合:doris_fe_rps

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------------------------- |
| value || 当前FE每秒请求数量(包含查询以及其他各类语句) |

#### 指标集合:doris_fe_scheduled_tablet_num

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value || Master FE节点正在调度的 tablet 数量。包括正在修复的副本和正在均衡的副本,该数值可以反映当前集群,正在迁移的 tablet 数量。如果长时间有值,说明集群不稳定 |

#### 指标集合:doris_fe_txn_status

可以观测各个状态下导入事务的数量,来判断是否有堆积

| 指标名称 | 指标单位 | 指标帮助描述 |
| --------- | -------- | ------------- |
| unknown || 未知 |
| prepare || 准备中 |
| committed || 已提交 |
| visible || 可见 |
| aborted || 已中止/已撤销 |
Loading

0 comments on commit 3ad3bf7

Please sign in to comment.