Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

support monitoring apache doris database health and metrics #1025

Merged
merged 4 commits into from
Jun 10, 2023
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
170 changes: 170 additions & 0 deletions home/docs/help/doris_be.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,170 @@
---
id: doris_be
title: 监控:DORIS数据库BE监控
sidebar_label: DORIS数据库BE
keywords: [开源监控系统, 开源数据库监控, DORIS数据库BE监控]
---

> 对DORIS数据库FE的通用性能指标进行采集监控。支持DORIS2.0.0。

### 配置参数

| 参数名称 | 参数帮助描述 |
| ------------ | ------------------------------------------------------------ |
| 监控Host | 被监控的对端IPV4,IPV6或域名。注意⚠️不带协议头(eg: https://, http://) |
| 监控名称 | 标识此监控的名称,名称需要保证唯一性 |
| 端口 | 数据库对外提供的端口,默认为8040 |
| 查询超时时间 | 设置连接未响应的超时时间,单位ms毫秒,默认3000毫秒 |
| 数据库名称 | 数据库实例名称,可选 |
| 采集间隔 | 监控周期性采集数据间隔时间,单位秒,可设置的最小间隔为30秒 |
| 是否探测 | 新增监控前是否先探测检查监控可用性,探测成功才会继续新增修改操作 |
| 描述备注 | 更多标识和描述此监控的备注信息,用户可以在这里备注信息 |

### 采集指标

#### 指标集合:doris_be_load_channel_count

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------- |
| value | 无 | 当前打开的 load channel 个数 |

#### 指标集合:doris_be_memtable_flush_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------- |
| value | 无 | memtable写入磁盘的个数累计值 |

#### 指标集合:doris_be_plan_fragment_count

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------- |
| value | 无 | 当前已接收的 fragment instance 的数量 |

#### 指标集合:doris_be_process_thread_num

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------------------------- |
| value | 无 | BE 进程线程数。通过 `/proc/pid/task` 采集 |

#### 指标集合:doris_be_query_scan_rows

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value | 无 | 读取行数的累计值。这里只统计读取 Olap 表的数据量。并且是 RawRowsRead(部分数据行可能被索引跳过,并没有真正读取,但仍会记录到这个值中) |

#### 指标集合:doris_be_result_buffer_block_count

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------- |
| value | 无 | 当前查询结果缓存中的 query 个数 |

#### 指标集合:doris_be_send_batch_thread_pool_queue_size

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------------------- |
| value | 无 | 导入时用于发送数据包的线程池的排队个数 |

#### 指标集合:doris_be_tablet_base_max_compaction_score

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------------- |
| value | 无 | 当前最大的 Base Compaction Score |

#### 指标集合:doris_be_timeout_canceled_fragment_count

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | --------------------------------------------- |
| value | 无 | 因超时而被取消的 fragment instance 数量累计值 |

#### 指标集合:doris_be_load_rows

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------- |
| value | 无 | 通过 tablet sink 发送的行数累计 |

#### 指标集合:doris_be_all_rowsets_num

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------- |
| value | 无 | 当前所有 rowset 的个数 |

#### 指标集合:doris_be_all_segments_num

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------- |
| value | 无 | 当前所有 segment 的个数 |

#### 指标集合:doris_be_heavy_work_max_threads

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------ |
| value | 无 | brpc heavy线程池线程个数 |

#### 指标集合:doris_be_light_work_max_threads

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------ |
| value | 无 | brpc light线程池线程个数 |

#### 指标集合:doris_be_heavy_work_pool_queue_size

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------------------------------- |
| value | 无 | brpc heavy线程池队列最大长度,超过则阻塞提交work |

#### 指标集合:doris_be_light_work_pool_queue_size

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------------------------------- |
| value | 无 | brpc light线程池队列最大长度,超过则阻塞提交work |

#### 指标集合:doris_be_heavy_work_active_threads

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------- |
| value | 无 | brpc heavy线程池活跃线程数 |

#### 指标集合:doris_be_light_work_active_threads

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------- |
| value | 无 | brpc light线程池活跃线程数 |

#### 指标集合:doris_be_compaction_bytes_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| ---------- | -------- | ---------------------------------- |
| base | 字节 | Base Compaction 的数据量累计 |
| cumulative | 字节 | Cumulative Compaction 的数据量累计 |

#### 指标集合:doris_be_disks_avail_capacity

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------- |
| path | 无 | 指定数据目录 |
| value | 字节 | `{path="/path1/"}` 表示 `/path1` 目录所在磁盘的剩余空间 |

#### 指标集合:doris_be_disks_total_capacity

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------- |
| path | 无 | 指定数据目录 |
| value | 字节 | `{path="/path1/"}` 表示 `/path1` 目录所在磁盘的全部空间 |

#### 指标集合:doris_be_local_bytes_read_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | --------------------------------- |
| value | 字节 | 由 `LocalFileReader` 读取的字节数 |

#### 指标集合:doris_be_local_bytes_written_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | --------------------------------- |
| value | 字节 | 由 `LocalFileWriter` 写入的字节数 |

#### 指标集合:doris_be_memory_allocated_bytes

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | --------------------------------------------------- |
| value | 字节 | BE 进程物理内存大小,取自 `/proc/self/status/VmRSS` |
127 changes: 127 additions & 0 deletions home/docs/help/doris_fe.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,127 @@
---
id: doris_fe
title: 监控:DORIS数据库FE监控
sidebar_label: DORIS数据库FE
keywords: [开源监控系统, 开源数据库监控, DORIS数据库FE监控]
---

> 对DORIS数据库FE的通用性能指标进行采集监控。支持DORIS2.0.0。

### 配置参数

| 参数名称 | 参数帮助描述 |
| ------------ | ------------------------------------------------------------ |
| 监控Host | 被监控的对端IPV4,IPV6或域名。注意⚠️不带协议头(eg: https://, http://) |
| 监控名称 | 标识此监控的名称,名称需要保证唯一性 |
| 端口 | 数据库对外提供的端口,默认为8030 |
| 查询超时时间 | 设置连接未响应的超时时间,单位ms毫秒,默认3000毫秒 |
| 数据库名称 | 数据库实例名称,可选 |
| 采集间隔 | 监控周期性采集数据间隔时间,单位秒,可设置的最小间隔为30秒 |
| 是否探测 | 新增监控前是否先探测检查监控可用性,探测成功才会继续新增修改操作 |
| 描述备注 | 更多标识和描述此监控的备注信息,用户可以在这里备注信息 |

### 采集指标

#### 指标集合:doris_fe_connection_total

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ----------------------- |
| value | 无 | 当前FE的MySQL端口连接数 |

#### 指标集合:doris_fe_edit_log_clean

不应失败,如失败,需人工介入

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------- |
| success | 无 | 清理历史元数据日志成功的次数 |
| failed | 无 | 清理历史元数据日志失败的次数 |


#### 指标集合:doris_fe_edit_log

| 指标名称 | 指标单位 | 指标帮助描述 |
| ----------------- | -------- | ------------------------ |
| write | 无 | 元数据日志写入次数的计数 |
| read | 无 | 元数据日志读取次数的计数 |
| current | 无 | 元数据日志当前数量 |
| accumulated_bytes | 字节 | 元数据日志写入量的累计值 |
| current_bytes | 字节 | 元数据日志当前值 |

#### 指标集合:doris_fe_image_clean

不应失败,如失败,需人工介入

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------------------------- |
| success | 无 | 清理历史元数据镜像文件成功的次数 |
| failed | 无 | 清理历史元数据镜像文件失败的次数 |

#### 指标集合:doris_fe_image_write

不应失败,如失败,需人工介入

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------- |
| success | 无 | 生成元数据镜像文件成功的次数 |
| failed | 无 | 生成元数据镜像文件失败的次数 |

#### 指标集合:doris_fe_query_err

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------- |
| value | 无 | 错误查询的累积值 |

#### 指标集合:doris_fe_max_journal_id

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value | 无 | 当前FE节点最大元数据日志ID。如果是Master FE,则是当前写入的最大ID,如果是非Master FE,则代表当前回放的元数据日志最大ID。用于观察多个FE之间的 id 是否差距过大。过大则表示元数据同步出现问题 |

#### 指标集合:doris_fe_max_tablet_compaction_score

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value | 无 | 所有BE节点中最大的 compaction score 值。该值可以观测当前集群最大的 compaction score,以判断是否过高。如过高则可能出现查询或写入延迟 |

#### 指标集合:doris_fe_qps

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------ |
| value | 无 | 当前FE每秒查询数量(仅统计查询请求) |

#### 指标集合:doris_fe_query_err_rate

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | -------------- |
| value | 无 | 每秒错误查询数 |

#### 指标集合:doris_fe_report_queue_size

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value | 无 | BE的各种定期汇报任务在FE端的队列长度,该值反映了汇报任务在 Master FE 节点上的阻塞程度,数值越大,表示FE处理能力不足 |

#### 指标集合:doris_fe_rps

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ---------------------------------------------- |
| value | 无 | 当前FE每秒请求数量(包含查询以及其他各类语句) |

#### 指标集合:doris_fe_scheduled_tablet_num

| 指标名称 | 指标单位 | 指标帮助描述 |
| -------- | -------- | ------------------------------------------------------------ |
| value | 无 | Master FE节点正在调度的 tablet 数量。包括正在修复的副本和正在均衡的副本,该数值可以反映当前集群,正在迁移的 tablet 数量。如果长时间有值,说明集群不稳定 |

#### 指标集合:doris_fe_txn_status

可以观测各个状态下导入事务的数量,来判断是否有堆积

| 指标名称 | 指标单位 | 指标帮助描述 |
| --------- | -------- | ------------- |
| unknown | 无 | 未知 |
| prepare | 无 | 准备中 |
| committed | 无 | 已提交 |
| visible | 无 | 可见 |
| aborted | 无 | 已中止/已撤销 |
Loading