栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 前沿技术 > 云计算 > Docker/k8s

Longhorn,企业级云原生容器分布式存储之监控

Docker/k8s 更新时间:发布时间: 百科书网 趣学号



目录

设置 Prometheus 和 Grafana 来监控 Longhorn 将 Longhorn 指标集成到 Rancher 监控系统中 Longhorn 监控指标 支持 Kubelet Volume 指标 Longhorn 警报规则示例

设置 Prometheus 和 Grafana 来监控 Longhorn

概览

Longhorn 在 REST 端点 http://LONGHORN_MANAGER_IP:PORT/metrics 上以 Prometheus 文本格式原生公开指标。有关所有可用指标的说明,请参阅 Longhorn's metrics。您可以使用 Prometheus, Graphite, Telegraf 等任何收集工具来抓取这些指标,然后通过 Grafana 等工具将收集到的数据可视化。

本文档提供了一个监控 Longhorn 的示例设置。监控系统使用 Prometheus 收集数据和警报,使用 Grafana 将收集的数据可视化/仪表板(visualizing/dashboarding)。高级概述来看,监控系统包含:

Prometheus 服务器从 Longhorn 指标端点抓取和存储时间序列数据。Prometheus 还负责根据配置的规则和收集的数据生成警报。Prometheus 服务器然后将警报发送到 alertmanager。 alertManager 然后管理这些警报(alerts),包括静默(silencing)、抑制(inhibition)、聚合(aggregation)和通过电子邮件、呼叫通知系统和聊天平台等方法发送通知。 Grafana 向 Prometheus 服务器查询数据并绘制仪表板进行可视化。

下图描述了监控系统的详细架构。



上图中有 2 个未提及的组件:

Longhorn 后端服务是指向 Longhorn manager pods 集的服务。Longhorn 的指标在端点 http://LONGHORN_MANAGER_IP:PORT/metrics 的 Longhorn manager pods 中公开。 Prometheus operator 使在 Kubernetes 上运行 Prometheus 变得非常容易。operator 监视 3 个自定义资源:ServiceMonitor、Prometheus 和 alertManager。当用户创建这些自定义资源时,Prometheus Operator 会使用用户指定的配置部署和管理 Prometheus server, AlerManager。

安装

按照此说明将所有组件安装到 monitoring 命名空间中。要将它们安装到不同的命名空间中,请更改字段 namespace: OTHER_NAMESPACE

创建 monitoring 命名空间

  1. apiVersion: v1 kind: Namespace 
  2. metadata:   name: monitoring 

安装 Prometheus Operator

部署 Prometheus Operator 及其所需的 ClusterRole、ClusterRoleBinding 和 Service Account。

  1. apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRoleBinding 
  2. metadata:   labels: 
  3.     app.kubernetes.io/component: controller     app.kubernetes.io/name: prometheus-operator 
  4.     app.kubernetes.io/version: v0.38.3   name: prometheus-operator 
  5.   namespace: monitoring roleRef: 
  6.   apiGroup: rbac.authorization.k8s.io   kind: ClusterRole 
  7.   name: prometheus-operator subjects: 
  8. - kind: ServiceAccount   name: prometheus-operator 
  9.   namespace: monitoring --- 
  10. apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRole 
  11. metadata:   labels: 
  12.     app.kubernetes.io/component: controller     app.kubernetes.io/name: prometheus-operator 
  13.     app.kubernetes.io/version: v0.38.3   name: prometheus-operator 
  14.   namespace: monitoring rules: 
  15. - apiGroups:   - apiextensions.k8s.io 
  16.   resources:   - customresourcedefinitions 
  17.   verbs:   - create 
  18. - apiGroups:   - apiextensions.k8s.io 
  19.   resourceNames:   - alertmanagers.monitoring.coreos.com 
  20.   - podmonitors.monitoring.coreos.com   - prometheuses.monitoring.coreos.com 
  21.   - prometheusrules.monitoring.coreos.com   - servicemonitors.monitoring.coreos.com 
  22.   - thanosrulers.monitoring.coreos.com   resources: 
  23.   - customresourcedefinitions   verbs: 
  24.   - get   - update 
  25. - apiGroups:   - monitoring.coreos.com 
  26.   resources:   - alertmanagers 
  27.   - alertmanagers/finalizers   - prometheuses 
  28.   - prometheuses/finalizers   - thanosrulers 
  29.   - thanosrulers/finalizers   - servicemonitors 
  30.   - podmonitors   - prometheusrules 
  31.   verbs:   - '*' 
  32. - apiGroups:   - apps 
  33.   resources:   - statefulsets 
  34.   verbs:   - '*' 
  35. - apiGroups:   - "" 
  36.   resources:   - configmaps 
  37.   - secrets   verbs: 
  38.   - '*' - apiGroups: 
  39.   - ""   resources: 
  40.   - pods   verbs: 
  41.   - list   - delete 
  42. - apiGroups:   - "" 
  43.   resources:   - services 
  44.   - services/finalizers   - endpoints 
  45.   verbs:   - get 
  46.   - create   - update 
  47.   - delete - apiGroups: 
  48.   - ""   resources: 
  49.   - nodes   verbs: 
  50.   - list   - watch 
  51. - apiGroups:   - "" 
  52.   resources:   - namespaces 
  53.   verbs:   - get 
  54.   - list   - watch 
  55. --- apiVersion: apps/v1 
  56. kind: Deployment metadata: 
  57.   labels:     app.kubernetes.io/component: controller 
  58.     app.kubernetes.io/name: prometheus-operator     app.kubernetes.io/version: v0.38.3 
  59.   name: prometheus-operator   namespace: monitoring 
  60. spec:   replicas: 1 
  61.   selector:     matchLabels: 
  62.       app.kubernetes.io/component: controller       app.kubernetes.io/name: prometheus-operator 
  63.   template:     metadata: 
  64.       labels:         app.kubernetes.io/component: controller 
  65.         app.kubernetes.io/name: prometheus-operator         app.kubernetes.io/version: v0.38.3 
  66.     spec:       containers: 
  67.       - args:         - --kubelet-service=kube-system/kubelet 
  68.         - --logtostderr=true         - --config-reloader-image=jimmidyson/configmap-reload:v0.3.0 
  69.         - --prometheus-config-reloader=quay.io/prometheus-operator/prometheus-config-reloader:v0.38.3         image: quay.io/prometheus-operator/prometheus-operator:v0.38.3 
  70.         name: prometheus-operator         ports: 
  71.         - containerPort: 8080           name: http 
  72.         resources:           limits: 
  73.             cpu: 200m             memory: 200Mi 
  74.           requests:             cpu: 100m 
  75.             memory: 100Mi         securityContext: 
  76.           allowPrivilegeEscalation: false       nodeSelector: 
  77.         beta.kubernetes.io/os: linux       securityContext: 
  78.         runAsNonRoot: true         runAsUser: 65534 
  79.       serviceAccountName: prometheus-operator --- 
  80. apiVersion: v1 kind: ServiceAccount 
  81. metadata:   labels: 
  82.     app.kubernetes.io/component: controller     app.kubernetes.io/name: prometheus-operator 
  83.     app.kubernetes.io/version: v0.38.3   name: prometheus-operator 
  84.   namespace: monitoring --- 
  85. apiVersion: v1 kind: Service 
  86. metadata:   labels: 
  87.     app.kubernetes.io/component: controller     app.kubernetes.io/name: prometheus-operator 
  88.     app.kubernetes.io/version: v0.38.3   name: prometheus-operator 
  89.   namespace: monitoring spec: 
  90.   clusterIP: None   ports: 
  91.   - name: http     port: 8080 
  92.     targetPort: http   selector: 
  93.     app.kubernetes.io/component: controller     app.kubernetes.io/name: prometheus-operator 

安装 Longhorn ServiceMonitor

Longhorn ServiceMonitor 有一个标签选择器 app: longhorn-manager 来选择 Longhorn 后端服务。稍后,Prometheus CRD 可以包含 Longhorn ServiceMonitor,以便 Prometheus server 可以发现所有 Longhorn manager pods 及其端点。

  1. apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor 
  2. metadata:   name: longhorn-prometheus-servicemonitor 
  3.   namespace: monitoring   labels: 
  4.     name: longhorn-prometheus-servicemonitor spec: 
  5.   selector:     matchLabels: 
  6.       app: longhorn-manager   namespaceSelector: 
  7.     matchNames:     - longhorn-system 
  8.   endpoints:   - port: manager 

安装和配置 Prometheus alertManager

使用 3 个实例创建一个高可用的 alertmanager 部署:

  1. apiVersion: monitoring.coreos.com/v1 kind: alertmanager 
  2. metadata:   name: longhorn 
  3.   namespace: monitoring spec: 
  4.   replicas: 3 

除非提供有效配置,否则 alertmanager 实例将无法启动。有关 alertmanager 配置的更多说明,请参见此处。下面的代码给出了一个示例配置:

  1. global:   resolve_timeout: 5m 
  2. route:   group_by: [alertname] 
  3.   receiver: email_and_slack receivers: 
  4. - name: email_and_slack   email_configs: 
  5.   - to:      from:  
  6.     smarthost:      # SMTP authentication information. 
  7.     auth_username:      auth_identity:  
  8.     auth_password:      headers: 
  9.       subject: 'Longhorn-alert'     text: |- 
  10.       {{ range .alerts }}         *alert:* {{ .Annotations.summary }} - `{{ .Labels.severity }}` 
  11.         *Description:* {{ .Annotations.description }}         *Details:* 
  12.         {{ range .Labels.SortedPairs }} • *{{ .Name }}:* `{{ .Value }}`         {{ end }} 
  13.       {{ end }}   slack_configs: 
  14.   - api_url:      channel:  
  15.     text: |-       {{ range .alerts }} 
  16.         *alert:* {{ .Annotations.summary }} - `{{ .Labels.severity }}`         *Description:* {{ .Annotations.description }} 
  17.         *Details:*         {{ range .Labels.SortedPairs }} • *{{ .Name }}:* `{{ .Value }}` 
  18.         {{ end }}       {{ end }} 

将上述 alertmanager 配置保存在名为 alertmanager.yaml 的文件中,并使用 kubectl 从中创建一个 secret。

alertmanager 实例要求 secret 资源命名遵循 alertmanager-{alertMANAGER_NAME} 格式。在上一步中,alertmanager 的名称是 longhorn,所以 secret 名称必须是 alertmanager-longhorn

  1. $ kubectl create secret generic alertmanager-longhorn --from-file=alertmanager.yaml -n monitoring 

为了能够查看 alertmanager 的 Web UI,请通过 Service 公开它。一个简单的方法是使用 NodePort 类型的 Service :

  1. apiVersion: v1 kind: Service 
  2. metadata:   name: alertmanager-longhorn 
  3.   namespace: monitoring spec: 
  4.   type: NodePort   ports: 
  5.   - name: web     nodePort: 30903 
  6.     port: 9093     protocol: TCP 
  7.     targetPort: web   selector: 
  8.     alertmanager: longhorn 

创建上述服务后,您可以通过节点的 IP 和端口 30903 访问 alertmanager 的 web UI。

使用上面的 NodePort 服务进行快速验证,因为它不通过 TLS 连接进行通信。您可能希望将服务类型更改为 ClusterIP,并设置一个 Ingress-controller 以通过 TLS 连接公开 alertmanager 的 web UI。

安装和配置 Prometheus server

创建定义警报条件的 PrometheusRule 自定义资源。

  1. apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule 
  2. metadata:   labels: 
  3.     prometheus: longhorn     role: alert-rules 
  4.   name: prometheus-longhorn-rules   namespace: monitoring 
  5. spec:   groups: 
  6.   - name: longhorn.rules     rules: 
  7.     - alert: LonghornVolumeUsageCritical       annotations: 
  8.         description: Longhorn volume {{$labels.volume}} on {{$labels.node}} is at {{$value}}% used for           more than 5 minutes. 
  9.         summary: Longhorn volume capacity is over 90% used.       expr: 100 * (longhorn_volume_usage_bytes / longhorn_volume_capacity_bytes) > 90 
  10.       for: 5m       labels: 
  11.         issue: Longhorn volume {{$labels.volume}} usage on {{$labels.node}} is critical.         severity: critical 

有关如何定义警报规则的更多信息,请参见https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/#alerting-rules

如果激活了 RBAC 授权,则为 Prometheus Pod 创建 ClusterRole 和 ClusterRoleBinding:

  1. apiVersion: v1 kind: ServiceAccount 
  2. metadata:   name: prometheus 
  3.   namespace: monitoring apiVersion: rbac.authorization.k8s.io/v1beta1 
  4. kind: ClusterRole metadata: 
  5.   name: prometheus   namespace: monitoring 
  6. rules: - apiGroups: [""] 
  7.   resources:   - nodes 
  8.   - services   - endpoints 
  9.   - pods   verbs: ["get", "list", "watch"] 
  10. - apiGroups: [""]   resources: 
  11.   - configmaps   verbs: ["get"] 
  12. - nonResourceURLs: ["/metrics"]   verbs: ["get"] 
  13. apiVersion: rbac.authorization.k8s.io/v1beta1 kind: ClusterRoleBinding 
  14. metadata:   name: prometheus 
  15. roleRef:   apiGroup: rbac.authorization.k8s.io 
  16.   kind: ClusterRole   name: prometheus 
  17. subjects: - kind: ServiceAccount 
  18.   name: prometheus   namespace: monitoring 

创建 Prometheus 自定义资源。请注意,我们在 spec 中选择了 Longhorn 服务监视器(service monitor)和 Longhorn 规则。

  1. apiVersion: monitoring.coreos.com/v1 kind: Prometheus 
  2. metadata:   name: prometheus 
  3.   namespace: monitoring spec: 
  4.   replicas: 2   serviceAccountName: prometheus 
  5.   alerting:     alertmanagers: 
  6.       - namespace: monitoring         name: alertmanager-longhorn 
  7.         port: web   serviceMonitorSelector: 
  8.     matchLabels:       name: longhorn-prometheus-servicemonitor 
  9.   ruleSelector:     matchLabels: 
  10.       prometheus: longhorn       role: alert-rules 

为了能够查看 Prometheus 服务器的 web UI,请通过 Service 公开它。一个简单的方法是使用 NodePort 类型的 Service:

  1. apiVersion: v1 kind: Service 
  2. metadata:   name: prometheus 
  3.   namespace: monitoring spec: 
  4.   type: NodePort   ports: 
  5.   - name: web     nodePort: 30904 
  6.     port: 9090     protocol: TCP 
  7.     targetPort: web   selector: 
  8.     prometheus: prometheus 

创建上述服务后,您可以通过节点的 IP 和端口 30904 访问 Prometheus server 的 web UI。

此时,您应该能够在 Prometheus server UI 的目标和规则部分看到所有 Longhorn manager targets 以及 Longhorn rules。

使用上述 NodePort service 进行快速验证,因为它不通过 TLS 连接进行通信。您可能希望将服务类型更改为 ClusterIP,并设置一个 Ingress-controller 以通过 TLS 连接公开 Prometheus server 的 web UI。

安装 Grafana

创建 Grafana 数据源配置:

  1. apiVersion: v1 kind: ConfigMap 
  2. metadata:   name: grafana-datasources 
  3.   namespace: monitoring data: 
  4.   prometheus.yaml: |-     { 
  5.         "apiVersion": 1,         "datasources": [ 
  6.             {                "access":"proxy", 
  7.                 "editable": true,                 "name": "prometheus", 
  8.                 "orgId": 1,                 "type": "prometheus", 
  9.                 "url": "http://prometheus:9090",                 "version": 1 
  10.             }         ] 
  11.     } 

创建 Grafana 部署:

  1. apiVersion: apps/v1 kind: Deployment 
  2. metadata:   name: grafana 
  3.   namespace: monitoring   labels: 
  4.     app: grafana spec: 
  5.   replicas: 1   selector: 
  6.     matchLabels:       app: grafana 
  7.   template:     metadata: 
  8.       name: grafana       labels: 
  9.         app: grafana     spec: 
  10.       containers:       - name: grafana 
  11.         image: grafana/grafana:7.1.5         ports: 
  12.         - name: grafana           containerPort: 3000 
  13.         resources:           limits: 
  14.             memory: "500Mi"             cpu: "300m" 
  15.           requests:             memory: "500Mi" 
  16.             cpu: "200m"         volumeMounts: 
  17.           - mountPath: /var/lib/grafana             name: grafana-storage 
  18.           - mountPath: /etc/grafana/provisioning/datasources             name: grafana-datasources 
  19.             readOnly: false       volumes: 
  20.         - name: grafana-storage           emptyDir: {} 
  21.         - name: grafana-datasources           configMap: 
  22.               defaultMode: 420               name: grafana-datasources 

在 NodePort 32000 上暴露 Grafana:

  1. apiVersion: v1 kind: Service 
  2. metadata:   name: grafana 
  3.   namespace: monitoring spec: 
  4.   selector:     app: grafana 
  5.   type: NodePort   ports: 
  6.     - port: 3000       targetPort: 3000 
  7.       nodePort: 32000 

使用上述 NodePort 服务进行快速验证,因为它不通过 TLS 连接进行通信。您可能希望将服务类型更改为 ClusterIP,并设置一个 Ingress-controller 以通过 TLS 连接公开 Grafana。

使用端口 32000 上的任何节点 IP 访问 Grafana 仪表板。默认凭据为:

  1. User: admin Pass: admin 

安装 Longhorn dashboard

进入 Grafana 后,导入预置的面板:https://grafana.com/grafana/dashboards/13032

有关如何导入 Grafana dashboard 的说明,请参阅 https://grafana.com/docs/grafana/latest/reference/export_import/

成功后,您应该会看到以下 dashboard:



将 Longhorn 指标集成到 Rancher 监控系统中

关于 Rancher 监控系统

使用 Rancher,您可以通过与领先的开源监控解决方案 Prometheus 的集成来监控集群节点、Kubernetes 组件和软件部署的状态和进程。

有关如何部署/启用 Rancher 监控系统的说明,请参见https://rancher.com/docs/rancher/v2.x/en/monitoring-alerting/

将 Longhorn 指标添加到 Rancher 监控系统

如果您使用 Rancher 来管理您的 Kubernetes 并且已经启用 Rancher 监控,您可以通过简单地部署以下 ServiceMonitor 将 Longhorn 指标添加到 Rancher 监控中:

  1. apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor 
  2. metadata:   name: longhorn-prometheus-servicemonitor 
  3.   namespace: longhorn-system   labels: 
  4.     name: longhorn-prometheus-servicemonitor spec: 
  5.   selector:     matchLabels: 
  6.       app: longhorn-manager   namespaceSelector: 
  7.     matchNames:     - longhorn-system 
  8.   endpoints:   - port: manager 

创建 ServiceMonitor 后,Rancher 将自动发现所有 Longhorn 指标。

然后,您可以设置 Grafana 仪表板以进行可视化。

Longhorn 监控指标

Volume(卷)

指标名 说明 示例
longhorn_volume_actual_size_bytes 对应节点上卷的每个副本使用的实际空间 longhorn_volume_actual_size_bytes{node="worker-2",volume="testvol"} 1.1917312e+08
longhorn_volume_capacity_bytes 此卷的配置大小(以 byte 为单位) longhorn_volume_capacity_bytes{node="worker-2",volume="testvol"} 6.442450944e+09
longhorn_volume_state 本卷状态:1=creating, 2=attached, 3=Detached, 4=Attaching, 5=Detaching, 6=Deleting longhorn_volume_state{node="worker-2",volume="testvol"} 2
longhorn_volume_robustness 本卷的健壮性: 0=unknown, 1=healthy, 2=degraded, 3=faulted longhorn_volume_robustness{node="worker-2",volume="testvol"} 1

Node(节点)

指标名 说明 示例
longhorn_node_status 该节点的状态:1=true, 0=false longhorn_node_status{condition="ready",condition_reason="",node="worker-2"} 1
longhorn_node_count_total Longhorn 系统中的节点总数 longhorn_node_count_total 4
longhorn_node_cpu_capacity_millicpu 此节点上的最大可分配 CPU longhorn_node_cpu_capacity_millicpu{node="worker-2"} 2000
longhorn_node_cpu_usage_millicpu 此节点上的 CPU 使用率 longhorn_node_cpu_usage_millicpu{node="pworker-2"} 186
longhorn_node_memory_capacity_bytes 此节点上的最大可分配内存 longhorn_node_memory_capacity_bytes{node="worker-2"} 4.031229952e+09
longhorn_node_memory_usage_bytes 此节点上的内存使用情况 longhorn_node_memory_usage_bytes{node="worker-2"} 1.833582592e+09
longhorn_node_storage_capacity_bytes 本节点的存储容量 longhorn_node_storage_capacity_bytes{node="worker-3"} 8.3987283968e+10
longhorn_node_storage_usage_bytes 该节点的已用存储 longhorn_node_storage_usage_bytes{node="worker-3"} 9.060941824e+09
longhorn_node_storage_reservation_bytes 此节点上为其他应用程序和系统保留的存储空间 longhorn_node_storage_reservation_bytes{node="worker-3"} 2.519618519e+10

Disk(磁盘)

指标名 说明 示例
longhorn_disk_capacity_bytes 此磁盘的存储容量 longhorn_disk_capacity_bytes{disk="default-disk-8b28ee3134628183",node="worker-3"} 8.3987283968e+10
longhorn_disk_usage_bytes 此磁盘的已用存储空间 longhorn_disk_usage_bytes{disk="default-disk-8b28ee3134628183",node="worker-3"} 9.060941824e+09
longhorn_disk_reservation_bytes 此磁盘上为其他应用程序和系统保留的存储空间 longhorn_disk_reservation_bytes{disk="default-disk-8b28ee3134628183",node="worker-3"} 2.519618519e+10

Instance Manager(实例管理器)

 

指标名 说明 示例
longhorn_instance_manager_cpu_usage_millicpu 这个 longhorn 实例管理器的 CPU 使用率 longhorn_instance_manager_cpu_usage_millicpu{instance_manager="instance-manager-e-2189ed13",instance_manager_type="engine",node="worker-2"} 80
longhorn_instance_manager_cpu_requests_millicpu 在这个 Longhorn 实例管理器的 kubernetes 中请求的 CPU 资源 longhorn_instance_manager_cpu_requests_millicpu{instance_manager="instance-manager-e-2189ed13",instance_manager_type="engine",node="worker-2"} 250
longhorn_instance_manager_memory_usage_bytes 这个 longhorn 实例管理器的内存使用情况 longhorn_instance_manager_memory_usage_bytes{instance_manager="instance-manager-e-2189ed13",instance_manager_type="engine",node="worker-2"} 2.4072192e+07
longhorn_instance_manager_memory_requests_bytes 这个 longhorn 实例管理器在 Kubernetes 中请求的内存 longhorn_instance_manager_memory_requests_bytes{instance_manager="instance-manager-e-2189ed13",instance_manager_type="engine",node="worker-2"} 0

Manager(管理器)

指标名 说明 示例
longhorn_manager_cpu_usage_millicpu 这个 Longhorn Manager 的 CPU 使用率 longhorn_manager_cpu_usage_millicpu{manager="longhorn-manager-5rx2n",node="worker-2"} 27
longhorn_manager_memory_usage_bytes 这个 Longhorn Manager 的内存使用情况 longhorn_manager_memory_usage_bytes{manager="longhorn-manager-5rx2n",node="worker-2"} 2.6144768e+07

支持 Kubelet Volume 指标

关于 Kubelet Volume 指标

Kubelet 公开了以下指标:

    kubelet_volume_stats_capacity_bytes kubelet_volume_stats_available_bytes kubelet_volume_stats_used_bytes kubelet_volume_stats_inodes kubelet_volume_stats_inodes_free kubelet_volume_stats_inodes_used

这些指标衡量与 Longhorn 块设备内的 PVC 文件系统相关的信息。

它们与 longhorn_volume_* 指标不同,后者测量特定于 Longhorn 块设备(block device)的信息。

您可以设置一个监控系统来抓取 Kubelet 指标端点以获取 PVC 的状态并设置异常事件的警报,例如 PVC 即将耗尽存储空间。

一个流行的监控设置是 prometheus-operator/kube-prometheus-stack,,它抓取 kubelet_volume_stats_* 指标并为它们提供仪表板和警报规则。

Longhorn CSI 插件支持

在 v1.1.0 中,Longhorn CSI 插件根据 CSI spec 支持 NodeGetVolumeStats RPC。

这允许 kubelet 查询 Longhorn CSI 插件以获取 PVC 的状态。

然后 kubelet 在 kubelet_volume_stats_* 指标中公开该信息。

Longhorn 警报规则示例

我们在下面提供了几个示例 Longhorn 警报规则供您参考。请参阅此处获取所有可用 Longhorn 指标的列表并构建您自己的警报规则。

  1. apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule 
  2. metadata:   labels: 
  3.     prometheus: longhorn     role: alert-rules 
  4.   name: prometheus-longhorn-rules   namespace: monitoring 
  5. spec:   groups: 
  6.   - name: longhorn.rules     rules: 
  7.     - alert: LonghornVolumeActualSpaceUsedWarning       annotations: 
  8.         description: The actual space used by Longhorn volume {{$labels.volume}} on {{$labels.node}} is at {{$value}}% capacity for           more than 5 minutes. 
  9.         summary: The actual used space of Longhorn volume is over 90% of the capacity.       expr: (longhorn_volume_actual_size_bytes / longhorn_volume_capacity_bytes) * 100 > 90 
  10.       for: 5m       labels: 
  11.         issue: The actual used space of Longhorn volume {{$labels.volume}} on {{$labels.node}} is high.         severity: warning 
  12.     - alert: LonghornVolumeStatusCritical       annotations: 
  13.         description: Longhorn volume {{$labels.volume}} on {{$labels.node}} is Fault for           more than 2 minutes. 
  14.         summary: Longhorn volume {{$labels.volume}} is Fault       expr: longhorn_volume_robustness == 3 
  15.       for: 5m       labels: 
  16.         issue: Longhorn volume {{$labels.volume}} is Fault.         severity: critical 
  17.     - alert: LonghornVolumeStatusWarning       annotations: 
  18.         description: Longhorn volume {{$labels.volume}} on {{$labels.node}} is Degraded for           more than 5 minutes. 
  19.         summary: Longhorn volume {{$labels.volume}} is Degraded       expr: longhorn_volume_robustness == 2 
  20.       for: 5m       labels: 
  21.         issue: Longhorn volume {{$labels.volume}} is Degraded.         severity: warning 
  22.     - alert: LonghornNodeStorageWarning       annotations: 
  23.         description: The used storage of node {{$labels.node}} is at {{$value}}% capacity for           more than 5 minutes. 
  24.         summary:  The used storage of node is over 70% of the capacity.       expr: (longhorn_node_storage_usage_bytes / longhorn_node_storage_capacity_bytes) * 100 > 70 
  25.       for: 5m       labels: 
  26.         issue: The used storage of node {{$labels.node}} is high.         severity: warning 
  27.     - alert: LonghornDiskStorageWarning       annotations: 
  28.         description: The used storage of disk {{$labels.disk}} on node {{$labels.node}} is at {{$value}}% capacity for           more than 5 minutes. 
  29.         summary:  The used storage of disk is over 70% of the capacity.       expr: (longhorn_disk_usage_bytes / longhorn_disk_capacity_bytes) * 100 > 70 
  30.       for: 5m       labels: 
  31.         issue: The used storage of disk {{$labels.disk}} on node {{$labels.node}} is high.         severity: warning 
  32.     - alert: LonghornNodeDown       annotations: 
  33.         description: There are {{$value}} Longhorn nodes which have been offline for more than 5 minutes.         summary: Longhorn nodes is offline 
  34.       expr: longhorn_node_total - (count(longhorn_node_status{condition="ready"}==1) OR on() vector(0))       for: 5m 
  35.       labels:         issue: There are {{$value}} Longhorn nodes are offline 
  36.         severity: critical     - alert: LonghornIntanceManagerCPUUsageWarning 
  37.       annotations:         description: Longhorn instance manager {{$labels.instance_manager}} on {{$labels.node}} has CPU Usage / CPU request is {{$value}}% for 
  38.           more than 5 minutes.         summary: Longhorn instance manager {{$labels.instance_manager}} on {{$labels.node}} has CPU Usage / CPU request is over 300%. 
  39.       expr: (longhorn_instance_manager_cpu_usage_millicpu/longhorn_instance_manager_cpu_requests_millicpu) * 100 > 300       for: 5m 
  40.       labels:         issue: Longhorn instance manager {{$labels.instance_manager}} on {{$labels.node}} consumes 3 times the CPU request. 
  41.         severity: warning     - alert: LonghornNodeCPUUsageWarning 
  42.       annotations:         description: Longhorn node {{$labels.node}} has CPU Usage / CPU capacity is {{$value}}% for 
  43.           more than 5 minutes.         summary: Longhorn node {{$labels.node}} experiences high CPU pressure for more than 5m. 
  44.       expr: (longhorn_node_cpu_usage_millicpu / longhorn_node_cpu_capacity_millicpu) * 100 > 90       for: 5m 
  45.       labels:         issue: Longhorn node {{$labels.node}} experiences high CPU pressure. 
  46.         severity: warning 

 

在https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/#alerting-rules 查看有关如何定义警报规则的更多信息。

 

转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/796776.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号