https://img-blog.csdnimg.cn/img_convert/ce95bd564b7502b46fade1c5d7e14b50.png

Prometheus监控规则说明

MikelPan 发布于 2021-02-16 收录于监控

prometheus operator 监控指标

kubernetes 资源相关

CPUThrottlingHigh

关于 CPU 的 limit 合理性指标。查出最近5分钟，超过25%的 CPU 执行周期受到限制的容器。表达式：

1
2
3
4


sum(increase(container_cpu_cfs_throttled_periods_total{container!="", }[5m])) by (container, pod, namespace)
          /
sum(increase(container_cpu_cfs_periods_total{}[5m])) by (container, pod, namespace)
          > ( 25 / 100 )

Prometheus监控k8s集群组件

MikelPan 发布于 2021-02-16 收录于监控

容器监控

cAdvisor已经内置在了 kubelet 组件之中，所以不需要单独去安装，cAdvisor的数据路径为/api/v1/nodes//proxy/metrics，同样这里使用 node 的服务发现模式，因为每一个节点下面都有 kubelet，自然都有cAdvisor采集到的数据指标，配置如下：

https://www.qikqiak.com/img/posts/kubernetes_monitoring_heapster.png

Prometheus监控k8s集群节点

MikelPan 发布于 2021-02-16 收录于监控

监控k8s 集群节点

对于集群的监控一般我们需要考虑以下几个方面：

Kubernetes 节点的监控：比如节点的 cpu、load、disk、memory 等指标内部系统组件的状态：比如 kube-scheduler、kube-controller-manager、kubedns/coredns 等组件的详细运行状态编排级的 metrics：比如 Deployment 的状态、资源请求、调度和 API 延迟等数据指标

Prometheus搭建使用

mikelLam 发布于 2021-02-16 收录于监控

Prometheus Server 使用

目前环境中使用的架构

安装prometheus

其中 prometheus.yml 文件的基本配置如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


global:
  scrape_interval:     15s
  evaluation_interval: 15s

rule_files:
  # - "first.rules"
  # - "second.rules"

scrape_configs:
  - job_name: prometheus
    static_configs:
      - targets: ['localhost:9090']

上面这个配置文件中包含了3个模块：global、rule_files 和 scrape_configs。

Prometheus介绍

MikelPan 发布于 2021-02-16 收录于监控

Prometheus 简介

Prometheus 最初是 SoundCloud 构建的开源系统监控和报警工具，是一个独立的开源项目，于2016年加入了 CNCF 基金会，作为继 Kubernetes 之后的第二个托管项目。

特征

Prometheus 相比于其他传统监控工具主要有以下几个特点：

https://tc.ctq6.cn/tc/202507110718162.png

Systemd管理服务

mikelLam 发布于 2021-02-16 收录于 Linux

Systemd 服务管理

简介

Systemd 是一系列工具的集合，其作用也远远不仅是启动操作系统，它还接管了后台服务、结束、状态查询，以及日志归档、设备管理、电源管理、定时任务等许多职责，并支持通过特定事件（如插入特定 USB 设备）和特定端口数据触发的 On-demand（按需）任务。

https://tc.ctq6.cn/tc/202507110747775.png

Ssl证书自动续签

mikelLam 发布于 2021-02-16 收录于 Linux

自签证书

生成CA证书私钥

1

openssl genrsa -out ca.key 4096

生成CA证书

1
2
3
4


openssl req -x509 -new -nodes -sha512 -days 3650 \
 -subj "/C=CN/ST=Beijing/L=Beijing/O=IT/OU=Docker/CN=domain.com" \
 -key ca.key \
 -out ca.crt

生成私钥

1

openssl genrsa -out domain.com.key 4096

生成证书签名请求

1
2
3
4


openssl req -sha512 -new \
    -subj "/C=CN/ST=Beijing/L=Beijing/O=IT/OU=Docker/CN=domain.com" \
    -key domain.com.key \
    -out domain.com.csr

生成一个x509 v3扩展文件

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


cat > v3.ext <<- 'EOF'
authorityKeyIdentifier=keyid,issuer
basicConstraints=CA:FALSE
keyUsage = digitalSignature, nonRepudiation, keyEncipherment, dataEncipherment
extendedKeyUsage = serverAuth
subjectAltName = @alt_names

[alt_names]
DNS.1=127.0.0.1
DNS.2=domain.com
DNS.3=localhost
EOF

使用该v3.ext文件为服务器主机生成证书

1
2
3
4
5


openssl x509 -req -sha512 -days 3650 \
    -extfile v3.ext \
    -CA ca.crt -CAkey ca.key -CAcreateserial \
    -in domain.com.csr \
    -out domain.com.crt

自动续期

安装证书安装脚本

1
2
3
4
5


# 直接下载
curl https://get.acme.sh | sh
# clone 仓库
git clone https://github.com/acmesh-official/acme.sh.git
alias acme.sh=~/.acme.sh/acme.sh

证书签发

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


# 使用http方式
acme.sh --issue -d plyx.site -d *.plyx.site -w /var/www/html/plyx.site
# 使用dns 方式
acme.sh --issue -d *.plyx.site -d plyx.site --dns --yes-I-know-dns-manual-mode-enough-go-ahead-please # 添加A记录
dig -t txt  _acme-challenge.clsn.io @8.8.8.8 # 验证证书
acme.sh --renew  -d *.plyx.site -d plyx.site --dns --yes-I-know-dns-manual-mode-enough-go-ahead-please # 生成证书
# 使用dns api方式
api 参考文档 https://github.com/Neilpang/acme.sh/tree/master/dnsapi
export Ali_Key=""
export Ali_Secret=""
acme.sh --issue --dns dns_ali -d plyx.site -d *.plyx.site
acme.sh --issue --dns dns_ali -d plyx.site -d *.plyx.site --keylength ec-256

说明参数的含义：

–issue是 acme.sh 脚本用来颁发证书的指令；
-d是–domain的简称，其后面须填写已备案的域名；
-w 是–webroot的简称，其后面须填写网站的根目录

1
2
3
4


# 查看证书
acme.sh --list
# 删除证书
acme.sh --remove -d plyx.site [--ecc]

安装证书

生成的证书放在了/root/.acme.sh/plyx.site目录，因为这是 acme.sh 脚本的内部使用目录，而且目录结构可能会变化，所以我们不能让 Nginx 的配置文件直接读取该目录下的证书文件。

Shell编程基础03

mikelLam 发布于 2021-02-16 收录于 Linux

for循环语句

在计算机科学中，for循环（英语：for loop）是一种编程语言的迭代陈述，能够让程式码反复的执行。它跟其他的循环，如while循环，最大的不同，是它拥有一个循环计数器，或是循环变数。这使得for循环能够知道在迭代过程中的执行顺序。

Shell编程基础02

mikelLam 发布于 2021-02-16 收录于 Linux

条件表达式

文件判断

常用文件测试操作符:

常用文件测试操作符	说明
-d文件，d的全拼为directory	文件存在且为目录则为真，即测试表达式成立
-f文件，f的全拼为file	文件存在且为普通文件则为真，即测试表达式成立
-e文件，e的全拼为exist	文件存在则为真，即测试表达式成立。注意区别于“-f”，-e不辨别是目录还是文件
-r文件，r的全拼为read	文件存在且可读则为真，即测试表达式成立
-s文件，s的全拼为size	文件存在且文件大小不为0则为真，即测试表达式成立
-w文件，w的全拼为write	文件存在且可写则为真，即测试表达式成立
-x文件，x的全拼为executable	文件存在且可执行则为真，即测试表达式成立
-L文件，L的全拼为link	文件存在且为链接文件则为真，即测试表达式成立
fl -nt f2，nt 的全拼为 newer than	文件fl比文件f2新则为真，即测试表达式成立。根据文件的修改时间来计算
fl -ot f2，ot 的全拼为 older than	文件fl比文件f2旧则为真，即测试表达式成立。根据文件的修改时间来计算

判断文件是否存在

Shell编程基础01

mikelLam 发布于 2021-02-16 收录于 Linux

前言

为什么学Shell

Shell脚本语言是实现Linux/UNIX系统管理及自动化运维所必备的重要工具， Linux/UNIX系统的底层及基础应用软件的核心大都涉及Shell脚本的内容。每一个合格的Linux系统管理员或运维工程师，都需要能够熟练地编写Shell脚本语言，并能够阅读系统及各类软件附带的Shell脚本内容。只有这样才能提升运维人员的工作效率，适应曰益复杂的工作环境，减少不必要的重复工作，从而为个人的职场发展奠定较好的基础