通过一起重启coredns操作引发的故障延伸至dns监控

时间：2020-11-05 13:18:10 来源：作者：

前言

近日在工作中修改DNS，由于CoreDNS pod数量比较多，习惯性地使用脚本批量重启，随之引发了Nginx ingress的告警，有大量超时的请求发生，开始并未意识到是修改CoreDNS的原因，后来看故障时间与批量重启时间一致，才意识到是同一个问题，K8S 内部service通信其实也要经过CoreDNS。同时发现这块监控缺失，亡羊补牢，为时不晚，添加监控，规范操作，避免此类低级问题再次出现。

CoreDNS简介

CoreDNS

CoreDNS 是一个从 Caddy 中 Fork 出来的项目（同时继承了它的链式中间件风格），作为 CNCF 项目中的一员，它的目标是提供一个快速且灵活的 DNS 服务。

CoreDNS在Kubernetes1.11版本已经作为GA功能释放，成为Kubernetes默认的DNS服务替代了Kube-DNS，目前是kubeadm、kube-up、minikube和kops安装工具的默认选项。

监控CoreDNS

CoreDNS

开启CoreDNS性能指标

前提是需有一套K8S集群，使用CoreDNS作为内部的域名解析系统，同时集群内设置了Prometheus作为指标收集。

$ kubectl edit deployment coredns -n kube-system
.....
 34     metadata:
 35       annotations:
 36         prometheus.io/path: /metrics
 37         prometheus.io/port: "9153"
 38         prometheus.io/scrape: "true"
 39       creationTimestamp: null
.....

默认监听的地址为: :9253/metrics，在Prometheus中配置target之后就可以采集coredns性能数据了。

- job_name: coredns
  static_configs:
    - targets: 
      - xxx:9153
      labels:
        instance: coredns

CoreDNS性能指标列表

性能指标列表

CoreDNS监控指标

coredns_dns_request_count_total指标

coredns_dns_request_count_total

coredns_dns_request_size_bytes指标

coredns_dns_request_size_bytes

le维度取值范围：0, 100, 200, 300, 400, 511, 1023, 2047, 4095, 8291, 16000, 32000, 48000, 64000.

coredns_dns_request_duration_seconds指标

coredns_dns_request_duration_seconds

le维度取值范围：0.00025，0.0005，..., 后一个以前值的2倍数增加，最多16个，最后一个lnf为无穷大。

coredns_dns_request_type_count_total指标

coredns_dns_request_type_count_total

DNS记录类型：

DNS记录类型

coredns_dns_response_size_bytes指标

coredns_dns_response_size_bytes

le维度取值范围：0, 100, 200, 300, 400, 511, 1023, 2047, 4095, 8291, 16000, 32000, 48000, 64000.

coredns_panic_count_total指标

进程出现中断的次数

coredns_dns_response_rcode_count_total指标

coredns_dns_response_rcode_count_total

常见状态码:

常见状态码

结束语

希望大家对生产环境有一颗敬畏之心，操作需要谨慎再谨慎。目前CoreDNS以上每个基本指标都已经做了监控，可能方式比较low，但是好胜于无，以后慢慢优化吧。如果有不对的地方，欢迎大家批评指正，共同学习。

Tags：dns监控点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

通过一起重启coredns操作引发的故障延伸至dns监控

前言 CoreDNS近日在工作中修改DNS，由于CoreDNS pod数量比较多，习惯性地使用脚本批量重启，随之引发了nginx ingress的告警，有大量超时的请求发生，开始并未意识到是修改CoreDNS的原...【详细内容】

2020-11-05　　Tags: dns监控点击:(285)　　评论:(0)　　加入收藏

▌简易百科推荐

shell练习之获取本机ip地址、网关、dns信息

写一个shell获取本机ip地址、网关地址以及dns信息。经常会遇到取本机ip、网关、dns地址，windows一个命令ipconfig /all全部获取到，但linux系统却并非如此。linux系统都自带ifc...【详细内容】

2021-12-27　　K佬食古　　　　Tags:shell 　点击:(1)　　评论:(0)　　加入收藏

Centos6下网卡启动、配置ifcfg-eth0教程

步骤1、配置 /etc/sysconfig/network-scripts/ifcfg-eth0 里的文件。it动力的CentOS下的ifcfg-eth0的配置详情：[root@localhost ~]# vim /etc/sysconfig/network-scripts/ifc...【详细内容】

2021-12-24　　忆梦如风　　　　Tags:网卡　点击:(9)　　评论:(0)　　加入收藏

运维需要掌握的 17 个实用技巧

1、查找当前目录下所有以.tar结尾的文件然后移动到指定目录find . -name “*.tar” -execmv {}./backup/ ;注解：find –name 主要用于查找某个文件名字，-exec 、xargs可...【详细内容】

2021-12-17　　郭主任　　　　Tags:运维　点击:(18)　　评论:(0)　　加入收藏

电脑有网络但网页无法打开是什么原因，电脑网友打不开怎么解决

对于经常上网的朋友来说，除了手机购物上网，pc端玩网页游戏还是很多小伙伴首选的，但是有时候明明宽带链接上了，打开浏览器却出现上不了网的现象，下面小编要来跟大家说说电脑有网络...【详细内容】

2021-12-16　　小白系统　　　　Tags:网页无法打开　点击:(28)　　评论:(0)　　加入收藏

访问外网很慢，怎么办？

在访问像github、gitlab这样的外国网站时，很有可能会出现页面加载不出来或找不到页面的错误。这时候有的朋友就会以为是网络的问题，于是把Wifi断掉连上自己手机的热点，结果却还...【详细内容】

2021-12-15　　启施技术IT狼叔　　　　Tags:外网　点击:(14)　　评论:(0)　　加入收藏

PHP&Python获取当前网络外网ip地址

网络地址来源：获取公网IP地址 https://ipip.yy.com/get_ip_info.phphttp://pv.sohu.com/cityjson?ie=utf-8http://www.ip168.com/json.do?view=myipaddress...【详细内容】

2021-12-15　　韦廷华12　　　　Tags:外网ip 　点击:(14)　　评论:(0)　　加入收藏

交换机与本地计算机FTP服务端之间的文件互传功能

准备好软件IPOP、用ENSP模拟一下华为交换机启动交换机 <Huawei>sysEnter system view, return user view with Ctrl+Z.[Huawei]sysname FTPClient[FTPClient]interface vla...【详细内容】

2021-12-15　　思源Edward　　　　Tags:交换机　点击:(22)　　评论:(0)　　加入收藏

shell练习之分析netstat结果

我们经常用到netstat命令查看主机连接状况，包括连接ip、端口、状态等，今天就练习下shell分析netsat结果。描述假设netstat命令运行的结果我们存储在nowcoder.txt里，格式如下：Pro...【详细内容】

2021-12-14　　K佬食古　　　　Tags:netstat 　点击:(19)　　评论:(0)　　加入收藏

一文带你搞定TCP滑动窗口

什么是滑动窗口？窗口是操作系统开辟的一块缓存空间，发送方在收到接收方ACK应答之前，必须在缓冲区保留已发送的数据，如果按期收到确认应答，数据就可以从缓冲区移除。什么是滑动窗...【详细内容】

2021-12-14　　DifferentJava　　　　Tags:TCP 　点击:(28)　　评论:(0)　　加入收藏

清除华为路由交换设备console登录密码

概述日常管理华为路由设备过程中，难为会忘记设备登录密码，那么该如何重置设备登录密码吗？本期文章将全面向各位小伙伴总结分享。重置华为设备登录密码思路先行采用console登录...【详细内容】

2021-12-10　　onme0　　　　Tags: 　点击:(27)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为

无相关信息