您当前的位置:首页 > 电脑百科 > 网络技术 > 网络技术

通过一起重启coredns操作引发的故障延伸至dns监控

时间:2020-11-05 13:18:10  来源:  作者:

前言

 

通过一起重启coredns操作引发的故障延伸至dns监控

CoreDNS

近日在工作中修改DNS,由于CoreDNS pod数量比较多,习惯性地使用脚本批量重启,随之引发了Nginx ingress的告警,有大量超时的请求发生,开始并未意识到是修改CoreDNS的原因,后来看故障时间与批量重启时间一致,才意识到是同一个问题,K8S 内部service通信其实也要经过CoreDNS。同时发现这块监控缺失,亡羊补牢,为时不晚,添加监控,规范操作,避免此类低级问题再次出现。

CoreDNS简介

 

通过一起重启coredns操作引发的故障延伸至dns监控

CoreDNS

CoreDNS 是一个从 Caddy 中 Fork 出来的项目(同时继承了它的链式中间件风格),作为 CNCF 项目中的一员,它的目标是提供一个快速且灵活的 DNS 服务。

CoreDNS在Kubernetes1.11版本已经作为GA功能释放,成为Kubernetes默认的DNS服务替代了Kube-DNS,目前是kubeadm、kube-up、minikube和kops安装工具的默认选项。

监控CoreDNS

 

通过一起重启coredns操作引发的故障延伸至dns监控

CoreDNS

开启CoreDNS性能指标

前提是需有一套K8S集群,使用CoreDNS作为内部的域名解析系统,同时集群内设置了Prometheus作为指标收集。

$ kubectl edit deployment coredns -n kube-system
.....
 34     metadata:
 35       annotations:
 36         prometheus.io/path: /metrics
 37         prometheus.io/port: "9153"
 38         prometheus.io/scrape: "true"
 39       creationTimestamp: null
.....

默认监听的地址为: :9253/metrics,在Prometheus中配置target之后就可以采集coredns性能数据了。

- job_name: coredns
  static_configs:
    - targets: 
      - xxx:9153
      labels:
        instance: coredns

CoreDNS性能指标列表

 

通过一起重启coredns操作引发的故障延伸至dns监控

性能指标列表

CoreDNS监控指标

coredns_dns_request_count_total指标

通过一起重启coredns操作引发的故障延伸至dns监控

coredns_dns_request_count_total

coredns_dns_request_size_bytes指标

通过一起重启coredns操作引发的故障延伸至dns监控

coredns_dns_request_size_bytes

le维度取值范围:0, 100, 200, 300, 400, 511, 1023, 2047, 4095, 8291, 16000, 32000, 48000, 64000.

coredns_dns_request_duration_seconds指标

通过一起重启coredns操作引发的故障延伸至dns监控

coredns_dns_request_duration_seconds

le维度取值范围:0.00025,0.0005,..., 后一个以前值的2倍数增加,最多16个,最后一个lnf为无穷大。

coredns_dns_request_type_count_total指标

通过一起重启coredns操作引发的故障延伸至dns监控

coredns_dns_request_type_count_total

DNS记录类型:

通过一起重启coredns操作引发的故障延伸至dns监控

DNS记录类型

coredns_dns_response_size_bytes指标

通过一起重启coredns操作引发的故障延伸至dns监控

coredns_dns_response_size_bytes

le维度取值范围:0, 100, 200, 300, 400, 511, 1023, 2047, 4095, 8291, 16000, 32000, 48000, 64000.


coredns_panic_count_total指标

进程出现中断的次数


coredns_dns_response_rcode_count_total指标

通过一起重启coredns操作引发的故障延伸至dns监控

coredns_dns_response_rcode_count_total

常见状态码:

通过一起重启coredns操作引发的故障延伸至dns监控

常见状态码

结束语

希望大家对生产环境有一颗敬畏之心,操作需要谨慎再谨慎。目前CoreDNS以上每个基本指标都已经做了监控,可能方式比较low,但是好胜于无,以后慢慢优化吧。如果有不对的地方,欢迎大家批评指正,共同学习。



Tags:dns监控   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
前言 CoreDNS近日在工作中修改DNS,由于CoreDNS pod数量比较多,习惯性地使用脚本批量重启,随之引发了nginx ingress的告警,有大量超时的请求发生,开始并未意识到是修改CoreDNS的原...【详细内容】
2020-11-05  Tags: dns监控  点击:(285)  评论:(0)  加入收藏
▌简易百科推荐
写一个shell获取本机ip地址、网关地址以及dns信息。经常会遇到取本机ip、网关、dns地址,windows一个命令ipconfig /all全部获取到,但linux系统却并非如此。linux系统都自带ifc...【详细内容】
2021-12-27  K佬食古    Tags:shell   点击:(1)  评论:(0)  加入收藏
步骤1、配置 /etc/sysconfig/network-scripts/ifcfg-eth0 里的文件。it动力的CentOS下的ifcfg-eth0的配置详情:[root@localhost ~]# vim /etc/sysconfig/network-scripts/ifc...【详细内容】
2021-12-24  忆梦如风    Tags:网卡   点击:(9)  评论:(0)  加入收藏
1、查找当前目录下所有以.tar结尾的文件然后移动到指定目录find . -name “*.tar” -execmv {}./backup/ ;注解:find –name 主要用于查找某个文件名字,-exec 、xargs可...【详细内容】
2021-12-17  郭主任    Tags:运维   点击:(18)  评论:(0)  加入收藏
对于经常上网的朋友来说,除了手机购物上网,pc端玩网页游戏还是很多小伙伴首选的,但是有时候明明宽带链接上了,打开浏览器却出现上不了网的现象,下面小编要来跟大家说说电脑有网络...【详细内容】
2021-12-16  小白系统    Tags:网页无法打开   点击:(28)  评论:(0)  加入收藏
在访问像github、gitlab这样的外国网站时,很有可能会出现页面加载不出来或找不到页面的错误。这时候有的朋友就会以为是网络的问题,于是把Wifi断掉连上自己手机的热点,结果却还...【详细内容】
2021-12-15  启施技术IT狼叔    Tags:外网   点击:(14)  评论:(0)  加入收藏
网络地址来源:获取公网IP地址 https://ipip.yy.com/get_ip_info.phphttp://pv.sohu.com/cityjson?ie=utf-8http://www.ip168.com/json.do?view=myipaddress...【详细内容】
2021-12-15  韦廷华12    Tags:外网ip   点击:(14)  评论:(0)  加入收藏
准备好软件IPOP、用ENSP模拟一下华为交换机 启动交换机 <Huawei>sysEnter system view, return user view with Ctrl+Z.[Huawei]sysname FTPClient[FTPClient]interface vla...【详细内容】
2021-12-15  思源Edward    Tags:交换机   点击:(22)  评论:(0)  加入收藏
我们经常用到netstat命令查看主机连接状况,包括连接ip、端口、状态等,今天就练习下shell分析netsat结果。描述假设netstat命令运行的结果我们存储在nowcoder.txt里,格式如下:Pro...【详细内容】
2021-12-14  K佬食古    Tags:netstat   点击:(19)  评论:(0)  加入收藏
什么是滑动窗口?窗口是操作系统开辟的一块缓存空间,发送方在收到接收方ACK应答之前,必须在缓冲区保留已发送的数据,如果按期收到确认应答,数据就可以从缓冲区移除。什么是滑动窗...【详细内容】
2021-12-14  DifferentJava    Tags:TCP   点击:(28)  评论:(0)  加入收藏
概述日常管理华为路由设备过程中,难为会忘记设备登录密码,那么该如何重置设备登录密码吗?本期文章将全面向各位小伙伴总结分享。重置华为设备登录密码思路先行 采用console登录...【详细内容】
2021-12-10  onme0    Tags:   点击:(27)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条