kubernetes endpoint一会消失一会出现的问题剖析

毛宏斌

2017-10-12

问题现象

发现某个service的后端endpoint一会显示有后端，一会显示没有。显示没有后端，意味着后端的address被判定为notready。

endpoint不正常的时候：

[root@localhost /]# kubectl get ep --namespace cxqt npth-price  -o yaml
apiVersion: v1
kind: Endpoints
metadata:
  ...
  uid: 9ed3abd1-8eff-11e7-b345-f8758831889c
subsets:
- notReadyAddresses:
  - ip: 10.1.3.70
    nodeName: 11.2.3.10
...

endpoint正常的时候：

[root@localhost /]# kubectl get ep --namespace cxqt npth-price  -o yaml
apiVersion: v1
kind: Endpoints
metadata:
  ...
  uid: 9ed3abd1-8eff-11e7-b345-f8758831889c
subsets:
- addresses:
  - ip: 10.1.3.70
    nodeName: 11.2.3.10
...

问题分析

查看源码，可以看到endpoint是根据pod的status中的conditions中type是Ready的字典中的status是否为True进行判断。

// IsPodReady returns true if a pod is ready; false otherwise.
func IsPodReady(pod *Pod) bool {
    return IsPodReadyConditionTrue(pod.Status)
}

// IsPodReady retruns true if a pod is ready; false otherwise.
func IsPodReadyConditionTrue(status PodStatus) bool {
    condition := GetPodReadyCondition(status)
    return condition != nil && condition.Status == ConditionTrue
}

apiVersion: v1
kind: Pod
metadata:
    ...
    name: e9ebca20-0f3e-4974-8178-715cbbf5c627
status:
  conditions:
  - lastProbeTime: null
    lastTransitionTime: 2017-09-08T02:58:41Z
    status: "True"
    type: Initialized
  - lastProbeTime: null
    lastTransitionTime: 2017-09-08T02:59:11Z
    status: "False"
    type: Ready
  - lastProbeTime: null
    lastTransitionTime: 2017-09-08T02:58:41Z
    status: "True"
    type: PodScheduled
...

再进行日志查看，发现这个status字段是在由kube-controller-manager进行的更新为False。

查看日志，发现kube-controller-manager更新的原因是因为controller-manager判断node上报心跳超时了。

I0919 16:05:35.383806   20248 nodecontroller.go:1007] node 11.2.3.10 hasn't been updated for 40.032883982s. Last ready condition is: {Type:Ready Status:True LastHeartbeatTime:2017-09-19 16:04:46 +0800 CST LastTransitionTime:2017-09-19 16:04:46 +0800 CST Reason:KubeletReady Message:kubelet is posting ready status}
...
I0919 16:05:35.387629   20248 controller_utils.go:320] Recording status change NodeNotReady event message for node 11.2.3.10
I0919 16:05:35.387679   20248 controller_utils.go:238] Update ready status of pods on node [11.2.3.10]

而反过来查看11.2.3.10节点上的kubelet，上面因为有许多容器、镜像等。kubelet在准备上报信息时，需要收集容器、镜像等的信息。虽然kubelet默认是10秒上报一次，但是实际的上报周期约为20~50秒。而kube-controller-manager判断node上报心跳超时的时间为40秒。所以会有一定概率超时。一旦超时，kube-controller会将该node上的所有pod的conditions中type是Ready的字典中的status置为False。

解决方案

目前一个较为简单的方案是在kube-controller上配置这个超时时间node-monitor-grace-period长一些。建议配置为60~120s。

毛宏斌

0 关注 0 粉丝 0 动态

相关推荐

两款超好用的Kubernetes实时日志查看工具

通常情况下，Kubernetes 环境下的应用日志都需要通过日志系统来进行收集，比如：Filebeat + ElasticSearch + Kibana 的组合来实现。虽然这一组合的功能相当强大，但是在一些比较简陋的测试集群中，或者不具备浏览器条件的自动化

远远的山 2020-11-09

Kubernetes上对应用程序进行故障排除的6个技巧

从 Docker 迁移到 Docker Swarm，再到 Kubernetes，然后处理了多年来的所有各种 API 更改之后，我非常乐意发现部署中出现的问题和把问题进行修复。我今天分享下我认为最有用的5条故障排除技巧，以及一些其他的使用技巧。这个命令如此重

kaidiphp 2020-10-13

首次部署 Kubernetes 应用，总会忽略这些事

根据我的个人经验，大多数人似乎倾向于通过 Helm 或者手动方式将应用程序甩给 Kubernetes，之后就坐等每天轻松调用的美好生活。但在 GumGum 公司的实践当中，我们体会到 Kubernetes 应用的一系列“陷阱”，也希望把这些陷阱与大家分享，

JustHaveTry 2020-09-29

Kubernetes如何为应用程序提供网络和存储？

网络组件支持pod到pod、节点到pod、pod到服务以及外部客户端到服务的通信。Kubernetes遵循用于实现网络服务的插件模式。Kubenet是默认的网络插件，配置简单。它通常与为节点之间或单节点环境中的通信设置路由规则的云提供商一起使用。Kuber

cloudvtech 2020-09-18

第7章：Kubernetes存储

创建一个空卷，挂载到Pod中的容器。Pod删除该卷也会被删除。什么样的适合在pod中运行多个容器?command: ["bash","-c","for i in {1..100};do echo $i &g

BigDataMining 2020-08-21

6张图带你学懂 Kubernetes Ingress

Kubernetes Ingress 只是 Kubernetes 中的一个普通资源对象，需要一个对应的 Ingress 控制器来解析 Ingress 的规则，暴露服务到外部，比如 ingress-nginx，本质上来说它只是一个 Nginx Pod，然后将

朱培知浅ZLH 2020-11-16

推荐4款超好用本地Kubernetes部署工具

我们本地开发者，真的需要一个 Kuberntees 吗?这个是必要的吗？我认为这个答案是非必要，并不是所有的本地开发者都需要有一个独立的 Kubernetes 集群来使用，但是如果有符合下列需求之一，就会需要创建一个本地的 Kubernetes 集群：。而

cdbdqn00 2020-11-12

值得推荐的13个 Jenkins 替代方案

Jenkins 是目前最常用的持续集成工具，拥有近 50% 的市场份额，它还是很多技术团队的第一个使用的自动化工具。但是随着自动化领域的持续发展，Jenkins 逐渐暴露出了一些问题，例如缺乏功能、维护问题、依赖关系和扩展问题等等。本文将为大家介绍几个持续

达观数据 2020-11-11

2020年非常值得推荐的7种 Kubernetes 日志管理工具

你可能会奇怪，为什么要为 Kubernetes 的日志管理工具而烦恼？Kubernetes 是容器编排市场的主导者，经常被用来托管微服务。微服务的每个实例都会生成大量的日志事件，并且这些事件很快就会变得难以管理。大多数 Kubernetes 日志管理工具都

JustinChia 2020-11-11

本地环境运行Kubernetes的4种开源工具

Kubernetes作为最重要的开源容器编排平台，用于自动化部署，扩展和管理容器化应用程序。无论遇到什么情况，建议将本地Kubernetes设置为开发环境，因为这种设置可以创建安全，灵活的应用程序部署过程。Minikube是本地Kubernetes应用程序

jingtao 2020-11-08

五款值得关注的Kubernetes日志监控工具

Kubernetes在容器编排市场中占主导地位，推动企业向微服务演进。微服务的每个实例都会生成大量日志事件，这些事件很快就变得难以管理。但更复杂的是当出现问题时，由于服务之间复杂的交互作用，以及可能的故障模式，导致很难找到根本原因。潜在的问题使得Kuber

大叔比较胖 2020-10-30

机器学习任务编排工具比较

最近，出现了用于编排任务和数据工作流的新工具。这些工具的数量众多，因此很难选择要使用的工具，也难以理解它们的重叠方式，因此我们决定对一些最受欢迎的工具进行比较。> Airflow is the most popular solution, follo

gracecxj 2020-10-30

使用Ansible的Kubernetes模块实现容器编排自动化

将 Kubernetes 与 Ansible 结合实现云端自动化。此外，还可以参照我们的 Ansible 的 k8s 模块速查表。Ansible是实现自动化工作的优秀工具，而Kubernetes则是容器编排方面的利器，要是把两者结合起来，会有怎样的效果呢？

onepiecedn 2020-10-29

面试问到了K8S原理，花5分钟来总结下，以后再也不怕了

K8S现在是一项必会的技能，它为软件工程师提供了强大的容器编排能力，模糊了开发和运维之间的边界，让我们开发、管理和维护一个大型的分布式系统和项目变得更加容易，并且每次面试多多少少都会问到，笔者也是被问到了很多次。本文就准备用最短的篇幅来介绍下K8S的工作过

kunyus 2020-10-28

如何降低开发人员的生产力？

关于开发人员是如何因构造其日常工作而导致生产力下降的文章很多。常见的一个例子是：在一天中安排了很多非必要的会议，因此没人能进入深度聚焦模式。今天，我想研究开发人员生产力方面的最大杀手：配置和设置DevOps工作流程的方式。在几乎所有情况下，我都遇到了一些捷

JustHaveTry 2020-10-27

Windows环境下，如何在Docker里运行SAP UI5应用

本文面向的读者是对Docker技术有一些基本概念，但因为没有测试环境，所以没有动手操作过的朋友们。最近Jerry因为要做一个新的SAP云产品开发，得搭各种开发环境，其中之一就是Docker.当时给出的例子是，在Ubuntu操作系统下用Docker和Kube

锋锋 2020-10-26

解放开发者！3款工具实现快速K8S开发

时至今日，Kubernetes正在变得越来越重要，不仅仅是运维需要Kubernetes，在开发的世界里Kubernetes也不可或缺。因此能够熟练掌握Kubernetes知识会备受追捧。然而问题是，开发人员是否需要直接上手操作Kubernetes，他们是否

hubanbei00的家园 2020-10-25

什么是CaaS？简化容器管理

随着现代容器化应用陆续被各大企业发现并认可，主要供应商开始提供容器基础设施和管理 "即服务 "只是时间问题。根据Flexera最新的2020年云计算状态报告，容器的使用在全球企业中稳中有升，65%的组织表示他们使用Docker容器，58

谢恩铭 2020-10-23

Linux基金会开源软件大学技术公开课丨K8s必备技能攻略

随着云开发向容器方面转移，Kubernetes等与容器相关的技术已成为当下技术人员的必备技能。数字时代，许多企业及其所服务的客户正在探寻更灵活、更快交付，且在私有云、混合云，甚至多云环境下都能快速部署或运行的软件及系统。此外，应用Kubernetes还能带

btqszl 2020-10-21

避免云锁定有哪几招？

我们Render正在构建一个跨多个公共云启动的新云平台，计划增加本地工作负载，这对于我们避免将自己被某一家提供商锁定至关重要。本文讨论了我们做出的一些关键技术决策，以避免自己被某一家云提供商锁定，并为混合云未来做好准备。大受欢迎的选择包括AWS Clou

guchengxinfen 2020-10-12

毛宏斌

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号