调度程序性能调优
Kubernetes v1.14 [beta]
kube-scheduler 是 Kubernetes 默认调度器。它负责将 Pod 安排到集群中的节点上。
满足 Pod 调度要求的集群中的节点称为 Pod 的可行节点。调度器为 Pod 找到可行节点,然后运行一组函数对可行节点进行评分,在可行节点中选择得分最高的节点来运行 Pod。然后,调度器在称为绑定的过程中将此决定通知 API 服务器。
此页面解释了与大型 Kubernetes 集群相关的性能调优优化。
在大型集群中,您可以调整调度器的行为,在延迟(新 Pod 快速放置)和准确性(调度器很少做出错误的放置决策)之间平衡调度结果。
您可以通过 kube-scheduler 设置 percentageOfNodesToScore
配置此调优设置。此 KubeSchedulerConfiguration 设置确定集群中调度节点的阈值。
设置阈值
percentageOfNodesToScore
选项接受 0 到 100 之间的整数数值。值为 0 是一个特殊数字,表示 kube-scheduler 应使用其编译的默认值。如果您将 percentageOfNodesToScore
设置为 100 以上,kube-scheduler 的行为就好像您设置的值为 100 一样。
要更改该值,请编辑 kube-scheduler 配置文件,然后重新启动调度器。在许多情况下,配置文件位于 /etc/kubernetes/config/kube-scheduler.yaml
。
更改后,您可以运行
kubectl get pods -n kube-system | grep kube-scheduler
以验证 kube-scheduler 组件是否正常。
节点评分阈值
为了提高调度性能,kube-scheduler 可以停止查找可行节点,只要它找到足够的节点即可。在大型集群中,与考虑每个节点的简单方法相比,这可以节省时间。
您指定一个阈值来确定多少个节点才算足够,以集群中所有节点的百分比表示。kube-scheduler 将此转换为一个整数。在调度过程中,如果 kube-scheduler 已经识别出足够多的可行节点以超过配置的百分比,kube-scheduler 将停止搜索更多可行节点,并继续进行 评分阶段。
调度器如何遍历节点 描述了该过程的详细信息。
默认阈值
如果您没有指定阈值,Kubernetes 将使用线性公式计算出一个数字,该公式为 100 节点集群产生 50%,为 5000 节点集群产生 10%。自动值的较低界限为 5%。
这意味着 kube-scheduler 始终至少对集群的 5% 进行评分,无论集群有多大,除非您已明确将 percentageOfNodesToScore
设置为小于 5。
如果您希望调度器对集群中的所有节点进行评分,请将 percentageOfNodesToScore
设置为 100。
示例
以下是一个将 percentageOfNodesToScore
设置为 50% 的示例配置。
apiVersion: kubescheduler.config.k8s.io/v1alpha1
kind: KubeSchedulerConfiguration
algorithmSource:
provider: DefaultProvider
...
percentageOfNodesToScore: 50
调整 percentageOfNodesToScore
percentageOfNodesToScore
必须是 1 到 100 之间的值,默认值为根据集群大小计算的值。还存在一个硬编码的最小值,即 100 个节点。
注意
在具有少于 100 个可行节点的集群中,调度器仍然检查所有节点,因为没有足够的可行节点可以提前停止调度器的搜索。
在小型集群中,如果您将 percentageOfNodesToScore
设置为较低的值,您的更改将不会产生任何效果或效果很小,原因类似。
如果您的集群有数百个节点或更少,请将此配置选项保留为其默认值。进行更改不太可能显着提高调度器的性能。
设置此值时需要考虑的一个重要细节是,当检查集群中较少数量的节点的可行性时,某些节点不会被发送到为给定 Pod 进行评分。因此,可能可以为运行给定 Pod 获得更高评分的节点甚至可能不会被传递到评分阶段。这会导致 Pod 的放置不理想。
您应该避免将 percentageOfNodesToScore
设置得过低,以免 kube-scheduler 做出频繁的、错误的 Pod 放置决策。避免将百分比设置为低于 10% 的任何值,除非调度器的吞吐量对您的应用程序至关重要,而节点的评分并不重要。换句话说,您希望在任何可行节点上运行 Pod,只要它是可行的。
调度器如何遍历节点
本节适用于希望了解此功能内部细节的用户。
为了让集群中的所有节点都有平等的机会被考虑用于运行 Pod,调度器以循环的方式遍历节点。您可以想象节点位于一个数组中。调度器从数组的开头开始,检查节点的可行性,直到找到 percentageOfNodesToScore
指定的足够节点。对于下一个 Pod,调度器从上次检查上一个 Pod 的节点可行性时停止的节点数组中的位置继续。
如果节点位于多个区域,调度器将遍历不同区域的节点,以确保来自不同区域的节点被考虑在可行性检查中。例如,考虑两个区域中的六个节点
Zone 1: Node 1, Node 2, Node 3, Node 4
Zone 2: Node 5, Node 6
调度器按此顺序评估节点的可行性
Node 1, Node 5, Node 2, Node 6, Node 3, Node 4
遍历完所有节点后,它将返回到节点 1。