调度程序性能调优

功能状态: Kubernetes v1.14 [beta]

kube-scheduler 是 Kubernetes 默认调度器。它负责将 Pod 安排到集群中的节点上。

满足 Pod 调度要求的集群中的节点称为 Pod 的可行节点。调度器为 Pod 找到可行节点,然后运行一组函数对可行节点进行评分,在可行节点中选择得分最高的节点来运行 Pod。然后,调度器在称为绑定的过程中将此决定通知 API 服务器。

此页面解释了与大型 Kubernetes 集群相关的性能调优优化。

在大型集群中,您可以调整调度器的行为,在延迟(新 Pod 快速放置)和准确性(调度器很少做出错误的放置决策)之间平衡调度结果。

您可以通过 kube-scheduler 设置 percentageOfNodesToScore 配置此调优设置。此 KubeSchedulerConfiguration 设置确定集群中调度节点的阈值。

设置阈值

percentageOfNodesToScore 选项接受 0 到 100 之间的整数数值。值为 0 是一个特殊数字,表示 kube-scheduler 应使用其编译的默认值。如果您将 percentageOfNodesToScore 设置为 100 以上,kube-scheduler 的行为就好像您设置的值为 100 一样。

要更改该值,请编辑 kube-scheduler 配置文件,然后重新启动调度器。在许多情况下,配置文件位于 /etc/kubernetes/config/kube-scheduler.yaml

更改后,您可以运行

kubectl get pods -n kube-system | grep kube-scheduler

以验证 kube-scheduler 组件是否正常。

节点评分阈值

为了提高调度性能,kube-scheduler 可以停止查找可行节点,只要它找到足够的节点即可。在大型集群中,与考虑每个节点的简单方法相比,这可以节省时间。

您指定一个阈值来确定多少个节点才算足够,以集群中所有节点的百分比表示。kube-scheduler 将此转换为一个整数。在调度过程中,如果 kube-scheduler 已经识别出足够多的可行节点以超过配置的百分比,kube-scheduler 将停止搜索更多可行节点,并继续进行 评分阶段

调度器如何遍历节点 描述了该过程的详细信息。

默认阈值

如果您没有指定阈值,Kubernetes 将使用线性公式计算出一个数字,该公式为 100 节点集群产生 50%,为 5000 节点集群产生 10%。自动值的较低界限为 5%。

这意味着 kube-scheduler 始终至少对集群的 5% 进行评分,无论集群有多大,除非您已明确将 percentageOfNodesToScore 设置为小于 5。

如果您希望调度器对集群中的所有节点进行评分,请将 percentageOfNodesToScore 设置为 100。

示例

以下是一个将 percentageOfNodesToScore 设置为 50% 的示例配置。

apiVersion: kubescheduler.config.k8s.io/v1alpha1
kind: KubeSchedulerConfiguration
algorithmSource:
  provider: DefaultProvider

...

percentageOfNodesToScore: 50

调整 percentageOfNodesToScore

percentageOfNodesToScore 必须是 1 到 100 之间的值,默认值为根据集群大小计算的值。还存在一个硬编码的最小值,即 100 个节点。

设置此值时需要考虑的一个重要细节是,当检查集群中较少数量的节点的可行性时,某些节点不会被发送到为给定 Pod 进行评分。因此,可能可以为运行给定 Pod 获得更高评分的节点甚至可能不会被传递到评分阶段。这会导致 Pod 的放置不理想。

您应该避免将 percentageOfNodesToScore 设置得过低,以免 kube-scheduler 做出频繁的、错误的 Pod 放置决策。避免将百分比设置为低于 10% 的任何值,除非调度器的吞吐量对您的应用程序至关重要,而节点的评分并不重要。换句话说,您希望在任何可行节点上运行 Pod,只要它是可行的。

调度器如何遍历节点

本节适用于希望了解此功能内部细节的用户。

为了让集群中的所有节点都有平等的机会被考虑用于运行 Pod,调度器以循环的方式遍历节点。您可以想象节点位于一个数组中。调度器从数组的开头开始,检查节点的可行性,直到找到 percentageOfNodesToScore 指定的足够节点。对于下一个 Pod,调度器从上次检查上一个 Pod 的节点可行性时停止的节点数组中的位置继续。

如果节点位于多个区域,调度器将遍历不同区域的节点,以确保来自不同区域的节点被考虑在可行性检查中。例如,考虑两个区域中的六个节点

Zone 1: Node 1, Node 2, Node 3, Node 4
Zone 2: Node 5, Node 6

调度器按此顺序评估节点的可行性

Node 1, Node 5, Node 2, Node 6, Node 3, Node 4

遍历完所有节点后,它将返回到节点 1。

下一步

上次修改时间:2024 年 6 月 27 日下午 6:06 PST:fix: 最小可行节点 50->100 (44460b3ee3)