运行 ZooKeeper，一个分布式系统协调器

本教程演示了如何使用 Apache Zookeeper 在 Kubernetes 上运行有状态集，Pod 中断预算和 Pod 反亲和性.

开始之前

在开始本教程之前，您应该熟悉以下 Kubernetes 概念

您必须拥有至少包含四个节点的集群，并且每个节点至少需要 2 个 CPU 和 4 GiB 内存。在本教程中，您将隔离并清空集群的节点。这意味着集群将终止并逐出其节点上的所有 Pod，并且节点将暂时变为不可调度。您应该为此教程使用专用集群，或者确保您造成的干扰不会影响其他租户。

本教程假设您已将集群配置为动态供应持久卷。如果您的集群未配置为动态供应持久卷，您必须在此教程开始之前手动供应三个 20 GiB 卷。

目标

完成本教程后，您将了解以下内容。

如何使用有状态集部署 ZooKeeper 集群。
如何一致地配置集群。
如何在集群中分散 ZooKeeper 服务器的部署。
如何在计划维护期间使用 Pod 中断预算来确保服务可用性。

ZooKeeper

Apache ZooKeeper 是一种用于分布式应用程序的分布式开源协调服务。ZooKeeper 允许您读取、写入和观察数据的更新。数据以类似文件系统的层次结构进行组织，并复制到集群中的所有 ZooKeeper 服务器（一组 ZooKeeper 服务器）。对数据的所有操作都是原子的，并且具有顺序一致性。ZooKeeper 通过使用 Zab 共识协议在集群中的所有服务器之间复制状态机来确保这一点。

该集群使用 Zab 协议选举一个领导者，并且在该选举完成之前，该集群无法写入数据。完成之后，该集群使用 Zab 确保在确认和使其对客户端可见之前将所有写入复制到仲裁服务器。不考虑加权仲裁，仲裁是包含当前领导者的集群中的多数组件。例如，如果集群中有三个服务器，包含领导者和其他服务器的组件构成仲裁。如果集群无法实现仲裁，则集群无法写入数据。

ZooKeeper 服务器将其整个状态机保存在内存中，并将每个变异写入存储介质上的持久 WAL（预写日志）。当服务器崩溃时，它可以通过重放 WAL 来恢复其先前状态。为了防止 WAL 无限增长，ZooKeeper 服务器会定期将内存状态的快照写入存储介质。这些快照可以直接加载到内存中，并且可以丢弃快照之前的 WAL 条目。

创建 ZooKeeper 集群

下面的清单包含一个无头服务，一个服务，一个 Pod 中断预算和一个有状态集.

application/zookeeper/zookeeper.yaml

apiVersion: v1
kind: Service
metadata:
  name: zk-hs
  labels:
    app: zk
spec:
  ports:
  - port: 2888
    name: server
  - port: 3888
    name: leader-election
  clusterIP: None
  selector:
    app: zk
---
apiVersion: v1
kind: Service
metadata:
  name: zk-cs
  labels:
    app: zk
spec:
  ports:
  - port: 2181
    name: client
  selector:
    app: zk
---
apiVersion: policy/v1
kind: PodDisruptionBudget
metadata:
  name: zk-pdb
spec:
  selector:
    matchLabels:
      app: zk
  maxUnavailable: 1
---
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: zk
spec:
  selector:
    matchLabels:
      app: zk
  serviceName: zk-hs
  replicas: 3
  updateStrategy:
    type: RollingUpdate
  podManagementPolicy: OrderedReady
  template:
    metadata:
      labels:
        app: zk
    spec:
      affinity:
        podAntiAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            - labelSelector:
                matchExpressions:
                  - key: "app"
                    operator: In
                    values:
                    - zk
              topologyKey: "kubernetes.io/hostname"
      containers:
      - name: kubernetes-zookeeper
        imagePullPolicy: Always
        image: "registry.k8s.io/kubernetes-zookeeper:1.0-3.4.10"
        resources:
          requests:
            memory: "1Gi"
            cpu: "0.5"
        ports:
        - containerPort: 2181
          name: client
        - containerPort: 2888
          name: server
        - containerPort: 3888
          name: leader-election
        command:
        - sh
        - -c
        - "start-zookeeper \
          --servers=3 \
          --data_dir=/var/lib/zookeeper/data \
          --data_log_dir=/var/lib/zookeeper/data/log \
          --conf_dir=/opt/zookeeper/conf \
          --client_port=2181 \
          --election_port=3888 \
          --server_port=2888 \
          --tick_time=2000 \
          --init_limit=10 \
          --sync_limit=5 \
          --heap=512M \
          --max_client_cnxns=60 \
          --snap_retain_count=3 \
          --purge_interval=12 \
          --max_session_timeout=40000 \
          --min_session_timeout=4000 \
          --log_level=INFO"
        readinessProbe:
          exec:
            command:
            - sh
            - -c
            - "zookeeper-ready 2181"
          initialDelaySeconds: 10
          timeoutSeconds: 5
        livenessProbe:
          exec:
            command:
            - sh
            - -c
            - "zookeeper-ready 2181"
          initialDelaySeconds: 10
          timeoutSeconds: 5
        volumeMounts:
        - name: datadir
          mountPath: /var/lib/zookeeper
      securityContext:
        runAsUser: 1000
        fsGroup: 1000
  volumeClaimTemplates:
  - metadata:
      name: datadir
    spec:
      accessModes: [ "ReadWriteOnce" ]
      resources:
        requests:
          storage: 10Gi

打开一个终端，并使用 kubectl apply 命令创建清单。

kubectl apply -f https://k8s.io/examples/application/zookeeper/zookeeper.yaml

这将创建 zk-hs 无头服务、zk-cs 服务、zk-pdb Pod 中断预算和 zk 有状态集。

service/zk-hs created
service/zk-cs created
poddisruptionbudget.policy/zk-pdb created
statefulset.apps/zk created

使用 kubectl get 观察有状态集控制器创建有状态集的 Pod。

kubectl get pods -w -l app=zk

一旦 zk-2 Pod 处于运行和就绪状态，请使用 CTRL-C 终止 kubectl。

NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Pending   0          0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         19s
zk-0      1/1       Running   0         40s
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s
zk-1      0/1       ContainerCreating   0         0s
zk-1      0/1       Running   0         18s
zk-1      1/1       Running   0         40s
zk-2      0/1       Pending   0         0s
zk-2      0/1       Pending   0         0s
zk-2      0/1       ContainerCreating   0         0s
zk-2      0/1       Running   0         19s
zk-2      1/1       Running   0         40s

有状态集控制器创建三个 Pod，并且每个 Pod 都有一个包含 ZooKeeper 服务器的容器。

促进领导者选举

因为在匿名网络中没有用于选举领导者的终止算法，所以 Zab 需要明确的成员资格配置才能执行领导者选举。集群中的每个服务器都需要拥有唯一的标识符，所有服务器都需要知道全局标识符集，并且每个标识符都需要与网络地址相关联。

使用 kubectl exec 获取 zk 有状态集中的 Pod 的主机名。

for i in 0 1 2; do kubectl exec zk-$i -- hostname; done

有状态集控制器根据其序数索引为每个 Pod 提供唯一的 hostname。主机名采用 <statefulset name>-<ordinal index> 的形式。因为 zk 有状态集的 replicas 字段设置为 3，所以该集合的控制器创建了三个 Pod，它们的主机名设置为 zk-0、zk-1 和 zk-2。

zk-0
zk-1
zk-2

ZooKeeper 集群中的服务器使用自然数作为唯一标识符，并将每个服务器的标识符存储在服务器数据目录中名为 myid 的文件中。

要检查每个服务器的 myid 文件的内容，请使用以下命令。

for i in 0 1 2; do echo "myid zk-$i";kubectl exec zk-$i -- cat /var/lib/zookeeper/data/myid; done

因为标识符是自然数，而序数索引是非负整数，所以您可以通过将序数加 1 来生成标识符。

myid zk-0
1
myid zk-1
2
myid zk-2
3

要获取 zk 有状态集中的每个 Pod 的完全限定域名 (FQDN)，请使用以下命令。

for i in 0 1 2; do kubectl exec zk-$i -- hostname -f; done

zk-hs 服务为所有 Pod 创建了一个域，zk-hs.default.svc.cluster.local。

zk-0.zk-hs.default.svc.cluster.local
zk-1.zk-hs.default.svc.cluster.local
zk-2.zk-hs.default.svc.cluster.local

在 Kubernetes DNS 中的 A 记录将 FQDN 解析为 Pod 的 IP 地址。如果 Kubernetes 重新调度 Pod，它将使用 Pod 的新 IP 地址更新 A 记录，但 A 记录名称不会更改。

ZooKeeper 将其应用程序配置存储在一个名为 zoo.cfg 的文件中。使用 kubectl exec 查看 zk-0 Pod 中 zoo.cfg 文件的内容。

kubectl exec zk-0 -- cat /opt/zookeeper/conf/zoo.cfg

在文件末尾的 server.1、server.2 和 server.3 属性中，1、2 和 3 对应于 ZooKeeper 服务器的 myid 文件中的标识符。它们设置为 zk 有状态集中的 Pod 的 FQDN。

clientPort=2181
dataDir=/var/lib/zookeeper/data
dataLogDir=/var/lib/zookeeper/log
tickTime=2000
initLimit=10
syncLimit=2000
maxClientCnxns=60
minSessionTimeout= 4000
maxSessionTimeout= 40000
autopurge.snapRetainCount=3
autopurge.purgeInterval=0
server.1=zk-0.zk-hs.default.svc.cluster.local:2888:3888
server.2=zk-1.zk-hs.default.svc.cluster.local:2888:3888
server.3=zk-2.zk-hs.default.svc.cluster.local:2888:3888

达成共识

共识协议要求每个参与者的标识符是唯一的。Zab 协议中的任何两个参与者都不应该声明相同的唯一标识符。这是为了允许系统中的进程就哪些进程提交了哪些数据达成一致。如果两个 Pod 使用相同的序数启动，两个 ZooKeeper 服务器都将自己标识为同一台服务器。

kubectl get pods -w -l app=zk

NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Pending   0          0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         19s
zk-0      1/1       Running   0         40s
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s
zk-1      0/1       ContainerCreating   0         0s
zk-1      0/1       Running   0         18s
zk-1      1/1       Running   0         40s
zk-2      0/1       Pending   0         0s
zk-2      0/1       Pending   0         0s
zk-2      0/1       ContainerCreating   0         0s
zk-2      0/1       Running   0         19s
zk-2      1/1       Running   0         40s

每个 Pod 的 A 记录在 Pod 变为就绪时输入。因此，ZooKeeper 服务器的 FQDN 将解析为单个端点，并且该端点将是声称其 myid 文件中配置的标识的唯一 ZooKeeper 服务器。

zk-0.zk-hs.default.svc.cluster.local
zk-1.zk-hs.default.svc.cluster.local
zk-2.zk-hs.default.svc.cluster.local

这确保了 ZooKeeper 的 zoo.cfg 文件中的 servers 属性表示一个配置正确的集群。

server.1=zk-0.zk-hs.default.svc.cluster.local:2888:3888
server.2=zk-1.zk-hs.default.svc.cluster.local:2888:3888
server.3=zk-2.zk-hs.default.svc.cluster.local:2888:3888

当服务器使用 Zab 协议尝试提交值时，它们要么达成共识并提交值（如果领导者选举已成功并且至少有两个 Pod 正在运行并处于就绪状态），要么无法做到（如果任何一个条件未满足）。不会出现一个服务器代表另一个服务器确认写入的状态。

对集群进行健全性测试

最基本的健全性测试是将数据写入一个 ZooKeeper 服务器，并从另一个服务器读取数据。

以下命令执行 zkCli.sh 脚本，将 world 写入集群中 zk-0 Pod 上的路径 /hello。

kubectl exec zk-0 -- zkCli.sh create /hello world

WATCHER::

WatchedEvent state:SyncConnected type:None path:null
Created /hello

要从 zk-1 Pod 获取数据，请使用以下命令。

kubectl exec zk-1 -- zkCli.sh get /hello

您在 zk-0 上创建的数据在集群中的所有服务器上都可用。

WATCHER::

WatchedEvent state:SyncConnected type:None path:null
world
cZxid = 0x100000002
ctime = Thu Dec 08 15:13:30 UTC 2016
mZxid = 0x100000002
mtime = Thu Dec 08 15:13:30 UTC 2016
pZxid = 0x100000002
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 5
numChildren = 0

提供持久存储

如 ZooKeeper 基础知识部分所述，ZooKeeper 将所有条目提交到持久 WAL，并定期将内存状态的快照写入存储介质。使用 WAL 提供持久性是使用共识协议实现复制状态机应用程序的常见技术。

使用 kubectl delete 命令删除 zk 有状态集。

kubectl delete statefulset zk

statefulset.apps "zk" deleted

观察有状态集中的 Pod 的终止。

kubectl get pods -w -l app=zk

当 zk-0 完全终止时，请使用 CTRL-C 终止 kubectl。

zk-2      1/1       Terminating   0         9m
zk-0      1/1       Terminating   0         11m
zk-1      1/1       Terminating   0         10m
zk-2      0/1       Terminating   0         9m
zk-2      0/1       Terminating   0         9m
zk-2      0/1       Terminating   0         9m
zk-1      0/1       Terminating   0         10m
zk-1      0/1       Terminating   0         10m
zk-1      0/1       Terminating   0         10m
zk-0      0/1       Terminating   0         11m
zk-0      0/1       Terminating   0         11m
zk-0      0/1       Terminating   0         11m

重新应用 zookeeper.yaml 中的清单。

kubectl apply -f https://k8s.io/examples/application/zookeeper/zookeeper.yaml

这将创建 zk 有状态集对象，但清单中的其他 API 对象不会被修改，因为它们已经存在。

观察有状态集控制器重新创建有状态集的 Pod。

kubectl get pods -w -l app=zk

一旦 zk-2 Pod 处于运行和就绪状态，请使用 CTRL-C 终止 kubectl。

NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Pending   0          0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         19s
zk-0      1/1       Running   0         40s
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s
zk-1      0/1       ContainerCreating   0         0s
zk-1      0/1       Running   0         18s
zk-1      1/1       Running   0         40s
zk-2      0/1       Pending   0         0s
zk-2      0/1       Pending   0         0s
zk-2      0/1       ContainerCreating   0         0s
zk-2      0/1       Running   0         19s
zk-2      1/1       Running   0         40s

使用以下命令从 zk-2 Pod 获取您在健全性测试期间输入的值。

kubectl exec zk-2 zkCli.sh get /hello

即使您终止并重新创建了 zk 有状态集中的所有 Pod，该集群仍然提供原始值。

WATCHER::

WatchedEvent state:SyncConnected type:None path:null
world
cZxid = 0x100000002
ctime = Thu Dec 08 15:13:30 UTC 2016
mZxid = 0x100000002
mtime = Thu Dec 08 15:13:30 UTC 2016
pZxid = 0x100000002
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 5
numChildren = 0

zk 有状态集 spec 的 volumeClaimTemplates 字段指定为每个 Pod 供应的持久卷。

volumeClaimTemplates:
  - metadata:
      name: datadir
      annotations:
        volume.alpha.kubernetes.io/storage-class: anything
    spec:
      accessModes: [ "ReadWriteOnce" ]
      resources:
        requests:
          storage: 20Gi

StatefulSet 控制器为 StatefulSet 中的每个 Pod 生成一个 PersistentVolumeClaim。

使用以下命令获取 StatefulSet 的 PersistentVolumeClaims。

kubectl get pvc -l app=zk

当 StatefulSet 重新创建其 Pod 时，它会重新挂载 Pod 的持久卷。

NAME           STATUS    VOLUME                                     CAPACITY   ACCESSMODES   AGE
datadir-zk-0   Bound     pvc-bed742cd-bcb1-11e6-994f-42010a800002   20Gi       RWO           1h
datadir-zk-1   Bound     pvc-bedd27d2-bcb1-11e6-994f-42010a800002   20Gi       RWO           1h
datadir-zk-2   Bound     pvc-bee0817e-bcb1-11e6-994f-42010a800002   20Gi       RWO           1h

StatefulSet 容器 template 的 volumeMounts 部分将持久卷挂载在 ZooKeeper 服务器的数据目录中。

volumeMounts:
- name: datadir
  mountPath: /var/lib/zookeeper

当zk StatefulSet中的Pod被（重新）调度时，它将始终拥有相同的PersistentVolume挂载到ZooKeeper服务器的数据目录。即使Pod被重新调度，写入ZooKeeper服务器WAL的所有内容以及所有快照都将保持持久性。

确保配置一致性

如促进领导者选举和达成共识部分所述，ZooKeeper集群中的服务器需要一致的配置来选举领导者并形成法定人数。它们还需要一致的Zab协议配置，以使该协议能够在网络上正常工作。在我们的示例中，我们通过将配置直接嵌入到清单中来实现一致的配置。

获取zk StatefulSet。

kubectl get sts zk -o yaml

…
command:
      - sh
      - -c
      - "start-zookeeper \
        --servers=3 \
        --data_dir=/var/lib/zookeeper/data \
        --data_log_dir=/var/lib/zookeeper/data/log \
        --conf_dir=/opt/zookeeper/conf \
        --client_port=2181 \
        --election_port=3888 \
        --server_port=2888 \
        --tick_time=2000 \
        --init_limit=10 \
        --sync_limit=5 \
        --heap=512M \
        --max_client_cnxns=60 \
        --snap_retain_count=3 \
        --purge_interval=12 \
        --max_session_timeout=40000 \
        --min_session_timeout=4000 \
        --log_level=INFO"
…

用于启动ZooKeeper服务器的命令将配置作为命令行参数传递。您也可以使用环境变量将配置传递给集群。

配置日志记录

zkGenConfig.sh脚本生成的其中一个文件控制ZooKeeper的日志记录。ZooKeeper使用Log4j，并且默认情况下，它使用基于时间和大小的滚动文件追加器进行其日志记录配置。

使用以下命令从zk StatefulSet中的某个Pod获取日志记录配置。

kubectl exec zk-0 cat /usr/etc/zookeeper/log4j.properties

以下日志记录配置将导致ZooKeeper进程将其所有日志写入标准输出文件流。

zookeeper.root.logger=CONSOLE
zookeeper.console.threshold=INFO
log4j.rootLogger=${zookeeper.root.logger}
log4j.appender.CONSOLE=org.apache.log4j.ConsoleAppender
log4j.appender.CONSOLE.Threshold=${zookeeper.console.threshold}
log4j.appender.CONSOLE.layout=org.apache.log4j.PatternLayout
log4j.appender.CONSOLE.layout.ConversionPattern=%d{ISO8601} [myid:%X{myid}] - %-5p [%t:%C{1}@%L] - %m%n

这是在容器内安全记录的最简单方法。由于应用程序将日志写入标准输出，Kubernetes将为您处理日志轮换。Kubernetes还实现了一个合理的保留策略，确保写入标准输出和标准错误的应用程序日志不会耗尽本地存储介质。

使用kubectl logs检索某个Pod的最后20条日志行。

kubectl logs zk-0 --tail 20

您可以使用kubectl logs和Kubernetes仪表板查看写入标准输出或标准错误的应用程序日志。

2016-12-06 19:34:16,236 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52740
2016-12-06 19:34:16,237 [myid:1] - INFO  [Thread-1136:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52740 (no session established for client)
2016-12-06 19:34:26,155 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52749
2016-12-06 19:34:26,155 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52749
2016-12-06 19:34:26,156 [myid:1] - INFO  [Thread-1137:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52749 (no session established for client)
2016-12-06 19:34:26,222 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52750
2016-12-06 19:34:26,222 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52750
2016-12-06 19:34:26,226 [myid:1] - INFO  [Thread-1138:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52750 (no session established for client)
2016-12-06 19:34:36,151 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52760
2016-12-06 19:34:36,152 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52760
2016-12-06 19:34:36,152 [myid:1] - INFO  [Thread-1139:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52760 (no session established for client)
2016-12-06 19:34:36,230 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52761
2016-12-06 19:34:36,231 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52761
2016-12-06 19:34:36,231 [myid:1] - INFO  [Thread-1140:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52761 (no session established for client)
2016-12-06 19:34:46,149 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52767
2016-12-06 19:34:46,149 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52767
2016-12-06 19:34:46,149 [myid:1] - INFO  [Thread-1141:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52767 (no session established for client)
2016-12-06 19:34:46,230 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@192] - Accepted socket connection from /127.0.0.1:52768
2016-12-06 19:34:46,230 [myid:1] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@827] - Processing ruok command from /127.0.0.1:52768
2016-12-06 19:34:46,230 [myid:1] - INFO  [Thread-1142:NIOServerCnxn@1008] - Closed socket connection for client /127.0.0.1:52768 (no session established for client)

Kubernetes与许多日志记录解决方案集成。您可以选择最适合您的集群和应用程序的日志记录解决方案。对于集群级日志记录和聚合，请考虑部署边车容器来轮换和发送您的日志。

配置非特权用户

允许应用程序在容器内作为特权用户运行的最佳实践存在争议。如果您的组织要求应用程序作为非特权用户运行，则可以使用SecurityContext来控制入口点运行的用户。

zk StatefulSet的Pod template包含一个SecurityContext。

securityContext:
  runAsUser: 1000
  fsGroup: 1000

在Pod的容器中，UID 1000对应于zookeeper用户，GID 1000对应于zookeeper组。

从zk-0 Pod获取ZooKeeper进程信息。

kubectl exec zk-0 -- ps -elf

由于securityContext对象的runAsUser字段设置为1000，因此ZooKeeper进程不是以root身份运行，而是以zookeeper用户身份运行。

F S UID        PID  PPID  C PRI  NI ADDR SZ WCHAN  STIME TTY          TIME CMD
4 S zookeep+     1     0  0  80   0 -  1127 -      20:46 ?        00:00:00 sh -c zkGenConfig.sh && zkServer.sh start-foreground
0 S zookeep+    27     1  0  80   0 - 1155556 -    20:46 ?        00:00:19 /usr/lib/jvm/java-8-openjdk-amd64/bin/java -Dzookeeper.log.dir=/var/log/zookeeper -Dzookeeper.root.logger=INFO,CONSOLE -cp /usr/bin/../build/classes:/usr/bin/../build/lib/*.jar:/usr/bin/../share/zookeeper/zookeeper-3.4.9.jar:/usr/bin/../share/zookeeper/slf4j-log4j12-1.6.1.jar:/usr/bin/../share/zookeeper/slf4j-api-1.6.1.jar:/usr/bin/../share/zookeeper/netty-3.10.5.Final.jar:/usr/bin/../share/zookeeper/log4j-1.2.16.jar:/usr/bin/../share/zookeeper/jline-0.9.94.jar:/usr/bin/../src/java/lib/*.jar:/usr/bin/../etc/zookeeper: -Xmx2G -Xms2G -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.local.only=false org.apache.zookeeper.server.quorum.QuorumPeerMain /usr/bin/../etc/zookeeper/zoo.cfg

默认情况下，当Pod的PersistentVolumes挂载到ZooKeeper服务器的数据目录时，它只能由root用户访问。此配置阻止ZooKeeper进程写入其WAL并存储其快照。

使用以下命令获取zk-0 Pod上ZooKeeper数据目录的文件权限。

kubectl exec -ti zk-0 -- ls -ld /var/lib/zookeeper/data

由于securityContext对象的fsGroup字段设置为1000，因此Pod的PersistentVolumes的所有权设置为zookeeper组，并且ZooKeeper进程能够读取和写入其数据。

drwxr-sr-x 3 zookeeper zookeeper 4096 Dec  5 20:45 /var/lib/zookeeper/data

管理ZooKeeper进程

ZooKeeper文档提到“您将需要一个管理每个ZooKeeper服务器进程（JVM）的监管进程”。利用看门狗（监管进程）在分布式系统中重新启动失败的进程是一种常见模式。在Kubernetes中部署应用程序时，您应该使用Kubernetes作为应用程序的看门狗，而不是使用外部实用程序作为监管进程。

更新集群

zk StatefulSet被配置为使用RollingUpdate更新策略。

您可以使用kubectl patch来更新分配给服务器的cpus数量。

kubectl patch sts zk --type='json' -p='[{"op": "replace", "path": "/spec/template/spec/containers/0/resources/requests/cpu", "value":"0.3"}]'

statefulset.apps/zk patched

使用kubectl rollout status来监视更新的状态。

kubectl rollout status sts/zk

waiting for statefulset rolling update to complete 0 pods at revision zk-5db4499664...
Waiting for 1 pods to be ready...
Waiting for 1 pods to be ready...
waiting for statefulset rolling update to complete 1 pods at revision zk-5db4499664...
Waiting for 1 pods to be ready...
Waiting for 1 pods to be ready...
waiting for statefulset rolling update to complete 2 pods at revision zk-5db4499664...
Waiting for 1 pods to be ready...
Waiting for 1 pods to be ready...
statefulset rolling update complete 3 pods at revision zk-5db4499664...

这会一次一个地终止Pod（按相反的序数顺序），并使用新配置重新创建它们。这确保了在滚动更新期间维护法定人数。

使用kubectl rollout history命令查看历史记录或以前的配置。

kubectl rollout history sts/zk

输出类似于以下内容

statefulsets "zk"
REVISION
1
2

使用kubectl rollout undo命令回滚修改。

kubectl rollout undo sts/zk

输出类似于以下内容

statefulset.apps/zk rolled back

处理进程故障

重启策略控制Kubernetes如何处理Pod中容器入口点的进程故障。对于StatefulSet中的Pod，唯一合适的RestartPolicy是Always，这是默认值。对于有状态应用程序，您应该永远不要覆盖默认策略。

使用以下命令检查在zk-0 Pod中运行的ZooKeeper服务器的进程树。

kubectl exec zk-0 -- ps -ef

用作容器入口点的命令具有PID 1，ZooKeeper进程（入口点的子进程）具有PID 27。

UID        PID  PPID  C STIME TTY          TIME CMD
zookeep+     1     0  0 15:03 ?        00:00:00 sh -c zkGenConfig.sh && zkServer.sh start-foreground
zookeep+    27     1  0 15:03 ?        00:00:03 /usr/lib/jvm/java-8-openjdk-amd64/bin/java -Dzookeeper.log.dir=/var/log/zookeeper -Dzookeeper.root.logger=INFO,CONSOLE -cp /usr/bin/../build/classes:/usr/bin/../build/lib/*.jar:/usr/bin/../share/zookeeper/zookeeper-3.4.9.jar:/usr/bin/../share/zookeeper/slf4j-log4j12-1.6.1.jar:/usr/bin/../share/zookeeper/slf4j-api-1.6.1.jar:/usr/bin/../share/zookeeper/netty-3.10.5.Final.jar:/usr/bin/../share/zookeeper/log4j-1.2.16.jar:/usr/bin/../share/zookeeper/jline-0.9.94.jar:/usr/bin/../src/java/lib/*.jar:/usr/bin/../etc/zookeeper: -Xmx2G -Xms2G -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.local.only=false org.apache.zookeeper.server.quorum.QuorumPeerMain /usr/bin/../etc/zookeeper/zoo.cfg

在另一个终端中，使用以下命令监视zk StatefulSet中的Pod。

kubectl get pod -w -l app=zk

在另一个终端中，使用以下命令终止Pod zk-0中的ZooKeeper进程。

kubectl exec zk-0 -- pkill java

ZooKeeper进程的终止导致其父进程终止。由于容器的RestartPolicy是Always，因此它重新启动了父进程。

NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   0          21m
zk-1      1/1       Running   0          20m
zk-2      1/1       Running   0          19m
NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Error     0          29m
zk-0      0/1       Running   1         29m
zk-0      1/1       Running   1         29m

如果您的应用程序使用脚本（例如zkServer.sh）来启动实现应用程序业务逻辑的进程，则该脚本必须与子进程一起终止。这确保了当实现应用程序业务逻辑的进程失败时，Kubernetes将重新启动应用程序的容器。

测试存活性

配置您的应用程序以重新启动失败的进程不足以保持分布式系统的健康。在某些情况下，系统的进程既可以存活又可以无响应，或者以其他方式不健康。您应该使用存活性探测器来通知Kubernetes您的应用程序的进程不健康，并且应该重新启动它们。

zk StatefulSet的Pod template指定了一个存活性探测器。

  livenessProbe:
    exec:
      command:
      - sh
      - -c
      - "zookeeper-ready 2181"
    initialDelaySeconds: 15
    timeoutSeconds: 5

探测器调用一个bash脚本，该脚本使用ZooKeeper的ruok四字母词来测试服务器的健康状况。

OK=$(echo ruok | nc 127.0.0.1 $1)
if [ "$OK" == "imok" ]; then
    exit 0
else
    exit 1
fi

在一个终端窗口中，使用以下命令监视zk StatefulSet中的Pod。

kubectl get pod -w -l app=zk

在另一个窗口中，使用以下命令从Pod zk-0的文件系统中删除zookeeper-ready脚本。

kubectl exec zk-0 -- rm /opt/zookeeper/bin/zookeeper-ready

当ZooKeeper进程的存活性探测器失败时，Kubernetes将自动为您重新启动该进程，确保集群中不健康的进程被重新启动。

kubectl get pod -w -l app=zk

NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   0          1h
zk-1      1/1       Running   0          1h
zk-2      1/1       Running   0          1h
NAME      READY     STATUS    RESTARTS   AGE
zk-0      0/1       Running   0          1h
zk-0      0/1       Running   1         1h
zk-0      1/1       Running   1         1h

测试就绪性

就绪性与存活性不同。如果一个进程存活，它就被调度并健康。如果一个进程就绪，它就能处理输入。存活性是就绪性的必要条件，但不是充分条件。在初始化和终止期间，尤其是在某些情况下，进程可能存活但没有就绪。

如果您指定了一个就绪性探测器，Kubernetes将确保您的应用程序的进程在通过就绪性检查之前不会接收网络流量。

对于ZooKeeper服务器，存活性意味着就绪性。因此，zookeeper.yaml清单中的就绪性探测器与存活性探测器相同。

  readinessProbe:
    exec:
      command:
      - sh
      - -c
      - "zookeeper-ready 2181"
    initialDelaySeconds: 15
    timeoutSeconds: 5

即使存活性探测器和就绪性探测器相同，但指定两者也很重要。这确保了ZooKeeper集群中只有健康的服务器接收网络流量。

容忍节点故障

ZooKeeper需要法定人数的服务器才能成功地将突变提交到数据。对于三个服务器的集群，必须有两个服务器处于健康状态才能使写入成功。在基于法定人数的系统中，成员部署在故障域中以确保可用性。为了避免因单个机器丢失而导致的停机，最佳实践阻止在同一台机器上共同定位应用程序的多个实例。

默认情况下，Kubernetes可能会将StatefulSet中的Pod共同定位在同一个节点上。对于您创建的三个服务器的集群，如果两个服务器在同一个节点上，并且该节点出现故障，那么您的ZooKeeper服务的客户端将遇到停机，直到至少一个Pod能够重新调度为止。

您应该始终提供额外的容量，以允许在节点故障的情况下重新调度关键系统的进程。如果您这样做，那么停机只会持续到Kubernetes调度程序重新调度其中一个ZooKeeper服务器为止。但是，如果您希望您的服务能够在没有停机的情况下容忍节点故障，则应该设置podAntiAffinity。

使用以下命令获取zk StatefulSet中Pod的节点。

for i in 0 1 2; do kubectl get pod zk-$i --template {{.spec.nodeName}}; echo ""; done

zk StatefulSet中的所有Pod都部署在不同的节点上。

kubernetes-node-cxpk
kubernetes-node-a5aq
kubernetes-node-2g2d

这是因为zk StatefulSet中的Pod指定了PodAntiAffinity。

affinity:
  podAntiAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
            - key: "app"
              operator: In
              values:
                - zk
        topologyKey: "kubernetes.io/hostname"

requiredDuringSchedulingIgnoredDuringExecution字段告诉Kubernetes调度程序，它永远不应该将两个在topologyKey定义的域中具有app标签为zk的Pod共同定位。topologyKey kubernetes.io/hostname指示该域是单个节点。使用不同的规则、标签和选择器，您可以扩展此技术，将您的集群分布在物理、网络和电源故障域中。

维护期间幸存

在本节中，您将隔离和排干节点。如果您在共享集群上使用本教程，请确保这不会对其他租户造成不利影响。

上一节向您展示了如何将Pod分布在多个节点上，以在计划外的节点故障中幸存，但您还需要计划由于计划维护而发生的临时节点故障。

使用此命令获取集群中的节点。

kubectl get nodes

本教程假设集群至少有四个节点。如果集群有四个以上节点，请使用kubectl cordon隔离除四个节点外的所有节点。限制为四个节点将确保Kubernetes在以下维护模拟中调度zookeeper Pod时遇到亲和力和PodDisruptionBudget约束。

kubectl cordon <node-name>

使用此命令获取zk-pdb PodDisruptionBudget。

kubectl get pdb zk-pdb

max-unavailable字段指示Kubernetes，zk StatefulSet中最多只能有一个Pod在任何时间不可用。

NAME      MIN-AVAILABLE   MAX-UNAVAILABLE   ALLOWED-DISRUPTIONS   AGE
zk-pdb    N/A             1                 1

在一个终端中，使用此命令监视zk StatefulSet中的Pod。

kubectl get pods -w -l app=zk

在另一个终端中，使用此命令获取Pod当前调度到的节点。

for i in 0 1 2; do kubectl get pod zk-$i --template {{.spec.nodeName}}; echo ""; done

输出类似于以下内容

kubernetes-node-pb41
kubernetes-node-ixsl
kubernetes-node-i4c4

使用kubectl drain隔离和排干zk-0 Pod调度到的节点。

kubectl drain $(kubectl get pod zk-0 --template {{.spec.nodeName}}) --ignore-daemonsets --force --delete-emptydir-data

输出类似于以下内容

node "kubernetes-node-pb41" cordoned

WARNING: Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-pb41, kube-proxy-kubernetes-node-pb41; Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-o5elz
pod "zk-0" deleted
node "kubernetes-node-pb41" drained

由于您的集群中有四个节点，因此kubectl drain成功，zk-0被重新调度到另一个节点。

NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   2          1h
zk-1      1/1       Running   0          1h
zk-2      1/1       Running   0          1h
NAME      READY     STATUS        RESTARTS   AGE
zk-0      1/1       Terminating   2          2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Pending   0         0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         51s
zk-0      1/1       Running   0         1m

继续在第一个终端中监视StatefulSet的Pod，并排干zk-1调度到的节点。

kubectl drain $(kubectl get pod zk-1 --template {{.spec.nodeName}}) --ignore-daemonsets --force --delete-emptydir-data

输出类似于以下内容

"kubernetes-node-ixsl" cordoned
WARNING: Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-ixsl, kube-proxy-kubernetes-node-ixsl; Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-voc74
pod "zk-1" deleted
node "kubernetes-node-ixsl" drained

zk-1 Pod无法调度，因为zk StatefulSet包含一个PodAntiAffinity规则，阻止Pod共同定位，并且由于只有两个节点可调度，因此Pod将保持在Pending状态。

kubectl get pods -w -l app=zk

输出类似于以下内容

NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   2          1h
zk-1      1/1       Running   0          1h
zk-2      1/1       Running   0          1h
NAME      READY     STATUS        RESTARTS   AGE
zk-0      1/1       Terminating   2          2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Pending   0         0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         51s
zk-0      1/1       Running   0         1m
zk-1      1/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s

继续观察 StatefulSet 的 Pod，并清空调度了 zk-2 的节点。

kubectl drain $(kubectl get pod zk-2 --template {{.spec.nodeName}}) --ignore-daemonsets --force --delete-emptydir-data

输出类似于以下内容

node "kubernetes-node-i4c4" cordoned

WARNING: Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-i4c4, kube-proxy-kubernetes-node-i4c4; Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-dyrog
WARNING: Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-dyrog; Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-i4c4, kube-proxy-kubernetes-node-i4c4
There are pending pods when an error occurred: Cannot evict pod as it would violate the pod's disruption budget.
pod/zk-2

使用 CTRL-C 终止 kubectl。

您无法清空第三个节点，因为驱逐 zk-2 将违反 zk-budget。但是，该节点将保持隔离状态。

使用 zkCli.sh 从 zk-0 中检索在健全性测试期间输入的值。

kubectl exec zk-0 zkCli.sh get /hello

该服务仍然可用，因为其 PodDisruptionBudget 被尊重。

WatchedEvent state:SyncConnected type:None path:null
world
cZxid = 0x200000002
ctime = Wed Dec 07 00:08:59 UTC 2016
mZxid = 0x200000002
mtime = Wed Dec 07 00:08:59 UTC 2016
pZxid = 0x200000002
cversion = 0
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 5
numChildren = 0

使用 kubectl uncordon 取消隔离第一个节点。

kubectl uncordon kubernetes-node-pb41

输出类似于以下内容

node "kubernetes-node-pb41" uncordoned

zk-1 将重新调度到此节点。等待 zk-1 运行并准备就绪。

kubectl get pods -w -l app=zk

输出类似于以下内容

NAME      READY     STATUS    RESTARTS   AGE
zk-0      1/1       Running   2          1h
zk-1      1/1       Running   0          1h
zk-2      1/1       Running   0          1h
NAME      READY     STATUS        RESTARTS   AGE
zk-0      1/1       Terminating   2          2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Terminating   2         2h
zk-0      0/1       Pending   0         0s
zk-0      0/1       Pending   0         0s
zk-0      0/1       ContainerCreating   0         0s
zk-0      0/1       Running   0         51s
zk-0      1/1       Running   0         1m
zk-1      1/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Terminating   0         2h
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         0s
zk-1      0/1       Pending   0         12m
zk-1      0/1       ContainerCreating   0         12m
zk-1      0/1       Running   0         13m
zk-1      1/1       Running   0         13m

尝试清空调度了 zk-2 的节点。

kubectl drain $(kubectl get pod zk-2 --template {{.spec.nodeName}}) --ignore-daemonsets --force --delete-emptydir-data

输出类似于以下内容

node "kubernetes-node-i4c4" already cordoned
WARNING: Deleting pods not managed by ReplicationController, ReplicaSet, Job, or DaemonSet: fluentd-cloud-logging-kubernetes-node-i4c4, kube-proxy-kubernetes-node-i4c4; Ignoring DaemonSet-managed pods: node-problem-detector-v0.1-dyrog
pod "heapster-v1.2.0-2604621511-wht1r" deleted
pod "zk-2" deleted
node "kubernetes-node-i4c4" drained

这次 kubectl drain 成功了。

取消隔离第二个节点以允许 zk-2 重新调度。

kubectl uncordon kubernetes-node-ixsl

输出类似于以下内容

node "kubernetes-node-ixsl" uncordoned

您可以将 kubectl drain 与 PodDisruptionBudgets 结合使用，以确保您的服务在维护期间保持可用。如果 drain 用于隔离节点并在将节点离线进行维护之前驱逐 Pod，那么表达了中断预算的服务将尊重该预算。您应该始终为关键服务分配额外的容量，以便可以立即重新调度其 Pod。

清理

使用 kubectl uncordon 取消隔离集群中的所有节点。
您必须删除本教程中使用的持久卷的持久存储介质。根据您的环境、存储配置和供应方法，按照必要的步骤确保所有存储都被回收。

上次修改时间：2023 年 12 月 18 日凌晨 2:39 PST: Update zookeeper.md (baa9da8695)

运行 ZooKeeper，一个分布式系统协调器

开始之前

目标

ZooKeeper

创建 ZooKeeper 集群

促进领导者选举

达成共识

对集群进行健全性测试

提供持久存储

确保配置一致性

配置日志记录

配置非特权用户

管理ZooKeeper进程

更新集群

处理进程故障

测试存活性

测试就绪性

容忍节点故障

维护期间幸存

清理

反馈