使用源 IP

在 Kubernetes 集群中运行的应用程序通过 Service 抽象找到并相互通信,以及外部世界。本文档解释了发送到不同类型 Service 的数据包的源 IP 地址发生了什么,以及如何根据您的需要切换此行为。

开始之前

术语

本文档使用以下术语

NAT
网络地址转换
源 NAT
替换数据包的源 IP 地址;在此页面中,通常意味着替换为节点的 IP 地址。
目标 NAT
替换数据包的目标 IP 地址;在此页面中,通常意味着替换为 Pod 的 IP 地址
VIP
虚拟 IP 地址,例如分配给 Kubernetes 中每个 Service 的地址
kube-proxy
在每个节点上协调 Service VIP 管理的网络守护进程

先决条件

您需要有一个 Kubernetes 集群,并且 kubectl 命令行工具必须配置为与您的集群通信。建议在至少有两个节点的集群上运行本教程,这些节点不充当控制平面主机。如果您还没有集群,可以使用 minikube 创建一个,或者您可以使用以下 Kubernetes 游乐场之一

这些示例使用一个小型的 nginx webserver,它通过 HTTP 标头回显接收到的请求的源 IP 地址。您可以按照以下步骤创建它

kubectl create deployment source-ip-app --image=registry.k8s.io/echoserver:1.4

输出为

deployment.apps/source-ip-app created

目标

  • 通过各种类型的 Service 公开一个简单的应用程序
  • 了解每种 Service 类型如何处理源 IP NAT
  • 了解在保留源 IP 地址时涉及的权衡

具有 Type=ClusterIP 的 Service 的源 IP 地址

如果在 iptables 模式 下运行 kube-proxy(默认情况下),则从集群内部发送到 ClusterIP 的数据包永远不会进行源 NAT。您可以通过在运行 kube-proxy 的节点上获取 http://localhost:10249/proxyMode 来查询 kube-proxy 模式。

kubectl get nodes

输出类似于以下内容

NAME                           STATUS     ROLES    AGE     VERSION
kubernetes-node-6jst   Ready      <none>   2h      v1.13.0
kubernetes-node-cx31   Ready      <none>   2h      v1.13.0
kubernetes-node-jj1t   Ready      <none>   2h      v1.13.0

获取其中一个节点上的代理模式(kube-proxy 监听端口 10249)

# Run this in a shell on the node you want to query.
curl http://localhost:10249/proxyMode

输出为

iptables

您可以通过在源 IP 应用程序上创建一个 Service 来测试源 IP 地址保留

kubectl expose deployment source-ip-app --name=clusterip --port=80 --target-port=8080

输出为

service/clusterip exposed
kubectl get svc clusterip

输出类似于以下内容

NAME         TYPE        CLUSTER-IP    EXTERNAL-IP   PORT(S)   AGE
clusterip    ClusterIP   10.0.170.92   <none>        80/TCP    51s

并从同一集群中的 pod 中访问 ClusterIP

kubectl run busybox -it --image=busybox:1.28 --restart=Never --rm

输出类似于以下内容

Waiting for pod default/busybox to be running, status is Pending, pod ready: false
If you don't see a command prompt, try pressing enter.

然后,您可以在该 Pod 内运行一个命令

# Run this inside the terminal from "kubectl run"
ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host
       valid_lft forever preferred_lft forever
3: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1460 qdisc noqueue
    link/ether 0a:58:0a:f4:03:08 brd ff:ff:ff:ff:ff:ff
    inet 10.244.3.8/24 scope global eth0
       valid_lft forever preferred_lft forever
    inet6 fe80::188a:84ff:feb0:26a5/64 scope link
       valid_lft forever preferred_lft forever

…然后使用 wget 查询本地 webserver

# Replace "10.0.170.92" with the IPv4 address of the Service named "clusterip"
wget -qO - 10.0.170.92
CLIENT VALUES:
client_address=10.244.3.8
command=GET
...

无论客户端 pod 和服务器 pod 是否在同一节点或不同节点上,client_address 始终是客户端 pod 的 IP 地址。

具有 Type=NodePort 的 Service 的源 IP 地址

默认情况下,发送到具有 Type=NodePort 的 Service 的数据包会进行源 NAT。您可以通过创建一个 NodePort Service 来测试这一点

kubectl expose deployment source-ip-app --name=nodeport --port=80 --target-port=8080 --type=NodePort

输出为

service/nodeport exposed
NODEPORT=$(kubectl get -o jsonpath="{.spec.ports[0].nodePort}" services nodeport)
NODES=$(kubectl get nodes -o jsonpath='{ $.items[*].status.addresses[?(@.type=="InternalIP")].address }')

如果您在云提供商上运行,您可能需要为上面报告的 nodes:nodeport 打开防火墙规则。现在,您可以尝试通过上面分配的节点端口从集群外部访问该 Service。

for node in $NODES; do curl -s $node:$NODEPORT | grep -i client_address; done

输出类似于以下内容

client_address=10.180.1.1
client_address=10.240.0.5
client_address=10.240.0.3

请注意,这些不是正确的客户端 IP 地址,它们是集群内部 IP 地址。这就是发生的事情

  • 客户端将数据包发送到 node2:nodePort
  • node2 用自己的 IP 地址替换数据包中的源 IP 地址 (SNAT)
  • node2 用 pod IP 地址替换数据包中的目标 IP 地址
  • 数据包被路由到 node 1,然后路由到端点
  • pod 的回复被路由回 node2
  • pod 的回复被发送回客户端

视觉上

source IP nodeport figure 01

图。使用 SNAT 的源 IP Type=NodePort

为了避免这种情况,Kubernetes 具有 保留客户端源 IP 地址 的功能。如果将 service.spec.externalTrafficPolicy 设置为值 Local,则 kube-proxy 仅将代理请求代理到本地端点,并且不将流量转发到其他节点。这种方法保留了原始源 IP 地址。如果没有本地端点,则发送到该节点的数据包将被丢弃,因此您可以依赖通过到端点的任何数据包处理规则所应用的任何数据包中的正确源 IP 地址。

service.spec.externalTrafficPolicy 字段设置为以下内容

kubectl patch svc nodeport -p '{"spec":{"externalTrafficPolicy":"Local"}}'

输出为

service/nodeport patched

现在,重新运行测试

for node in $NODES; do curl --connect-timeout 1 -s $node:$NODEPORT | grep -i client_address; done

输出类似于以下内容

client_address=198.51.100.79

请注意,您只收到一个回复,其中包含正确的客户端 IP 地址,来自运行端点 pod 的一个节点。

这就是发生的事情

  • 客户端将数据包发送到 node2:nodePort,该节点没有端点
  • 数据包被丢弃
  • 客户端将数据包发送到 node1:nodePort,该节点确实有端点
  • node1 使用正确的源 IP 地址将数据包路由到端点

视觉上

source IP nodeport figure 02

图。源 IP Type=NodePort 保留客户端源 IP 地址

具有 Type=LoadBalancer 的 Service 的源 IP 地址

默认情况下,发送到具有 Type=LoadBalancer 的 Service 的数据包会进行源 NAT,因为 Ready 状态下的所有可调度 Kubernetes 节点都有资格接收负载均衡流量。因此,如果数据包到达没有端点的节点,则系统会将其代理到端点的节点,并用该节点的 IP 地址替换数据包中的源 IP 地址(如上一节所述)。

您可以通过通过负载均衡器公开源 IP 应用程序来测试这一点

kubectl expose deployment source-ip-app --name=loadbalancer --port=80 --target-port=8080 --type=LoadBalancer

输出为

service/loadbalancer exposed

打印出 Service 的 IP 地址

kubectl get svc loadbalancer

输出类似于以下内容

NAME           TYPE           CLUSTER-IP    EXTERNAL-IP       PORT(S)   AGE
loadbalancer   LoadBalancer   10.0.65.118   203.0.113.140     80/TCP    5m

接下来,向该 Service 的外部 IP 地址发送一个请求

curl 203.0.113.140

输出类似于以下内容

CLIENT VALUES:
client_address=10.240.0.5
...

但是,如果您在 Google Kubernetes Engine/GCE 上运行,则将相同的 service.spec.externalTrafficPolicy 字段设置为 Local 将强制没有 Service 端点的节点通过故意使健康检查失败来从负载均衡流量的节点列表中删除自身。

视觉上

Source IP with externalTrafficPolicy

您可以通过设置以下注释来测试这一点

kubectl patch svc loadbalancer -p '{"spec":{"externalTrafficPolicy":"Local"}}'

您应该立即看到 Kubernetes 分配的 service.spec.healthCheckNodePort 字段

kubectl get svc loadbalancer -o yaml | grep -i healthCheckNodePort

输出类似于以下内容

  healthCheckNodePort: 32122

service.spec.healthCheckNodePort 字段指向在 /healthz 上提供健康检查的每个节点上的端口。您可以测试这一点

kubectl get pod -o wide -l app=source-ip-app

输出类似于以下内容

NAME                            READY     STATUS    RESTARTS   AGE       IP             NODE
source-ip-app-826191075-qehz4   1/1       Running   0          20h       10.180.1.136   kubernetes-node-6jst

使用 curl 获取不同节点上的 /healthz 端点

# Run this locally on a node you choose
curl localhost:32122/healthz
1 Service Endpoints found

在另一个节点上,您可能会得到不同的结果

# Run this locally on a node you choose
curl localhost:32122/healthz
No Service Endpoints Found

控制平面 上运行的控制器负责分配云负载均衡器。同一个控制器还分配指向每个节点上该端口/路径的 HTTP 健康检查。等待大约 10 秒钟,让 2 个没有端点的节点使健康检查失败,然后使用 curl 查询负载均衡器的 IPv4 地址

curl 203.0.113.140

输出类似于以下内容

CLIENT VALUES:
client_address=198.51.100.79
...

跨平台支持

只有某些云提供商提供通过具有 Type=LoadBalancer 的 Service 保留源 IP 地址的支持。您运行的云提供商可能以几种不同的方式完成负载均衡器的请求

  1. 使用终止客户端连接并打开到您的节点/端点的新的连接的代理。在这种情况下,源 IP 地址始终是云 LB 的 IP 地址,而不是客户端的 IP 地址。

  2. 使用数据包转发器,以便发送到负载均衡器 VIP 的来自客户端的请求最终到达节点,并带有客户端的源 IP 地址,而不是中间代理。

第一类中的负载均衡器必须使用负载均衡器和后端之间商定的协议来传达真正的客户端 IP 地址,例如 HTTP ForwardedX-FORWARDED-FOR 标头,或者 代理协议。第二类中的负载均衡器可以通过创建指向 Service 上的 service.spec.healthCheckNodePort 字段中存储的端口的 HTTP 健康检查来利用上述功能。

清理

删除 Service

kubectl delete svc -l app=source-ip-app

删除 Deployment、ReplicaSet 和 Pod

kubectl delete deployment source-ip-app

下一步

最后修改时间:2023 年 12 月 20 日太平洋标准时间下午 8:22:更新说明 (f55c69129a)