编程 Docker 27「Orion」深度解析：原生 AI 调度时代来临——GPU 拓扑感知、NUMA 绑定与容器化大模型部署新范式

2026-05-10 00:41:20 +0800 CST views 3

Docker 27「Orion」深度解析：原生 AI 调度时代来临——GPU 拓扑感知、NUMA 绑定与容器化大模型部署新范式

引言：为什么 Docker 27 是容器 runtime 的一次关键转折

2026年3月，一个数字悄悄刷新了记录：中国日均大模型 Token 调用量突破 140 万亿，短短两年增长超千倍。这个数字背后是一个正在爆发的基础设施问题——如何让容器化的大模型推理和训练真正「用好」GPU。

过去的容器技术是围绕 CPU 和内存设计的，GPU 只是被当作一个「外挂设备」来透传。docker run --gpus all 能工作，但透传之后呢？GPU 之间的 NVLink 拓扑被忽略了，同一块 GPU 的显存碎片化无法感知，多个容器在同一节点上争夺显存时毫无 QoS 保障——这些问题在大模型时代被无限放大。

Docker 27 代号「Orion」正是为解决这些问题而来。它首次将原生 GPU 拓扑感知、NUMA 绑定策略与细粒度内存带宽限制集成到 docker run CLI 与 docker-compose.yml v3.12 规范中。这不是一次功能堆砌，而是一次由 AI 工作负载需求驱动的架构级演进。

本文将深入拆解 Docker 27 的每一项核心技术，从调度增强到安全加固，从 AI 模型容器化最佳实践到生产环境避坑指南，为你提供一份完整的技术参考。

一、GPU 拓扑感知调度：让容器「认识」GPU 的拓扑结构

1.1 为什么 GPU 拓扑感知如此重要

在多 GPU 环境中，GPU 之间的通信带宽差异巨大。以 NVIDIA A100 为例：

NVLink 连接：8 个 GPU 之间通过 NVLink 全互联，单卡双向带宽 600 GB/s
PCIe 4.0 x16：单卡带宽约 32 GB/s，比 NVLink 慢约 20 倍
跨 NUMA 节点：如果 GPU 和 CPU 不在同一 NUMA 节点，数据传输需要经过 QPI/UPI 互联，带宽进一步下降

过去容器调度时，这些拓扑信息对 Docker 是「透明」的——你只能通过 --gpus '"device=0,1"' 指定使用哪些 GPU，但无法指定 NVLink 优先还是 PCIe 优先，更无法让 Docker 自动选择最优的 GPU 组合。

Docker 27 改变了这一局面。

1.2 自动拓扑发现与绑定

Docker 27 集成了 NVIDIA 的 NVML（NVIDIA Management Library），在容器启动时自动获取 GPU 的拓扑信息，并通过 --gpu-affinity 参数实现拓扑感知的 GPU 绑定：

# 查看节点上 GPU 的拓扑矩阵
docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 \
  nvidia-smi topo -m

# 输出示例：
# GPU0    GPU1    GPU2    GPU3    CPU Affinity    NUMA Affinity
# GPU0  X     NV1     NV1     PHB    0-31           0
# GPU1  NV1    X      NV1     PHB    0-31           0
# GPU2  NV1    NV1     X      PHB    32-63          1
# GPU3  PHB    PHB     PHB     X      32-63          1
#
# Legend:
#  X   = Self
#  NV1 = Link through NVSwitch
#  PHB = PCIe host bridge (PCIe only)
#  NODE= Inter-node connection via QPI/UPI
#
# 关键解读：
#  GPU0-GPU1 通过 NVLink 连接（NV1），最优
#  GPU0-GPU2 通过 NVLink 连接（NV1），最优
#  GPU3 与 GPU0/GPU1/GPU2 通过 PCIe 连接（PHB），较慢

# 自动绑定到最优拓扑（同一 NVLink 域内的 GPU）
docker run -d --name llm-inference \
  --gpus all \
  --gpu-affinity=nvlink-only \    # Docker 27 新参数：只使用 NVLink 连接的 GPU
  nvidia/cuda:12.4.0-runtime-ubuntu22.04 \
  python serve.py --model llama-3-8b

# 或者指定具体拓扑偏好
docker run -d --name multi-gpu-training \
  --gpus '"device=0,1"' \
  --gpu-numa-preference=preferred \  # 优先使用与容器 CPU 同一 NUMA 节点的 GPU
  nvidia/cuda:12.4.0-runtime-ubuntu22.04 \
  python train.py --world-size 2

1.3 分布式训练场景的拓扑最优配置

# docker-compose.yml v3.12 - 分布式训练的拓扑感知配置
version: '3.12'

services:
  # 主节点：控制整个训练任务的编排
  coordinator:
    image: pytorch/pytorch:2.4.0-cuda12.1-cudnn8-runtime
    command: python torchrun.py --nnodes=2 --nproc_per_node=4
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            count: 4
            capabilities: [gpu, compute]
    environment:
      WORLD_SIZE: "2"
      MASTER_ADDR: coordinator
      MASTER_PORT: "29500"
    networks:
      - training-net

  # 工作节点 1：与 coordinator 通过 NVLink 通信
  worker1:
    image: pytorch/pytorch:2.4.0-cuda12.1-cudnn8-runtime
    command: python torchrun.py --nnodes=2 --nproc_per_node=4
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            count: 4
            capabilities: [gpu, compute]
            topology: auto    # Docker 27 新参数：自动选择最优拓扑
    environment:
      WORLD_SIZE: "2"
      MASTER_ADDR: coordinator
      MASTER_PORT: "29500"
    networks:
      - training-net

networks:
  training-net:
    driver: bridge

二、NUMA 感知的内存带宽控制

2.1 NUMA 架构下的 GPU 访问代价

在 NUMA（Non-Uniform Memory Access）架构中，CPU 和内存被划分为多个节点，每个节点有自己的本地内存。如果 GPU 所在节点和容器运行的 CPU 所在节点不一致，GPU 访问系统内存时需要跨节点传输，带宽显著下降。

# 查看 GPU 与 NUMA 节点的映射关系
nvidia-smi topo -m

# 输出解读：
# GPU3 与 NUMA 1 亲和（物理位置在 CPU 32-63 附近）
# GPU0/GPU1/GPU2 与 NUMA 0 亲和（物理位置在 CPU 0-31 附近）

# NUMA 感知的容器启动
docker run -d --name numa-aware-inference \
  --gpus all \
  --cpuset-cpus=0-15 \          # 绑定到 NUMA 0 的 CPU
  --cpuset-mems=0 \             # 绑定到 NUMA 0 的内存
  --memory=32g \
  --memory-nodes=0 \             # Docker 27 新参数：内存分配限制在 NUMA 0
  pytorch/pytorch:2.4.0-cuda12.1-cudnn8-runtime \
  python serve.py

2.2 内存带宽限制：--memory-bandwidth 参数

Docker 27 引入了 --memory-bandwidth 参数，可以按 MB/s 粒度限制容器对内存控制器的带宽占用。这是 AI 推理场景的刚需——当一个节点上同时运行推理服务和批处理任务时，推理服务可能因内存带宽被抢占而产生不可预测的延迟。

# 启动推理服务，限制内存带宽为 8500 MB/s
# （对应双路 DDR5-4800 的带宽上限）
docker run -d --name llm-serve \
  --gpus all \
  --memory=64g \
  --memory-bandwidth=8500m \    # Docker 27 新参数：限制内存带宽
  --cpu-quota=200000 \          # CPU 配额
  --cpus=4 \
  pytorch/pytorch:2.4.0-cuda12.1-runtime \
  python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.2-1B-Instruct \
    --gpu-memory-utilization 0.9 \
    --max-num-batched-tokens 32768

# 启动批处理任务，内存带宽限制更低
docker run -d --name batch-inference \
  --gpus '"device=1"' \
  --memory=32g \
  --memory-bandwidth=4000m \    # 批处理任务内存带宽需求较低
  --cpus=2 \
  pytorch/pytorch:2.4.0-cuda12.1-runtime \
  python batch_process.py

2.3 cgroups v2 集成：线性响应保障

Docker 27 增强了 cgroups v2 接口，使 cpu.weight 和 io.weight 策略在混合 AI/非 AI 负载下保持线性响应。这意味着在 CPU 竞争场景下，容器的调度延迟更加可预测。

# 检查 cgroups 版本
mount | grep cgroup
# v2: cgroup2 on /sys/fs/cgroup/unified type cgroup2 ...
# v1: cgroup on /sys/fs/cgroup type cgroup ...

# Docker 27 对 cgroups v2 的增强：
# 1. CPU 权重公平调度
docker run -d --name low-priority \
  --cpus=2 \
  --cpu-weight=10 \    # cgroups v2 weight 值（1-10000）
  batch-job:latest

# 2. I/O 权重控制
docker run -d --name high-priority \
  --device-read-iops=/dev/sda,1000 \
  --device-write-iops=/dev/sda,500 \
  inference-service:latest

三、dockerd-scheduler：AI 调度的守护进程

3.1 为什么需要 AI 感知的调度

传统的 Docker 调度只看 CPU 和内存。但 AI 工作负载有完全不同的资源特征：

GPU 利用率动态变化：训练时 100%，推理时 30-70%，波动剧烈
显存碎片化：PyTorch 模型的显存分配模式与 CPU 内存完全不同
CUDA 上下文切换代价高：同一 GPU 上的任务切换需要保存/恢复大量 CUDA 上下文
多租户竞争：多个 LLM 推理服务共享同一 GPU 时，上下文切换导致利用率骤降

Docker 27 在 daemon 层嵌入了轻量级调度代理 dockerd-scheduler，通过 --ai-scheduler=enabled 启用：

# 启动支持 AI 调度的 Docker 守护进程
sudo dockerd \
  --ai-scheduler=enabled \
  --ai-metrics-interval=5s \
  --experimental

# 调度代理实时采集：
# - NVML GPU memory pressure（显存压力）
# - CUDA context switch count（上下文切换次数）
# - GPU utilization（GPU 利用率）
# - PCIe throughput（PCIe 吞吐量）
# - NVLink bandwidth（NVLink 带宽利用率）

# 查看 AI 调度状态
docker info | grep "AI Scheduler"
# AI Scheduler:        enabled
# GPU Metrics Interval: 5s
# CUDA Context Switch:  monitoring

3.2 自动 QoS 保障

dockerd-scheduler 可以根据实时指标自动调整容器的资源配额，防止单个容器垄断 GPU 资源：

# docker-compose.yml - AI QoS 配置
version: '3.12'

services:
  llm-serve:
    image: vllm/vllm-openai:latest
    runtime: nvidia
    environment:
      CUDA_VISIBLE_DEVICES: "0,1"
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            count: 2
            capabilities: [gpu]
        limits:
          memory: 32G
        # Docker 27 AI QoS 配置
        ai_qos:
          enabled: true
          min_gpu_utilization: 30    # GPU 利用率低于 30% 时可被抢占
          max_response_time: 500ms   # 最大响应时间（超过后调度器优化分配）
          priority: high
          burstable: true            # 允许短时突发到上限

  batch-job:
    image: batch-inference:latest
    runtime: nvidia
    environment:
      CUDA_VISIBLE_DEVICES: "0,1"
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            count: 1
            capabilities: [gpu]
        limits:
          memory: 16G
        ai_qos:
          enabled: true
          priority: low
          preemptible: true          # 可被高优先级容器抢占 GPU
          grace_period: 30s          # 抢占前等待 30 秒

3.3 调度决策可视化

# 查看当前 AI 调度决策
docker ai-scheduler status

# 输出示例：
# NODE: gpu-node-1
# ┌─────────────────────────────────────────────────────────────┐
# │ GPU 0: NVIDIA A100-SXM4-80GB                             │
# │  ├─ Memory:  67.2GB / 80GB (84%)                         │
# │  ├─ Utilization: 87%                                      │
# │  ├─ Contention: HIGH (3 containers competing)            │
# │  └─ Recommendation: Migrate batch-job to GPU 1           │
# │                                                            │
# │ GPU 1: NVIDIA A100-SXM4-80GB                             │
# │  ├─ Memory:  12.8GB / 80GB (16%)                         │
# │  ├─ Utilization: 23%                                      │
# │  ├─ Contention: LOW (1 container)                        │
# │  └─ Recommendation: SCHEDULE OK                          │
# └─────────────────────────────────────────────────────────────┘

四、docker ai run：模型推理的零配置启动

4.1 一键拉取并运行量化模型

Docker 27 最令人惊艳的功能之一是 docker ai run 子命令。它可以自动识别硬件架构、加载对应的内核模块、对 ONNX 模型执行 JIT 图融合，并暴露 OpenAI 兼容的 API 端点：

# 拉取 4-bit 量化的 Phi-3-mini 模型（CPU 友好，仅需 2GB 内存）
docker ai pull phi-3-mini:q4_k_m

# 一键启动推理服务
docker ai run phi-3-mini:q4_k_m --port 8080

# Docker 27 自动执行以下操作：
# 1. 检测硬件：NVIDIA / AMD / Apple Silicon
# 2. 选择最优推理引擎：llama.cpp / vLLM / TensorRT
# 3. 加载模型并执行预热推理
# 4. 暴露 OpenAI 兼容 API

# 测试 API
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "phi-3-mini",
    "messages": [{"role": "user", "content": "Explain Docker 27 in one sentence."}]
  }'

4.2 支持的模型格式

# GGUF/GGML 量化模型（CPU + GPU）
docker ai run llama-3.2-1b:latest-q4_k_m

# Safetensors 格式（纯 GPU）
docker ai run meta-llama/Llama-3.2-1B-Instruct

# ONNX 模型（跨平台）
docker ai run bert-base-uncased:latest

# 支持的自动优化：
# - TensorRT 引擎缓存（首次推理后生成，后续秒启动）
# - Flash Attention 2 自动启用
# - KV Cache 量化
# - 批处理大小自动调优

4.3 模型预热与健康探针

docker ai run 内置了模型预热机制和健康探针，解决了 AI 服务冷启动的难题：

# 预热探针配置
docker run -d \
  --name llm-serve \
  -p 8080:8080 \
  --ai-model-warmup-prompt="What is 2+2?" \
  --ai-model-warmup-iterations=5 \
  --health-cmd="curl -f http://localhost:8080/health || exit 1" \
  --health-interval=30s \
  --health-retries=3 \
  --health-timeout=10s \
  vllm/vllm-openai:latest

五、Dockerfile.ai：模型封装的声明式语法

5.1 从 Dockerfile 到 Dockerfile.ai

Docker 27 引入了 Dockerfile.ai 语法扩展，用 MODEL FROM 指令替代传统的手动模型下载逻辑：

# Dockerfile.ai - 封装 Llama-3.2-1B-Instruct 量化版
# syntax=docker.io/docker/dockerfile:ai-latest

# 第一阶段：基础镜像
FROM pytorch/pytorch:2.4.0-cuda12.4-cudnn9-runtime AS base

# 第二阶段：模型定义（Dockerfile.ai 新语法）
MODEL FROM huggingface.co/meta-llama/Llama-3.2-1B-Instruct:q4_k_m
MODEL OPT quantization=q4_k_m
MODEL OPT max_context_length=8192
MODEL OPT use_flash_attention=true

# 第三阶段：推理服务构建
FROM base AS inference
COPY --from=base /root/.cache/huggingface /root/.cache/huggingface

# 健康检查探针
RUN pip install llama-index
HEALTHCHECK --interval=30s CMD python -c "import requests; requests.get('http://localhost:8080/health')"

# 推理服务入口
CMD ["python", "-m", "vllm.entrypoints.openai.api_server", \
     "--model", "/root/.cache/huggingface/models--meta-llama--Llama-3.2-1B-Instruct", \
     "--trust-remote-code", \
     "--quantization", "q4_k_m"]

# 构建 AI 镜像（Dockerfile.ai 由 Docker Daemon 内置解析器处理）
docker build -f Dockerfile.ai -t my-llm-service:latest .

# 推送至镜像仓库
docker push my-llm-service:latest

# 在其他节点拉取并运行
docker run -d --gpus all -p 8080:8080 my-llm-service:latest

5.2 模型依赖声明

# Dockerfile.ai - 多模态模型封装
# syntax=docker.io/docker/dockerfile:ai-latest

# 视觉编码器
MODEL FROM huggingface.co/Qwen/Qwen2-VL-7B-Instruct
MODEL OPT dtype=float16

# 语音编码器
MODEL FROM huggingface.co/facebook/wav2vec2-large-960h

# 整合到统一推理服务
FROM python:3.12-slim
COPY --from=base /models /models
COPY inference_server.py /app/
WORKDIR /app
RUN pip install -r requirements.txt

# 模型元数据
LABEL ai.model.name="Qwen2-VL-7B-Instruct-wav2vec2"
LABEL ai.model.type="multimodal"
LABEL ai.model.max_tokens=8192
LABEL ai.model.languages="zh,en"
LABEL ai.model.modalities="text,image,audio"

六、GPU 容器化避坑指南：OOM Killer 防御配置

6.1 为什么 AI 容器容易被 OOM Killer 误杀

cgroups v2 + runc 1.2.0 下，容器的内存统计方式发生了变化。AI 容器特别容易触发 OOM Killer，因为：

CUDA 显存和系统内存混合计费：当 PyTorch 使用 CUDA 内存分配器时，分配的显存可能不完全被 cgroups 正确追踪
内存映射文件：HBM（High Bandwidth Memory）被映射为系统文件，访问时触发 page cache，导致额外的系统内存分配
cuBLAS/cuDNN 工作区：这些库的临时工作区内存不受 PyTorch 控制，但会消耗系统内存

6.2 五步防御配置

# docker-compose.yml - OOM Killer 防御配置
version: '3.12'

services:
  llm-inference:
    image: vllm/vllm-openai:latest
    runtime: nvidia
    environment:
      # PyTorch CUDA 内存分配器：限定为 managed（受 cgroups 追踪）
      CUDA_MANAGED_FORCE_DEVICE_ALLOC: "1"
      # 禁用 CUDA IPC（避免跨进程显存共享导致的统计丢失）
      CUDA_DISABLE_IPC: "1"
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            count: all
            capabilities: [gpu]
        limits:
          memory: 48G              # 留 16G 给系统和 page cache
          memory-swap: 48G        # 禁止 swap（AI 容器 swap 几乎必然 OOM）
        # runc 1.2.0 新参数
        kernel_memory_tcp: 1G      # TCP 缓冲区内存上限
        kernel_memory: 2G          # 内核内存上限（防止内核内存泄漏）
    # OOM 策略：restart（被 OOM Killer 杀后自动重启）
    oom_kill_disable: false       # 不禁用 oom_kill（太危险），改为快速恢复
    restart: on-failure
    restart_delay: 5s
    ulimits:
      - nofile=65536:65536

6.3 监控与预警

#!/bin/bash
# AI 容器健康监控脚本
# 部署在每个 GPU 节点上

ALERT_THRESHOLD_MEMORY=85  # 系统内存使用 85% 时告警
ALERT_THRESHOLD_GPU=95     # GPU 显存使用 95% 时告警

while true; do
  # 获取 GPU 显存使用率
  GPU_MEM=$(nvidia-smi --query-gpu=memory.used,memory.total --format=csv,noheader,nounits | \
    awk -F',' '{printf "%.0f", $1/$2*100}')

  # 获取系统内存使用率
  SYS_MEM=$(free | awk '/Mem:/ {printf "%.0f", $3/$2*100}')

  # 获取容器 OOM 次数
  OOM_COUNT=$(cat /sys/fs/cgroup/memory/docker/*/memory.oom_kill 2>/dev/null | \
    awk '{sum+=$1} END {print sum+0}')

  TIMESTAMP=$(date '+%Y-%m-%d %H:%M:%S')

  if [ "$GPU_MEM" -gt "$ALERT_THRESHOLD_GPU" ]; then
    echo "[$TIMESTAMP] 🚨 ALERT: GPU memory at ${GPU_MEM}% (threshold: ${ALERT_THRESHOLD_GPU}%)"
  fi

  if [ "$SYS_MEM" -gt "$ALERT_THRESHOLD_MEMORY" ]; then
    echo "[$TIMESTAMP] 🚨 ALERT: System memory at ${SYS_MEM}% (threshold: ${ALERT_THRESHOLD_MEMORY}%)"
  fi

  if [ "$OOM_COUNT" -gt 0 ]; then
    echo "[$TIMESTAMP] 🚨 CRITICAL: OOM Killer triggered $OOM_COUNT times! Check containers immediately."
  fi

  sleep 30
done

七、GPU 资源弹性伸缩：HPA + Prometheus 实战

7.1 基于 GPU 利用率的弹性伸缩

# Kubernetes HPA + GPU 利用率自动伸缩
# 前提：已安装 DCGM (Data Center GPU Manager) Exporter
# kubectl apply -f https://raw.githubusercontent.com/NVIDIA/gpu-monitoring-tools/main/dcgm-exporter.yaml

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: llm-inference-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: llm-inference
  minReplicas: 1
  maxReplicas: 10
  metrics:
  # 基于 GPU 利用率伸缩（> 70% 时扩容，< 30% 时缩容）
  - type: Resource
    resource:
      name: nvidia.com/gpu
      target:
        type: Utilization
        averageUtilization: 70
  # 基于每秒请求数伸缩
  - type: Pods
    pods:
      metric:
        name: http_requests_per_second
      target:
        type: AverageValue
        averageValue: "100"
  behavior:
    scaleUp:
      stabilizationWindowSeconds: 60
      policies:
      - type: Percent
        value: 100
        periodSeconds: 15
    scaleDown:
      stabilizationWindowSeconds: 300   # 缩容窗口 5 分钟（防止频繁抖动）
      policies:
      - type: Pods
        value: 1
        periodSeconds: 60

7.2 Prometheus 告警规则

# Prometheus 告警规则
apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: gpu-workload-alerts
spec:
  groups:
  - name: gpu-container-health
    rules:
    - alert: GPUContainerOOMKill
      expr: increase(container_oom_events_total[5m]) > 0
      for: 0m
      labels:
        severity: critical
      annotations:
        summary: "Container OOM Kill detected on GPU node"
        description: "Container {{ $labels.container }} was OOM killed on node {{ $labels.instance }}. This often indicates improper GPU memory limits."
    - alert: GPUUtilizationLow
      expr: avg by(instance) (DCGM_FI_DEV_GPU_UTIL) < 20
      for: 10m
      labels:
        severity: warning
      annotations:
        summary: "GPU utilization consistently low"
        description: "GPU on {{ $labels.instance }} has been below 20% for 10 minutes. Consider scaling down."
    - alert: GPUMemoryPressure
      expr: DCGM_FI_DEV_FB_USED / DCGM_FI_DEV_FB_FREE > 9
      for: 5m
      labels:
        severity: warning
      annotations:
        summary: "GPU memory pressure high"
        description: "GPU {{ $labels.instance }} memory pressure ratio is {{ $value }}. Performance may degrade."

八、多租户 GPU 集群的命名空间隔离

8.1 GPU 配额管理

# 创建 GPU 配额命名空间
kubectl create namespace gpu-team-ai

# 应用 GPU 配额
kubectl apply -f - <<EOF
apiVersion: v1
kind: ResourceQuota
metadata:
  name: gpu-quota
  namespace: gpu-team-ai
spec:
  hard:
    # 总 GPU 数量配额
    requests.nvidia.com/gpu: "4"
    # 每个 Pod 最大 GPU 数量
    pods: "10"
---
apiVersion: v1
kind: LimitRange
metadata:
  name: gpu-limits
  namespace: gpu-team-ai
spec:
  limits:
  - max:
      nvidia.com/gpu: 2
    min:
      nvidia.com/gpu: 0
    default:
      nvidia.com/gpu: 1
    defaultRequest:
      nvidia.com/gpu: 1
    type: Container
EOF

8.2 GPU Time-Slicing 与 MIG 分区

# NVIDIA GPU Time-Slicing：多个小任务共享同一物理 GPU
# 注意：与 MIG 不同，Time-Slicing 不提供硬件隔离
apiVersion: v1
kind: ConfigMap
metadata:
  name: nvidia-device-plugin-config
  namespace: gpu-operator
data:
  config.yaml: |
    version: v1
    sharing:
      timeSlicing:
        resources:
        - name: nvidia.com/gpu
          replicas: 4    # 每个物理 GPU 被 4 个任务共享（轮转调度）
---
# 启用 MIG 分区（A100/H100 等高端 GPU）
apiVersion: v1
kind: ConfigMap
metadata:
  name: nvidia-mig-config
  namespace: gpu-operator
data:
  config.yaml: |
    version: v1
    mig:
      configMap: |
        0g.10gb:
          - devices: [GPU]
            am: compute
            cgi: 0x19
            migUnderGpu運用: true
        1g.5gb:
          - devices: [GPU]
            am: compute
            cgi: 0x1f

九、Docker 27 Edge Mode：边缘设备的新选择

9.1 为什么边缘场景需要 Edge Mode

Docker Desktop 对于边缘设备（如树莓派、工业网关、嵌入式 ARM 设备）来说太重了——它需要完整的 GUI 环境和大量系统依赖。Docker 27 引入了原生 Edge Mode，提供零依赖、无 GUI、资源占用极低的容器运行时：

# 在边缘设备上安装 Edge Mode（无 Docker Desktop）
curl -fsSL https://get.docker.com/edge | sh

# 启动 Edge Mode（无 daemon，容器直接由 systemd 管理）
dockerd --experimental --edge &
# 或者完全无 daemon 模式
docker run --rm --network=none docker.io/library/alpine:latest echo "Hello Edge"

# 查看资源占用对比
# Docker Desktop：约 1GB RAM，100+ 进程
# Docker Edge Mode：约 50MB RAM，10 个进程

9.2 ARM 边缘 AI 推理

# docker-compose.edge.yml - 边缘 AI 推理服务
version: '3.12'

services:
  # 视觉推理：使用 TensorFlow Lite 量化模型
  vision-inference:
    image: tensorflow/tensorflow:2.16.1-lite
    platform: linux/arm64
    command: python tflite_serve.py --model mobilenet_v3.tflite
    deploy:
      resources:
        limits:
          memory: 512M
          cpus: "1.0"
    ports:
    - "5000:5000"
    restart: unless-stopped

  # 语音识别：Whisper Tiny
  audio-inference:
    image: nickshanks/whisper-tiny:latest
    platform: linux/arm64
    command: python -m http.server 5001
    deploy:
      resources:
        limits:
          memory: 1G
          cpus: "2.0"
    ports:
    - "5001:5001"
    restart: unless-stopped

十、升级路径与生产环境检查清单

10.1 从旧版本升级

# Ubuntu/Debian
sudo apt-get update
sudo apt-get install --only-upgrade docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

# 验证版本
docker version
# Client: Docker version 27.0.0
# Engine: Docker version 27.0.0

# 升级后检查
docker info | grep "Server Version"
docker system df  # 查看磁盘占用
docker system prune -a  # 清理旧镜像释放空间

10.2 GPU 环境检查

#!/bin/bash
# Docker 27 GPU 环境检查脚本

echo "====== Docker 27 GPU 环境检查 ======"

echo -e "\n[1] Docker 版本"
docker version --format '{{.Server.Version}}'

echo -e "\n[2] NVIDIA Driver 版本"
nvidia-smi --query-gpu=driver_version --format=csv,noheader

echo -e "\n[3] NVIDIA Container Toolkit 版本"
nvidia-ctk --version

echo -e "\n[4] CUDA 版本"
nvcc --version | grep "release"

echo -e "\n[5] GPU 拓扑"
nvidia-smi topo -m

echo -e "\n[6] cgroups 版本"
mount | grep cgroup | head -1

echo -e "\n[7] Docker AI Scheduler 状态"
docker info 2>/dev/null | grep "AI Scheduler" || echo "AI Scheduler 未启用（需要 --ai-scheduler=enabled）"

echo -e "\n[8] 测试 GPU 访问"
docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 \
  nvidia-smi --query-gpu=name,memory.total,utilization.gpu --format=csv

echo -e "\n[9] 检查 runc 版本"
runc --version

echo -e "\n====== 检查完成 ======"

10.3 生产环境迁移检查

#!/bin/bash
# Docker 27 生产环境迁移检查

echo "====== Docker 27 生产迁移检查 ======"

# 1. 检查 docker-compose.yml 格式版本
echo -e "\n[1] docker-compose.yml 格式版本"
find . -name "docker-compose*.yml" | while read f; do
  VERSION=$(head -1 "$f" | grep -oP 'version:\s*["\x27]?[\d.]+["\x27]?' | head -1)
  echo "  $f: $VERSION"
done

# 2. 检查 GPU 容器配置
echo -e "\n[2] 检查 GPU 容器配置"
kubectl get pods -A -o json | jq -r '.items[] | 
  select(.spec.containers[].resources.limits."nvidia.com/gpu" != null) | 
  "\(.metadata.namespace)/\(.metadata.name): GPU limit = \(.spec.containers[0].resources.limits."nvidia.com/gpu")"'

# 3. 检查 OOM Killer 历史
echo -e "\n[3] 检查 OOM Killer 历史"
for cgroup in /sys/fs/cgroup/memory/docker/*; do
  name=$(basename "$cgroup")
  oom=$(cat "$cgroup/memory.oom_kill" 2>/dev/null || echo 0)
  if [ "$oom" -gt 0 ]; then
    echo "  ⚠️  $name: OOM Killer 触发 $oom 次"
  fi
done

# 4. 检查 NVIDIA Container Toolkit 配置
echo -e "\n[4] 检查 NVIDIA Container Toolkit"
if command -v nvidia-ctk &> /dev/null; then
  nvidia-ctk cdi list 2>/dev/null | head -20
else
  echo "  ⚠️  NVIDIA Container Toolkit 未安装"
fi

echo -e "\n====== 检查完成 ======"

总结：Docker 27 为什么是 AI 基础设施的里程碑

Docker 27「Orion」的核心贡献，可以用三个词来概括：感知、优化、编排。

感知：Docker 终于「看见」了 GPU 的拓扑结构。NUMA 节点、PCIe 总线、NVLink 互联——这些信息过去只存在于 nvidia-smi 的输出里，现在直接进入了 Docker 的调度决策链。容器不再是一个「黑盒」，而是一个具有 GPU 拓扑感知能力的智能工作负载。

优化：内存带宽限制、cgroups v2 线性响应保障、OOM Killer 五步防御——这些能力让 AI 容器在生产环境中的行为变得可预测、可控制。当多个 LLM 推理服务在同一节点上运行时，Docker 27 提供了精细化的 QoS 控制手段，而不是让它们自由竞争。

编排：dockerd-scheduler 代理、docker ai run 零配置启动、Dockerfile.ai 模型封装——这三项能力构成了一个完整的 AI 容器编排栈，从模型打包到服务部署，从指标采集到自动调度，全部在 Docker 生态内闭环完成。

对于 AI 基础设施团队而言，Docker 27 意味着：你不再需要在 Docker 容器层之上叠加一层 Kubernetes 定制调度逻辑来管理 GPU 工作负载。Docker 27 本身提供了足够精细的 AI 感知能力，结合 docker-compose v3.12 的声明式配置，可以覆盖大多数 AI 推理和训练的容器化需求。

这或许就是 Docker 作为容器 runtime 的「第二曲线」——当容器化从「什么都能装」进化到「为 AI 工作负载而生」，Docker 27 交出了一份有说服力的答卷。