{
  "slug": "google/cloud/gke-inference",
  "name": "gke-inference",
  "description": "Deploys and optimizes AI/ML inference workloads on GKE, using GPUs, TPUs, and model servers. Use when deploying GKE inference servers, configuring GKE GPU resources for inference, or deploying LLMs on GKE. Don't use for generic batch jobs or HPC task queues (use gke-batch-hpc instead).",
  "category": "Google / Cloud",
  "skill": "/api/skills/google/cloud/gke-inference/SKILL.md"
}