Kubernetes HPA (Horizontal Pod Autoscaler) 完全ガイド: トラフィックの変化に柔軟に対応する 🚀

5月 26, 2026

—

Kubernetes環境でサービスの安定性を維持するために最も重要な要素の一つは、負荷に応じた適切なリソース割り当てです。トラフィックが集中した際に手動でPodの数を増やすことには限界があります。これを自動化する主要な機能が、まさにHPA (Horizontal Pod Autoscaler)です。

1. HPAとは何か？ 🤔

HPAは、CPU使用量やユーザー定義メトリック(Custom Metrics)を監視し、Podの数を自動的に増減させる機能です。これは、負荷が増加するとレプリカ(Replicas)を増やして処理能力を確保し、負荷が減少すると再び縮小してリソースの無駄を防ぐという方法で動作します。📈

2. HPA動作のための必須前提条件 🛠️

HPAが正常に動作するためには、クラスター内に以下の設定が必須です。

Metrics Server: クラスター内のリソース使用データを収集するmetrics-serverがインストールされている必要があります。HPAはこのサーバーからメトリックデータを取得します。
Resource Requests: 各コンテナはCPUおよびメモリに対するrequestsを定義する必要があります。HPAは、この要求量に対する現在の使用率を計算して、スケーリングの可否を決定します。

# Pod定義時には必ずリソース要求量を含める必要があります
resources:
  requests:
    cpu: "100m"
    memory: "128Mi"
  limits:
    cpu: "500m"
    memory: "256Mi"

3. HPAの動作原理 (アルゴリズム) ⚙️

HPAは以下の公式を使用して、希望するレプリカ数を計算します。

希望するレプリカ数 = ceil[現在のレプリカ数 × (現在のメトリック値 / 希望するメトリック値)]

例えば、現在のCPU使用率が100%で目標値が50%の場合、現在のPod数の2倍に拡張を試みます。

4. HPAの作成と管理方法 💻

HPAはkubectlコマンドを使用して迅速に作成することも、YAMLファイルを通じて定義することもできます。

コマンドで作成する (Imperative):

# deployment 'web-server'に対してCPU使用率50%を基準に2〜10個の間で拡張設定
kubectl autoscale deployment web-server --cpu-percent=50 --min=2 --max=10

YAMLファイルで定義する (Declarative):

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: web-server-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: web-server
  minReplicas: 2
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 50

5. HPAの状態確認とトラブルシューティング 🔍

設定されたHPAが正常に動作しているか確認するには、以下のコマンドを使用します。

# HPAリストと現在の使用量を確認
kubectl get hpa

# 詳細情報を確認 (イベントログ確認時に重要)
kubectl describe hpa web-server-hpa

TARGETS項目が/50%と表示されている場合、metrics-serverがインストールされていないか、対象Podにresources.requests設定が欠落しているケースがほとんどです。⚠️

6. 安定性のためのクールダウン(Cooldown)ポリシー 🧊

トラフィックが変動する際にPodが頻繁に作成・削除される現象(Thrashing)を防ぐため、Kubernetesは基本的に拡張後、一定時間待機するポリシーを持っています。最新バージョンでは、behaviorフィールドを通じて拡張(Scale-up)と縮小(Scale-down)の速度を細かく制御できます。

要約 📝

HPAは単なる自動拡張を超え、クラスターのコスト効率と可用性を最大化する必須ツールです。実務では、CPU使用量だけでなく、メモリ使用量、そしてアプリケーション特性に合わせたカスタムメトリックを組み合わせて使用することが推奨されます。