実験中...

AIエージェントが同じミスを繰り返さない3つの設計パターン【Claude Code実装例】

AIエージェントが同じエラーを繰り返す根本原因はセッション間記憶の欠如。構造化ログ・8軸パターン検出・SKILL.md自動修正の3パターンで、Claude Codeのself-correctionをセッションをまたいで永続化する実装を解説。エラー処理設計の具体例とコード付き。

2026年3月26日45分で読める

Claude Code AI Claude Code Skills 開発効率化 DevOps

AIエージェントが同じミスを繰り返さない3つの設計パターン【Claude Code実装例】

Claude Codeが同じエラーを繰り返す原因は、フィードバックループの欠如です。本記事では3つの設計パターンで自己改善を実装します。

AIエージェントの「失敗学習」とは何か

大規模言語モデル（LLM）ベースのAIエージェントは、推論時に自分の出力を評価して修正するself-correctionと呼ばれる能力を持ちます（Self-Refine: Iterative Refinement with Self-Feedback, Madaan et al. 2023）。ただし、この能力には重要な制限があります。

セッションをまたいだ記憶を持たない: 各セッションは独立して起動するため、前回の失敗を「覚えて」はいない
暗黙の学習は行わない: モデルの重みはファインチューニングされない。推論時の動作を変えるには、プロンプトやツール定義（CLAUDE.md / SKILL.md）を書き換える必要がある
エラーを検出できても、対策を永続化できない: 1セッション内で同じエラーを避けられても、翌日のセッションでは同じエラーが再発する

つまり「失敗から学ぶ」を実現するには、失敗を外部ストレージに記録 → パターンを抽出 → エージェントの設定ファイルを更新するというサイクルを人間が設計する必要があります。これは強化学習のフィードバックループと構造的に同じですが、勾配降下ではなくテキスト編集でポリシーを更新する点が異なります。

典型的な失敗パターン3例

AIエージェントのエラー処理設計を検討する際、まず「どういう失敗が繰り返されるか」を把握することが重要です。実装経験から、繰り返しエラーには以下のパターンがあります。

パターンA: 依存関係の見落とし（envカテゴリ）

# worktreeを作成してすぐ作業を始めた場合
$ npm run build
Error: Cannot find module '@/lib/utils'
# → node_modulesが存在しないため

新しいworktreeを作成した直後はnode_modulesが存在しない。SKILL.mdに「worktree作成後はnpm ciを実行する」という手順が明記されていなければ、この失敗はセッションをまたいで繰り返される。

パターンB: フォーマットルールの不整合（lintカテゴリ）

// AIエージェントが生成したコード（trailing commaなし）
export function fetchData(url: string, options: RequestInit) {
  return fetch(url, options)
}

// Biomeのルール: trailing comma required
// → lint エラーで CI が落ちる

Biomeの設定（biome.json）とエージェントの出力スタイルが一致していない場合、毎回同じlintエラーが発生する。修正は「SKILL.mdにnpm run lint --applyを検証ステップに含める」と1行書くだけで済む。

パターンC: 型定義の不足（type-checkカテゴリ）

// 新規ファイルでanyを使いがちなケース
const handler = async (req: any, res: any) => {
  // TypeScript strict modeでは暗黙のanyはエラー
}

プロジェクトに"strict": trueが設定されているにもかかわらず、エージェントが生成するボイラープレートに型アノテーションが不足する場合。SKILL.mdに「新規ファイル作成時はtsconfig.jsonのstrict設定を確認し、型アノテーションを明示すること」と記載することで防げる。

これら3パターンに共通するのは、「1回目に起きた時点でSKILL.mdに対策を書いていれば2回目は防げた」という点です。問題は、その記録と更新が体系化されていないこと。

3つの設計パターン（概要）

AIエージェントの失敗学習は、以下の3ステップで構造化できます。

#	パターン	何をするか	最小構成
1	構造化ログ	エラーを8カテゴリに分類して記録	CLAUDE.mdに3行追記
2	8軸パターン検出	繰り返し・対策漏れ・ガード不足・ボトルネックを数値化	errors.md + 週1振り返り
3	SKILL.md自動修正	検出パターンから修正diffを生成・承認	skill-retrospective

各パターンの詳細は後述しますが、レベル1（CLAUDE.mdへの3行追記）だけでも「同じエラーに3回ハマる」問題はかなり減ります。

この記事ではskill-retrospectiveを実装例として紹介しますが、設計パターン自体はCLAUDE.mdへの追記だけでも応用できます。

パターン1: 構造化ログ（skill-retrospective）

skill-retrospectiveは、Skillsの実行履歴を分析してSKILL.mdの修正diffを自動生成するメタスキルです。全体のフローは以下の通り。

1. COLLECT  → ~/.claude/journal/ からエントリ読み込み
2. FILTER   → 前回レトロスペクティブ以降の未分析エントリを抽出
3. ANALYZE  → 8軸でパターン検出
4. CORRELATE → 該当スキルのSKILL.mdを読み、ギャップを特定
5. PROPOSE  → 修正diffを生成
6. PRESENT  → ユーザーに承認/却下を確認
7. APPLY    → SKILL.mdを編集、コミット
8. PERSIST  → レトロスペクティブ結果をメモリに保存

「ジャーナルに記録して、パターンを見つけて、自分の説明書を書き換える」。人間がやっていることと同じですが、全部構造化データで回るのがポイントです。

ジャーナル: 構造化された実行ログ

すべての始まりはジャーナルエントリです。各スキルが実行完了時にjournal.shを呼んで、構造化されたJSONを~/.claude/journal/に書き込みます。

# 成功時
$SKILLS_DIR/skill-retrospective/scripts/journal.sh log dev-flow success \
  --issue 42 --duration-turns 6 --mode single

# 失敗時
$SKILLS_DIR/skill-retrospective/scripts/journal.sh log dev-flow failure \
  --error-category lint --error-msg "Biome: 3 violations" \
  --error-phase "4_validate" --recovery "auto-fix applied" --recovery-turns 2

生成されるJSONはこんな構造です。

{
  "version": "1.0.0",
  "id": "20260430T103000-dev-flow",
  "timestamp": "2026-04-30T10:30:00Z",
  "skill": "dev-flow",
  "outcome": "failure",
  "duration_turns": 8,
  "context": { "project": "corporate-site", "issue": 42, "mode": "single" },
  "error": {
    "phase": "4_validate",
    "category": "lint",
    "message": "Biome: 3 violations"
  },
  "recovery": {
    "action": "auto-fix applied",
    "successful": true,
    "turns_spent": 2
  }
}

ここで大事なのは、エラーを8つのカテゴリに分類していること。lint、test、build、runtime、config、env、merge、type-check。8つもあるのに、うちのプロジェクトだとenvとlintで7割を占めてました（偏りすぎ）。この分類があるから、後段の分析で「どの種類のエラーが多いか」を定量的に捉えられる。

「またlintで引っかかった」と人間が雰囲気で感じているものを、数字に変える仕組みです。

Skillsなしでも使えるポイント: ジャーナルの仕組みは大げさなスクリプトがなくても再現できます。CLAUDE.mdに「エラーが起きたら errors.md に日付・カテゴリ・内容を追記すること」と1行書くだけで、構造化ログの第一歩になる。大事なのはツールではなく 「記録する」という習慣をエージェントに埋め込む こと。

パターン2: 8軸パターン検出

ジャーナルが溜まったら、skill-retrospectiveが8つの軸でパターンを検出します。最初は5軸でスタートしましたが、実運用で「フェーズごとのボトルネックが見えない」「改善が進んでいるのか後退しているのか分からない」「そもそもログを取り忘れているスキルがある」という課題が出てきたため、3軸を追加して現在の8軸になりました。

軸	何を見るか	検出例
Recurring failures	同じエラーが2回以上	`node_modules missing` が3回
Instruction gaps	SKILL.mdにエラー対策の記述がない	git-prepareに`npm install`手順なし
Guard deficiency	前提条件チェックが不足	lockfileの存在確認がない
Workflow inefficiency	リカバリに2ターン超（5超で重大）	validate→fix→validateの繰り返し
Environment issues	環境系エラーの集中	.env不足、依存関係の不整合
Phase bottleneck	オーケストレータの子スキルで遅延・失敗が集中	dev-implementフェーズが中央値の2倍超
Efficiency trend	スキルごとのターン数が増加傾向か改善傾向か	git-commitの所要ターンが先週比+30%
Coverage audit	ジャーナル記録が未実装のスキルを検出	65スキル中15スキルが未計測

最初の5軸が「個別のエラーを見つけて直す」のに対して、追加の3軸はシステム全体の健全性を俯瞰する役割です。特にCoverage auditは地味ですが重要で、初回レトロスペクティブで「ワークフロースキルの71%にジャーナル記録がなかった」ことが判明。記録がなければ分析もできない -- 当たり前のことですが、計測の漏れを計測する軸がないと気づけません。

単に「エラーが何回起きた」ではなく、なぜそのエラーが防げなかったかを構造的に分析するのがミソです。

スコアリングで優先順位をつける

pattern_score = frequency * impact * preventability

frequency: 発生回数（多いほど深刻）
impact: エラーカテゴリの重大度（env=3, lint=1）
preventability: SKILL.mdでの対処可能性（記述なし=3, 部分的=2, 対処済み=1）

スコア9以上は即座に修正提案（3×3×3の「未対処・重大・頻発」フルコンボ。さすがにヤバい）。4以上はレトロスペクティブに含める。4未満は「まあ、メモしとくね」レベル。

人間のレトロスペクティブで「なんとなく気になってたけど後回し」になるやつを、掛け算で優先順位をつけて強制的に浮上させる（後回しの逃げ道を塞ぐ）。

あなたのプロジェクトでの応用: この8軸のうち最初の5軸は、skill-retrospectiveを使わなくても手動で回せます。errors.mdを月末に眺めて「同じカテゴリのエラーが3回以上あったら、CLAUDE.mdに対策を追記する」。これだけでRecurring failuresとInstruction gapsの2軸はカバーできる。残りの3軸（Phase bottleneck / Efficiency trend / Coverage audit）はデータ量が必要なので、ジャーナル基盤を整えてからの話。完璧な自動化より、まず記録→振り返りのサイクルを作ることが重要です。

パターン3: SKILL.md自動修正

パターンを検出したら、該当スキルのSKILL.mdを読んで、修正diffを生成します。

### Pattern #1: node_modules不整合 (3回発生)

**影響スキル**: git-prepare
**エラーカテゴリ**: env
**根本原因**: worktree作成後にnpm installが実行されない
**再発リスク**: 高
**スコア**: 3 x 3 x 3 = 27

**修正案** (git-prepare/SKILL.md):

  ## Post-Checkout Steps
  ...
+ ## Dependency Check (Auto-added by retrospective)
+ After checkout/worktree creation, verify dependencies:
+ ```bash
+ if [[ -f package-lock.json ]] && [[ ! -d node_modules ]]; then
+   npm ci
+ fi
+ ```

ユーザーには3つの選択肢が提示されます。

承認 -- そのまま適用
修正して承認 -- 内容を調整してから適用
却下 -- この提案をスキップ

完全自動ではなく、人間が最終判断する。AIが「自分の説明書を勝手に書き換える」のはさすがに怖いので（暴走フラグ）、承認ゲートを入れています。--applyフラグで信頼モードにもできますが、慣れてからの話。

dev-flow-doctor: ワークフローの健康診断

skill-retrospectiveが「個別の失敗パターン」を見るのに対して、dev-flow-doctorはワークフロー全体の健康状態を定量的にスコアリングします。

ヘルススコアの計算

score = 100
score -= (failure_rate * 30)        # 失敗率が高い → 最大-30
score -= (avg_recovery_turns * 5)   # リカバリが遅い → 最大-25
score -= (stale_worktrees * 2)      # 放置worktree → 最大-10
score -= (orphaned_dirs * 3)        # 孤立ディレクトリ → 最大-15
score -= (duration_outlier_pct * 10) # 異常に長い実行 → 最大-10
score -= (env_errors_pct * 15)      # 環境エラーの割合 → 最大-15

100点満点から減点方式。健康診断の結果みたいなものです（メタボ判定みたいな）。

スコア	判定	推奨アクション
80-100	Healthy	軽微な最適化のみ
60-79	Fair	上位2件の指摘を対処
40-59	Needs Attention	`/skill-retrospective`を実行
0-39	Critical	体系的なレビューが必要

7つの診断チェック

dev-flow-doctorは7つのチェック項目を順に実行します。

Check 1: モード分布 -- single vs parallelの使用比率。auto-detectが正しく機能しているか。

$SKILLS_DIR/skill-retrospective/scripts/journal.sh query \
  --skill dev-flow --limit 200 | \
  jq 'group_by(.context.mode // "unknown") |
    map({mode: .[0].context.mode // "unknown", count: length})'

「全部singleモードで動いてる」なら、auto-detectが保守的すぎる可能性がある（シングルモード教の信者になってないか確認）。逆に「parallelばかり--force-parallelで強制指定」なら、auto-detectが期待通りに動いていない。

Check 2: 失敗フェーズ分布 -- どのフェーズで失敗が集中しているか。

implementフェーズの失敗が30%を超えていたら、Issue分析の深度が足りない（3回に1回コケてるなら、石の多い道を歩いてます）。validateフェーズが40%を超えていたら、事前lintの自動化が必要。数字でボトルネックが見えるのが、雰囲気レトロスペクティブとの決定的な違いです。

Check 3: エラーカテゴリ分布 -- lintが40%を超えていたらエディタ設定の見直し。envが30%を超えていたらdev-env-setupの統合を検討。

Check 4: Worktree健全性 -- 7日以上放置されたworktreeや、kickoff.jsonのない孤立ディレクトリを検出。

Check 5: 平均リカバリターン数 -- 2.0未満なら問題なし。5.0を超えたら、skill-retrospectiveで改善提案を回すタイミング。

Check 6: 成功率トレンド -- 直近7日 vs 全期間を比較。改善傾向ならレトロスペクティブが機能している証拠。悪化傾向なら新しい失敗パターンが発生中。

Check 7: 所要時間の外れ値 -- 異常に長い実行を検出。parallelモードなら想定内。singleモードで12ターン超えは、何かがおかしい。

診断レポートの例

## Dev Flow Health Report

**Health Score**: 72/100 (Fair)
**Period**: 2026-03-01 ~ 2026-04-30
**Total Executions**: 127 (success: 108, failure: 7, partial: 12)

### Findings

1. **[WARN]** validateフェーズの失敗が38% → 事前lint自動化を推奨
2. **[WARN]** env系エラーが全体の25% → worktree後のdep installを自動化
3. **[INFO]** 直近7日の成功率90% (全期間: 85%) → 改善傾向

### Recommended Actions
- [ ] dev-validateにauto-fixモードを追加
- [ ] git-prepareにdependency checkを追加（← retrospectiveが提案済み）

ポイントは、dev-flow-doctorが問題を検出して、skill-retrospectiveが修正を提案する連携です。診断と治療を分けることで、それぞれの責務がシンプルになる。

ヘルススコアの考え方だけ持ち帰る: 減点方式のスコアリングは、自分のプロジェクトの「健康度」を定期的に把握するのに便利です。たとえば「直近1週間のClaude Code作業で、手動リトライが何回あったか」をカウントするだけでも、ワークフローの弱点が可視化される。スコアの計算式より、「定期的に数えて比較する」という習慣のほうが大事です。

session-save/load: コンテキストを失わない仕組み

ここまでの話は「実行ログ → 分析 → 改善」のサイクル。でも、もう1つ重要な要素があります。セッション間のコンテキスト永続化です。

Claude Codeはセッションが終わると文脈を失います（金魚かな？と言いたいところだけど事実。auto-compactで途中でも失う。状態管理の記事で詳しく書きました）。レトロスペクティブの結果も、次のセッションに引き継がれなければ意味がない。

session-saveの役割

セッション終了時に/session-saveを実行すると、以下を永続化します。

タスクの進捗
下した判断とその理由
コード変更のサマリー
学んだことやインサイト

そして、レトロスペクティブとの連携チェックが入ります。

# 未分析の失敗エントリを確認
$SKILLS_DIR/skill-retrospective/scripts/journal.sh query \
  --outcome failure --limit 100 2>/dev/null | jq 'length'

1件でもあれば、「3件の新規失敗エントリあり。/skill-retrospectiveで分析できます」と通知。フルの分析は走らせず、気づきだけ与えて判断は人間に委ねる設計です。

session-loadの役割

次のセッション開始時に/session-loadを実行すると、前回のコンテキストを復元します。CLAUDE.md、前回のメモリ、チェックポイント。

この「save → load」のサイクルが、レトロスペクティブの結果を次のセッションに引き継ぐ橋になっています。

Session A: 作業 → 失敗ログ記録 → /session-save（失敗通知あり）
  ↓
Session B: /session-load → /skill-retrospective → SKILL.md修正
  ↓
Session C: /session-load → 修正済みSKILL.mdで作業 → 同じエラーが出ない

3セッションで1つの改善サイクルが回る。人間がやることは「/session-saveと/session-loadを忘れずに打つ」だけ（RULES.mdに書いておけば、エージェントが自発的にやってくれる）。

自己改善サイクルの全体像

ここまでの要素を組み合わせると、こうなります。

┌─────────────────────────────────────────────────┐
│  各スキル（dev-flow, dev-kickoff, bug-hunt...）   │
│  → journal.sh で実行結果を記録                     │
└───────────────┬─────────────────────────────────┘
                │ ~/.claude/journal/*.json
                ▼
┌─────────────────────────────────────────────────┐
│  dev-flow-doctor                                 │
│  → 7つの診断チェック → ヘルススコア算出            │
│  → 「どこが弱いか」を定量的に特定                  │
└───────────────┬─────────────────────────────────┘
                │ 問題箇所の特定
                ▼
┌─────────────────────────────────────────────────┐
│  skill-retrospective                             │
│  → 8軸パターン検出 → SKILL.md修正diff生成          │
│  → ユーザー承認 → 適用                            │
└───────────────┬─────────────────────────────────┘
                │ 改善されたSKILL.md
                ▼
┌─────────────────────────────────────────────────┐
│  session-save / session-load                     │
│  → コンテキスト永続化 → 次セッションに引き継ぎ     │
│  → 未分析失敗の通知                               │
└─────────────────────────────────────────────────┘

ジャーナル記録 → 定量診断 → パターン検出 → SKILL.md修正 → コンテキスト永続化。この一連のサイクルが、人間の介入を最小限にしながら回り続ける。

実際に回してみた所感

最初の1週間: ジャーナルが溜まるのを待つ

skill-retrospectiveを導入した直後は、分析するデータがない。まずは各スキルにjournal.shの呼び出しを1行追加して（「1行だけだから」と言いつつ、20スキルに追加するのは地味にしんどい）、1週間ほどログを溜めました。

2週目: 最初のレトロスペクティブ

/skill-retrospective --since 7dを実行。出てきたパターンの上位3つ。

worktree作成後のnpm ci漏れ（env, 5回, スコア45）-- git-prepareのSKILL.mdに手順が一切なかった
Biome formatエラーの繰り返し（lint, 8回, スコア8）-- dev-validateに--fixモードの記述はあったが、デフォルトで有効になっていなかった
TypeScript strict エラー（type-check, 3回, スコア6）-- 新規ファイル作成時のtsconfig設定が不明確

1番目のスコア45は「Critical」を大幅に超えていて、もっと早く気づくべきだったと反省。人間の感覚では「たまにある」程度だったのに、数字にすると5回も（「たまに」の定義、見直したほうがいいかもしれない）。

3週目以降: サイクルが回り始める

修正済みのSKILL.mdで作業すると、1番目と2番目のエラーがほぼ消えた。dev-flow-doctorのスコアが64→82に上昇。数字で改善を確認できるのが、雰囲気レトロスペクティブとの違い。

ただし、修正diffの品質はまちまち。単純な「手順追加」は的確だけど、「ワークフローの順序変更」のような構造的な改善は、人間が修正して承認する必要がある。完全自動は目指していない。あくまで「下書きを作ってくれるアシスタント」です。

失敗→検出→学習→適用: 1サイクルの具体例

「どういう流れで改善が進むか」を、worktree作成後のnpm ci漏れという実例で追います。

Step 1: 失敗が記録される

# dev-flowスキルが実行し、validateフェーズで失敗
$SKILLS_DIR/skill-retrospective/scripts/journal.sh log dev-flow failure \
  --error-category env \
  --error-msg "Cannot find module '@/lib/utils' (node_modules not found)" \
  --error-phase "4_validate" \
  --recovery "manual: ran npm ci" \
  --recovery-turns 3

生成されたジャーナルエントリにより、失敗が構造化データとして記録される。

Step 2: パターン検出（1週間後）

/skill-retrospective --since 7d

8軸分析の結果、Recurring failures（同一エラー3回）とGuard deficiency（前提条件チェックなし）の2軸でスコアが上昇。

Pattern #1: node_modules不整合
  category: env | frequency: 3 | score: 3 × 3 × 3 = 27
  → git-prepareにworktree後のnpm ci手順が存在しない

スコア27は「Critical」判定（閾値:9以上）のため、即座に修正提案が生成される。

Step 3: SKILL.md修正の承認

  ## Post-Checkout Steps
  After creating a new worktree:
  1. Copy .env from the parent worktree
+ 2. Verify dependencies:
+    ```bash
+    if [[ -f package-lock.json ]] && [[ ! -d node_modules ]]; then
+      npm ci
+    fi
+    ```

ユーザーが「承認」を選択すると、git-prepareのSKILL.mdにこのdiffが適用されコミットされる。

Step 4: 次セッションからの効果

/session-loadで修正済みのSKILL.mdを読み込んだ状態で作業を開始。dev-flowスキルがworktree作成後に自動で依存関係チェックを実行するようになり、同じエラーが発生しなくなる。

Before: worktree作成後にnpm ciを忘れてvalidateで3ターン費やす
After : worktree作成直後に自動チェック → 発生ゼロ

このサイクルは「人間が気づいて直した」のではなく、失敗ログのパターンスコアが閾値を超えたことで浮上し、diff生成まで自動化された結果です。人間の判断が必要なのは「提案されたdiffを承認するかどうか」だけです。

注意点・Tips

ジャーナルのディスク使用量に注意: JSON 1エントリは約500B。1日10回実行 × 90日で約450KB。心配するほどじゃないけど、半年放置すると「いつの間にか数千件」になるので、古いエントリの定期アーカイブは考えておくと吉
レトロスペクティブの頻度は週1で十分: 毎日回すとノイズが多すぎて「対処すべきパターン」と「偶発的なエラー」の区別がつかない。1週間溜めて初めて「繰り返し」が見える
修正diffは鵜呑みにしない: 単純な手順追加は的確だけど、ワークフロー構造の変更は人間のレビュー必須。AIの「自分で自分を書き換える」提案は、過剰に保守的か、逆に大胆すぎることがある（ちょうどいい塩梅は人間が決める）
最初はerrors.mdから始めてOK: フルのジャーナル基盤を作る前に、CLAUDE.mdへの3行追記で効果を実感してから拡張するのが現実的。「完璧な基盤を作ってから始めよう」は永遠に始まらないフラグ

skill-retrospectiveを使わなくても今日からできること

この記事ではskill-retrospectiveの実装を紹介しましたが、設計パターン自体はCLAUDE.mdへの追記だけで再現できます。

最小構成: CLAUDE.mdに3行追加する

## エラー記録ルール
- エラーが発生したら `errors.md` に「日付 / カテゴリ(lint|test|env|config) / 内容 / 対処」を追記すること
- 同じカテゴリのエラーが3回記録されていたら、このCLAUDE.mdに再発防止策を追記すること
- セッション終了時に errors.md を確認し、未対処のパターンがあれば報告すること

これだけで記録→検出→改善のサイクルが回り始めます。ジャーナルスクリプトもスコアリングも不要。AIエージェントは指示されれば記録するし、パターンを見つけたら報告する。足りないのはツールではなく、「記録して振り返れ」という明示的な指示です。

段階的にレベルアップするなら

レベル	やること	必要なもの
1	CLAUDE.mdにエラー記録ルールを書く	CLAUDE.mdだけ
2	errors.mdを週1で振り返り、CLAUDE.mdに対策追記	5分/週の習慣
3	カテゴリ別の発生回数をカウント、推移を見る	スプレッドシートでもOK
4	8軸フレームワークで構造的に分析	この記事の知識
5	skill-retrospectiveで全自動化	リポジトリ

レベル1-2だけでも、「同じエラーに3回ハマる」問題はかなり減ります。私たちもレベル1から始めて、手動運用の限界を感じてからskill-retrospectiveを作りました。

AIエージェントのエラー処理設計: よくある疑問

実装を進める中でよく出てくる質問を整理します。

Q. LLMのself-correctionと、この記事のアプローチはどう違うのか？

LLMのself-correctionは「同一セッション内」での反省です。たとえばClaude Codeがlintエラーを検知して修正コードを再生成する動作は、推論時のself-correctionです。この記事のアプローチは「セッションをまたいだ記憶の代替」として外部ストレージ（ジャーナルファイル）を使う点が異なります。

Q. 強化学習とどう関係するか？

概念的には近いですが、仕組みは異なります。強化学習は報酬シグナルでモデルのパラメータを更新します。この記事の設計は、パラメータを変えずプロンプト・ツール定義ファイルを更新することでエージェントの振る舞いを変えます。「コードで書かれたポリシー」を人間が承認しながら更新するイメージに近い。

Q. AIエージェントにエラー処理を任せるリスクは？

SKILL.md自動修正ではdiff生成までを自動化し、適用は人間の承認を要件にしています。「自己改善するAIが暴走する」シナリオを避けるための設計です（--applyフラグによる信頼モードも存在しますが、運用実績を積んでから使うことを推奨）。

Q. この設計は他のLLMエージェント（GPT-4, Gemini等）でも使えるか？

ジャーナル記録・パターン検出・設定ファイル更新という考え方はLLM非依存です。ただし、この記事のコード例はClaude CodeのSKILL.md仕様に基づいています。他のエージェントフレームワークでは、SKILL.mdに相当する「エージェントの動作定義ファイル」を特定して同様の構造を実装することになります。

背景: なぜ「自己改善」が必要なのか

Skillsを作り込んでワークフローを自動化しても、失敗パターンの蓄積と改善は人間の頭の中にしかなかった。CIのログを見てymlを手書きしてた時代と同じです。

記事	テーマ
Skills入門	設計思想と自作ガイド
状態管理	auto-compact対策
Hooks連携	品質ゲート自動化
worktree並列	タスク分解と統合
Agent Team	マルチエージェント協調

どれも「Skillsをどう動かすか」の話。でも、動かした結果のフィードバックループが抜けていた。そこで作ったのが、Skillsが自分自身を書き換える仕組み -- skill-retrospectiveです。

まとめ

「AIツールが学習する」と聞くと大げさに聞こえるかもしれません。でもやっていることはシンプルです。構造化されたログを溜めて、パターンを見つけて、設定ファイルを書き換える。人間の開発チームがレトロスペクティブでやっていることと、本質的に同じ。

違いは、全部データで回ること。「なんとなく気になってた」を数字にして、「いつか直そう」をスコアで強制浮上させて、「同じミスを繰り返さない」をCLAUDE.mdやSKILL.mdの修正で担保する。

大事なのはツールの導入ではなく、フィードバックループを構造化するという考え方。CLAUDE.mdへの3行追記から始めるか、skill-retrospectiveで全自動化するかは、あなたのプロジェクトの規模と痛みの深さ次第です。

「あれ、このエラー、先週も見た気がする」をもう言わなくて済む世界、意外と近くにあります。

気軽に相談する

Skills設計・実装

Claude Code Skillsの設計思想と自作ガイド — SKILL.mdの基本構造と最初の1本の作り方
Skills設計パターン上級編 — 型安全性・エラーハンドリング・スキル間連携 — 本記事で扱うエラーカテゴリ設計と連携した実装パターン

AIエージェントの自律動作

AIエージェントが夜中にコードを巡回・修正する「night-patrol」の設計と実践 — エラー検出・自律修正の別アプローチ
Agent Team協調設計 — bug-hunt・code-audit・incident-responseの実装パターン — マルチエージェントでの失敗検出・対処の設計

基盤設計

auto-compact時代のClaude Code状態管理設計 — セッション間のコンテキスト永続化（本記事のsession-save/loadと連携）
Hooks × テスト自動化で品質ゲートを組み込む — フィードバックループの別レイヤー実装

Claude Code エージェント・安全設計完全ガイド — この記事を含む12本の記事で、エージェント活用・Hooks安全設計・並列開発を体系的に解説しています。

この技術が解決した業務課題

記事の技術が実際のプロジェクトでどう活かされているかをご紹介します

【自社導入事例】ブログ運用を完全自動化 - GitHubリポジトリから記事・サムネイル・SNS投稿まで

「ブログ書くのしんどい」「SNS投稿めんどくさい」を解決。GitHubリポジトリから記事生成、サムネイル作成、SNS投稿文まで自動化した、playpark自身の導入事例を紹介します。

事例を読む

【AI開発】2026年版・始め方ガイド — 小規模チームのスタック選定チェックリスト

「AI開発を始めたいが、何から手をつければいいかわからない」——小規模チーム向けに、2026年現在の技術スタック選定チェックリストと判断フローを整理。まずAIで遊ぶ → 業務に活かす → 仕組み化する、の3段階で自社に合う最初の一歩を見つけます。

事例を読む

【AIエージェント × 営業】月5万のSaaSを使わず、2人チームがAI SDRを自作した全体像

AI SDR（営業開発エージェント）が話題だが、月5万〜のSaaSは小規模チームには重い。2人のplayparkがClaude Code Skills + Neon Postgres + Slack botで自作したAI営業エージェントの全体アーキテクチャと、SaaS vs 自作の判断軸を紹介。

事例を読む

AI開発の導入支援

Claude CodeやAIコーディングツールの導入・カスタマイズでお困りですか？playparkでは、AI開発環境の構築から運用まで、実践に基づいた技術支援を行っています。

AIコーディングで「どのモードで動かす?」を迷わない — Claude Code Agent 判断軸

AIで自動化コードを書くとき、処理をサブタスクに分けるか・チームで並列実行するか・そのまま書くか——迷いがちな3パターンの選び方を、実際の運用例から整理します。

Claude CodeClaude Code AgentAgent Team+3

エージェントへの「丸投げ指示」をやめる――Claude Codeのsubagent運用ルール

技術Tips

2026年5月3日17分で読める

エージェントへの「丸投げ指示」をやめる――Claude Codeのsubagent運用ルール

エージェントに作業を振っても毎回出力がブレる――Claude Codeのsubagent運用で「指示プロンプトに必ず書く5項目」を決め、SKILL.mdを機械チェックで揃えた設計を紹介します。

Claude CodeAIAgent+2

【Claude Code】skill 104本のモデル配分を公開 — Opus/Sonnet/Haikuを3層に振り分けた判断基準

実験レポート

2026年4月28日13分で読める

【Claude Code】skill 104本のモデル配分を公開 — Opus/Sonnet/Haikuを3層に振り分けた判断基準

Claude Codeのサブスクプランで104本のskillを運用する中、Opus/Sonnet/Haikuをどう配分したかの実録。料金単価ではなく5時間ウィンドウ内のスループットとOpusのレイテンシから導いた3層ルールを、skillの実データとともに公開します。

Claude CodeAIコスト最適化+2

この技術、実際の現場ではこう使われています

記事で紹介した技術が、実際のビジネス課題をどう解決したか。導入事例で具体的なイメージをつかめます。

導入事例を見る気軽に相談する

ブログ一覧に戻る

技術Tips Claude Code エージェント・安全設計完全ガイド

AIエージェントが同じミスを繰り返さない3つの設計パターン【Claude Code実装例】

2026年3月26日45分で読める

Claude Code AI Claude Code Skills 開発効率化 DevOps

Claude Codeが同じエラーを繰り返す原因は、フィードバックループの欠如です。本記事では3つの設計パターンで自己改善を実装します。

AIエージェントの「失敗学習」とは何か

セッションをまたいだ記憶を持たない: 各セッションは独立して起動するため、前回の失敗を「覚えて」はいない
暗黙の学習は行わない: モデルの重みはファインチューニングされない。推論時の動作を変えるには、プロンプトやツール定義（CLAUDE.md / SKILL.md）を書き換える必要がある
エラーを検出できても、対策を永続化できない: 1セッション内で同じエラーを避けられても、翌日のセッションでは同じエラーが再発する

典型的な失敗パターン3例

パターンA: 依存関係の見落とし（envカテゴリ）

# worktreeを作成してすぐ作業を始めた場合
$ npm run build
Error: Cannot find module '@/lib/utils'
# → node_modulesが存在しないため

パターンB: フォーマットルールの不整合（lintカテゴリ）

// AIエージェントが生成したコード（trailing commaなし）
export function fetchData(url: string, options: RequestInit) {
  return fetch(url, options)
}

// Biomeのルール: trailing comma required
// → lint エラーで CI が落ちる

パターンC: 型定義の不足（type-checkカテゴリ）

// 新規ファイルでanyを使いがちなケース
const handler = async (req: any, res: any) => {
  // TypeScript strict modeでは暗黙のanyはエラー
}

3つの設計パターン（概要）

AIエージェントの失敗学習は、以下の3ステップで構造化できます。

#	パターン	何をするか	最小構成
1	構造化ログ	エラーを8カテゴリに分類して記録	CLAUDE.mdに3行追記
2	8軸パターン検出	繰り返し・対策漏れ・ガード不足・ボトルネックを数値化	errors.md + 週1振り返り
3	SKILL.md自動修正	検出パターンから修正diffを生成・承認	skill-retrospective

各パターンの詳細は後述しますが、レベル1（CLAUDE.mdへの3行追記）だけでも「同じエラーに3回ハマる」問題はかなり減ります。

この記事ではskill-retrospectiveを実装例として紹介しますが、設計パターン自体はCLAUDE.mdへの追記だけでも応用できます。

パターン1: 構造化ログ（skill-retrospective）

skill-retrospectiveは、Skillsの実行履歴を分析してSKILL.mdの修正diffを自動生成するメタスキルです。全体のフローは以下の通り。

1. COLLECT  → ~/.claude/journal/ からエントリ読み込み
2. FILTER   → 前回レトロスペクティブ以降の未分析エントリを抽出
3. ANALYZE  → 8軸でパターン検出
4. CORRELATE → 該当スキルのSKILL.mdを読み、ギャップを特定
5. PROPOSE  → 修正diffを生成
6. PRESENT  → ユーザーに承認/却下を確認
7. APPLY    → SKILL.mdを編集、コミット
8. PERSIST  → レトロスペクティブ結果をメモリに保存

ジャーナル: 構造化された実行ログ

すべての始まりはジャーナルエントリです。各スキルが実行完了時にjournal.shを呼んで、構造化されたJSONを~/.claude/journal/に書き込みます。

# 成功時
$SKILLS_DIR/skill-retrospective/scripts/journal.sh log dev-flow success \
  --issue 42 --duration-turns 6 --mode single

# 失敗時
$SKILLS_DIR/skill-retrospective/scripts/journal.sh log dev-flow failure \
  --error-category lint --error-msg "Biome: 3 violations" \
  --error-phase "4_validate" --recovery "auto-fix applied" --recovery-turns 2

生成されるJSONはこんな構造です。

{
  "version": "1.0.0",
  "id": "20260430T103000-dev-flow",
  "timestamp": "2026-04-30T10:30:00Z",
  "skill": "dev-flow",
  "outcome": "failure",
  "duration_turns": 8,
  "context": { "project": "corporate-site", "issue": 42, "mode": "single" },
  "error": {
    "phase": "4_validate",
    "category": "lint",
    "message": "Biome: 3 violations"
  },
  "recovery": {
    "action": "auto-fix applied",
    "successful": true,
    "turns_spent": 2
  }
}

「またlintで引っかかった」と人間が雰囲気で感じているものを、数字に変える仕組みです。

Skillsなしでも使えるポイント: ジャーナルの仕組みは大げさなスクリプトがなくても再現できます。CLAUDE.mdに「エラーが起きたら errors.md に日付・カテゴリ・内容を追記すること」と1行書くだけで、構造化ログの第一歩になる。大事なのはツールではなく 「記録する」という習慣をエージェントに埋め込む こと。

パターン2: 8軸パターン検出

軸	何を見るか	検出例
Recurring failures	同じエラーが2回以上	`node_modules missing` が3回
Instruction gaps	SKILL.mdにエラー対策の記述がない	git-prepareに`npm install`手順なし
Guard deficiency	前提条件チェックが不足	lockfileの存在確認がない
Workflow inefficiency	リカバリに2ターン超（5超で重大）	validate→fix→validateの繰り返し
Environment issues	環境系エラーの集中	.env不足、依存関係の不整合
Phase bottleneck	オーケストレータの子スキルで遅延・失敗が集中	dev-implementフェーズが中央値の2倍超
Efficiency trend	スキルごとのターン数が増加傾向か改善傾向か	git-commitの所要ターンが先週比+30%
Coverage audit	ジャーナル記録が未実装のスキルを検出	65スキル中15スキルが未計測

単に「エラーが何回起きた」ではなく、なぜそのエラーが防げなかったかを構造的に分析するのがミソです。

スコアリングで優先順位をつける

pattern_score = frequency * impact * preventability

frequency: 発生回数（多いほど深刻）
impact: エラーカテゴリの重大度（env=3, lint=1）
preventability: SKILL.mdでの対処可能性（記述なし=3, 部分的=2, 対処済み=1）

あなたのプロジェクトでの応用: この8軸のうち最初の5軸は、skill-retrospectiveを使わなくても手動で回せます。errors.mdを月末に眺めて「同じカテゴリのエラーが3回以上あったら、CLAUDE.mdに対策を追記する」。これだけでRecurring failuresとInstruction gapsの2軸はカバーできる。残りの3軸（Phase bottleneck / Efficiency trend / Coverage audit）はデータ量が必要なので、ジャーナル基盤を整えてからの話。完璧な自動化より、まず記録→振り返りのサイクルを作ることが重要です。

パターン3: SKILL.md自動修正

パターンを検出したら、該当スキルのSKILL.mdを読んで、修正diffを生成します。

### Pattern #1: node_modules不整合 (3回発生)

**影響スキル**: git-prepare
**エラーカテゴリ**: env
**根本原因**: worktree作成後にnpm installが実行されない
**再発リスク**: 高
**スコア**: 3 x 3 x 3 = 27

**修正案** (git-prepare/SKILL.md):

  ## Post-Checkout Steps
  ...
+ ## Dependency Check (Auto-added by retrospective)
+ After checkout/worktree creation, verify dependencies:
+ ```bash
+ if [[ -f package-lock.json ]] && [[ ! -d node_modules ]]; then
+   npm ci
+ fi
+ ```

ユーザーには3つの選択肢が提示されます。

承認 -- そのまま適用
修正して承認 -- 内容を調整してから適用
却下 -- この提案をスキップ

dev-flow-doctor: ワークフローの健康診断

skill-retrospectiveが「個別の失敗パターン」を見るのに対して、dev-flow-doctorはワークフロー全体の健康状態を定量的にスコアリングします。

ヘルススコアの計算

score = 100
score -= (failure_rate * 30)        # 失敗率が高い → 最大-30
score -= (avg_recovery_turns * 5)   # リカバリが遅い → 最大-25
score -= (stale_worktrees * 2)      # 放置worktree → 最大-10
score -= (orphaned_dirs * 3)        # 孤立ディレクトリ → 最大-15
score -= (duration_outlier_pct * 10) # 異常に長い実行 → 最大-10
score -= (env_errors_pct * 15)      # 環境エラーの割合 → 最大-15

100点満点から減点方式。健康診断の結果みたいなものです（メタボ判定みたいな）。

スコア	判定	推奨アクション
80-100	Healthy	軽微な最適化のみ
60-79	Fair	上位2件の指摘を対処
40-59	Needs Attention	`/skill-retrospective`を実行
0-39	Critical	体系的なレビューが必要

7つの診断チェック

dev-flow-doctorは7つのチェック項目を順に実行します。

Check 1: モード分布 -- single vs parallelの使用比率。auto-detectが正しく機能しているか。

$SKILLS_DIR/skill-retrospective/scripts/journal.sh query \
  --skill dev-flow --limit 200 | \
  jq 'group_by(.context.mode // "unknown") |
    map({mode: .[0].context.mode // "unknown", count: length})'

Check 2: 失敗フェーズ分布 -- どのフェーズで失敗が集中しているか。

Check 3: エラーカテゴリ分布 -- lintが40%を超えていたらエディタ設定の見直し。envが30%を超えていたらdev-env-setupの統合を検討。

Check 4: Worktree健全性 -- 7日以上放置されたworktreeや、kickoff.jsonのない孤立ディレクトリを検出。

Check 5: 平均リカバリターン数 -- 2.0未満なら問題なし。5.0を超えたら、skill-retrospectiveで改善提案を回すタイミング。

Check 7: 所要時間の外れ値 -- 異常に長い実行を検出。parallelモードなら想定内。singleモードで12ターン超えは、何かがおかしい。

診断レポートの例

## Dev Flow Health Report

**Health Score**: 72/100 (Fair)
**Period**: 2026-03-01 ~ 2026-04-30
**Total Executions**: 127 (success: 108, failure: 7, partial: 12)

### Findings

1. **[WARN]** validateフェーズの失敗が38% → 事前lint自動化を推奨
2. **[WARN]** env系エラーが全体の25% → worktree後のdep installを自動化
3. **[INFO]** 直近7日の成功率90% (全期間: 85%) → 改善傾向

### Recommended Actions
- [ ] dev-validateにauto-fixモードを追加
- [ ] git-prepareにdependency checkを追加（← retrospectiveが提案済み）

ヘルススコアの考え方だけ持ち帰る: 減点方式のスコアリングは、自分のプロジェクトの「健康度」を定期的に把握するのに便利です。たとえば「直近1週間のClaude Code作業で、手動リトライが何回あったか」をカウントするだけでも、ワークフローの弱点が可視化される。スコアの計算式より、「定期的に数えて比較する」という習慣のほうが大事です。

session-save/load: コンテキストを失わない仕組み

ここまでの話は「実行ログ → 分析 → 改善」のサイクル。でも、もう1つ重要な要素があります。セッション間のコンテキスト永続化です。

session-saveの役割

セッション終了時に/session-saveを実行すると、以下を永続化します。

タスクの進捗
下した判断とその理由
コード変更のサマリー
学んだことやインサイト

そして、レトロスペクティブとの連携チェックが入ります。

# 未分析の失敗エントリを確認
$SKILLS_DIR/skill-retrospective/scripts/journal.sh query \
  --outcome failure --limit 100 2>/dev/null | jq 'length'

session-loadの役割

次のセッション開始時に/session-loadを実行すると、前回のコンテキストを復元します。CLAUDE.md、前回のメモリ、チェックポイント。

この「save → load」のサイクルが、レトロスペクティブの結果を次のセッションに引き継ぐ橋になっています。

Session A: 作業 → 失敗ログ記録 → /session-save（失敗通知あり）
  ↓
Session B: /session-load → /skill-retrospective → SKILL.md修正
  ↓
Session C: /session-load → 修正済みSKILL.mdで作業 → 同じエラーが出ない

自己改善サイクルの全体像

ここまでの要素を組み合わせると、こうなります。

┌─────────────────────────────────────────────────┐
│  各スキル（dev-flow, dev-kickoff, bug-hunt...）   │
│  → journal.sh で実行結果を記録                     │
└───────────────┬─────────────────────────────────┘
                │ ~/.claude/journal/*.json
                ▼
┌─────────────────────────────────────────────────┐
│  dev-flow-doctor                                 │
│  → 7つの診断チェック → ヘルススコア算出            │
│  → 「どこが弱いか」を定量的に特定                  │
└───────────────┬─────────────────────────────────┘
                │ 問題箇所の特定
                ▼
┌─────────────────────────────────────────────────┐
│  skill-retrospective                             │
│  → 8軸パターン検出 → SKILL.md修正diff生成          │
│  → ユーザー承認 → 適用                            │
└───────────────┬─────────────────────────────────┘
                │ 改善されたSKILL.md
                ▼
┌─────────────────────────────────────────────────┐
│  session-save / session-load                     │
│  → コンテキスト永続化 → 次セッションに引き継ぎ     │
│  → 未分析失敗の通知                               │
└─────────────────────────────────────────────────┘

実際に回してみた所感

最初の1週間: ジャーナルが溜まるのを待つ

2週目: 最初のレトロスペクティブ

/skill-retrospective --since 7dを実行。出てきたパターンの上位3つ。

worktree作成後のnpm ci漏れ（env, 5回, スコア45）-- git-prepareのSKILL.mdに手順が一切なかった
Biome formatエラーの繰り返し（lint, 8回, スコア8）-- dev-validateに--fixモードの記述はあったが、デフォルトで有効になっていなかった
TypeScript strict エラー（type-check, 3回, スコア6）-- 新規ファイル作成時のtsconfig設定が不明確

3週目以降: サイクルが回り始める

失敗→検出→学習→適用: 1サイクルの具体例

「どういう流れで改善が進むか」を、worktree作成後のnpm ci漏れという実例で追います。

Step 1: 失敗が記録される

# dev-flowスキルが実行し、validateフェーズで失敗
$SKILLS_DIR/skill-retrospective/scripts/journal.sh log dev-flow failure \
  --error-category env \
  --error-msg "Cannot find module '@/lib/utils' (node_modules not found)" \
  --error-phase "4_validate" \
  --recovery "manual: ran npm ci" \
  --recovery-turns 3

生成されたジャーナルエントリにより、失敗が構造化データとして記録される。

Step 2: パターン検出（1週間後）

/skill-retrospective --since 7d

8軸分析の結果、Recurring failures（同一エラー3回）とGuard deficiency（前提条件チェックなし）の2軸でスコアが上昇。

Pattern #1: node_modules不整合
  category: env | frequency: 3 | score: 3 × 3 × 3 = 27
  → git-prepareにworktree後のnpm ci手順が存在しない

スコア27は「Critical」判定（閾値:9以上）のため、即座に修正提案が生成される。

Step 3: SKILL.md修正の承認

  ## Post-Checkout Steps
  After creating a new worktree:
  1. Copy .env from the parent worktree
+ 2. Verify dependencies:
+    ```bash
+    if [[ -f package-lock.json ]] && [[ ! -d node_modules ]]; then
+      npm ci
+    fi
+    ```

ユーザーが「承認」を選択すると、git-prepareのSKILL.mdにこのdiffが適用されコミットされる。

Step 4: 次セッションからの効果

Before: worktree作成後にnpm ciを忘れてvalidateで3ターン費やす
After : worktree作成直後に自動チェック → 発生ゼロ

注意点・Tips

ジャーナルのディスク使用量に注意: JSON 1エントリは約500B。1日10回実行 × 90日で約450KB。心配するほどじゃないけど、半年放置すると「いつの間にか数千件」になるので、古いエントリの定期アーカイブは考えておくと吉
レトロスペクティブの頻度は週1で十分: 毎日回すとノイズが多すぎて「対処すべきパターン」と「偶発的なエラー」の区別がつかない。1週間溜めて初めて「繰り返し」が見える
修正diffは鵜呑みにしない: 単純な手順追加は的確だけど、ワークフロー構造の変更は人間のレビュー必須。AIの「自分で自分を書き換える」提案は、過剰に保守的か、逆に大胆すぎることがある（ちょうどいい塩梅は人間が決める）
最初はerrors.mdから始めてOK: フルのジャーナル基盤を作る前に、CLAUDE.mdへの3行追記で効果を実感してから拡張するのが現実的。「完璧な基盤を作ってから始めよう」は永遠に始まらないフラグ

skill-retrospectiveを使わなくても今日からできること

この記事ではskill-retrospectiveの実装を紹介しましたが、設計パターン自体はCLAUDE.mdへの追記だけで再現できます。

最小構成: CLAUDE.mdに3行追加する

## エラー記録ルール
- エラーが発生したら `errors.md` に「日付 / カテゴリ(lint|test|env|config) / 内容 / 対処」を追記すること
- 同じカテゴリのエラーが3回記録されていたら、このCLAUDE.mdに再発防止策を追記すること
- セッション終了時に errors.md を確認し、未対処のパターンがあれば報告すること

段階的にレベルアップするなら

レベル	やること	必要なもの
1	CLAUDE.mdにエラー記録ルールを書く	CLAUDE.mdだけ
2	errors.mdを週1で振り返り、CLAUDE.mdに対策追記	5分/週の習慣
3	カテゴリ別の発生回数をカウント、推移を見る	スプレッドシートでもOK
4	8軸フレームワークで構造的に分析	この記事の知識
5	skill-retrospectiveで全自動化	リポジトリ

AIエージェントのエラー処理設計: よくある疑問

実装を進める中でよく出てくる質問を整理します。

Q. LLMのself-correctionと、この記事のアプローチはどう違うのか？

Q. 強化学習とどう関係するか？

Q. AIエージェントにエラー処理を任せるリスクは？

Q. この設計は他のLLMエージェント（GPT-4, Gemini等）でも使えるか？

背景: なぜ「自己改善」が必要なのか

記事	テーマ
Skills入門	設計思想と自作ガイド
状態管理	auto-compact対策
Hooks連携	品質ゲート自動化
worktree並列	タスク分解と統合
Agent Team	マルチエージェント協調

まとめ

「あれ、このエラー、先週も見た気がする」をもう言わなくて済む世界、意外と近くにあります。

気軽に相談する

Skills設計・実装

Claude Code Skillsの設計思想と自作ガイド — SKILL.mdの基本構造と最初の1本の作り方
Skills設計パターン上級編 — 型安全性・エラーハンドリング・スキル間連携 — 本記事で扱うエラーカテゴリ設計と連携した実装パターン

AIエージェントの自律動作

AIエージェントが夜中にコードを巡回・修正する「night-patrol」の設計と実践 — エラー検出・自律修正の別アプローチ
Agent Team協調設計 — bug-hunt・code-audit・incident-responseの実装パターン — マルチエージェントでの失敗検出・対処の設計

基盤設計

auto-compact時代のClaude Code状態管理設計 — セッション間のコンテキスト永続化（本記事のsession-save/loadと連携）
Hooks × テスト自動化で品質ゲートを組み込む — フィードバックループの別レイヤー実装

Claude Code エージェント・安全設計完全ガイド — この記事を含む12本の記事で、エージェント活用・Hooks安全設計・並列開発を体系的に解説しています。

この技術が解決した業務課題

記事の技術が実際のプロジェクトでどう活かされているかをご紹介します

AI開発の導入支援

AIコーディングで「どのモードで動かす?」を迷わない — Claude Code Agent 判断軸

Claude CodeClaude Code AgentAgent Team+3

技術Tips

2026年5月3日17分で読める

エージェントへの「丸投げ指示」をやめる――Claude Codeのsubagent運用ルール

Claude CodeAIAgent+2

実験レポート

2026年4月28日13分で読める

【Claude Code】skill 104本のモデル配分を公開 — Opus/Sonnet/Haikuを3層に振り分けた判断基準

Claude CodeAIコスト最適化+2

この技術、実際の現場ではこう使われています

記事で紹介した技術が、実際のビジネス課題をどう解決したか。導入事例で具体的なイメージをつかめます。

導入事例を見る気軽に相談する

AIエージェントが同じミスを繰り返さない3つの設計パターン【Claude Code実装例】

AIエージェントの「失敗学習」とは何か

典型的な失敗パターン3例

3つの設計パターン（概要）

パターン1: 構造化ログ（skill-retrospective）

ジャーナル: 構造化された実行ログ

パターン2: 8軸パターン検出

スコアリングで優先順位をつける

パターン3: SKILL.md自動修正

dev-flow-doctor: ワークフローの健康診断

ヘルススコアの計算

7つの診断チェック

診断レポートの例

session-save/load: コンテキストを失わない仕組み

session-saveの役割

session-loadの役割

自己改善サイクルの全体像

実際に回してみた所感

最初の1週間: ジャーナルが溜まるのを待つ

2週目: 最初のレトロスペクティブ

3週目以降: サイクルが回り始める

失敗→検出→学習→適用: 1サイクルの具体例

Step 1: 失敗が記録される

Step 2: パターン検出（1週間後）

Step 3: SKILL.md修正の承認

Step 4: 次セッションからの効果

注意点・Tips

skill-retrospectiveを使わなくても今日からできること

最小構成: CLAUDE.mdに3行追加する

段階的にレベルアップするなら

AIエージェントのエラー処理設計: よくある疑問

背景: なぜ「自己改善」が必要なのか

まとめ

関連記事

この技術が解決した業務課題

【自社導入事例】ブログ運用を完全自動化 - GitHubリポジトリから記事・サムネイル・SNS投稿まで

【AI開発】2026年版・始め方ガイド — 小規模チームのスタック選定チェックリスト

【AIエージェント × 営業】月5万のSaaSを使わず、2人チームがAI SDRを自作した全体像

関連記事

この技術、実際の現場ではこう使われています

AIエージェントが同じミスを繰り返さない3つの設計パターン【Claude Code実装例】

AIエージェントの「失敗学習」とは何か

典型的な失敗パターン3例

3つの設計パターン（概要）

パターン1: 構造化ログ（skill-retrospective）

ジャーナル: 構造化された実行ログ

パターン2: 8軸パターン検出

スコアリングで優先順位をつける

パターン3: SKILL.md自動修正

dev-flow-doctor: ワークフローの健康診断

ヘルススコアの計算

7つの診断チェック

診断レポートの例

session-save/load: コンテキストを失わない仕組み

session-saveの役割

session-loadの役割

自己改善サイクルの全体像

実際に回してみた所感

最初の1週間: ジャーナルが溜まるのを待つ

2週目: 最初のレトロスペクティブ

3週目以降: サイクルが回り始める

失敗→検出→学習→適用: 1サイクルの具体例

Step 1: 失敗が記録される

Step 2: パターン検出（1週間後）

Step 3: SKILL.md修正の承認

Step 4: 次セッションからの効果

注意点・Tips

skill-retrospectiveを使わなくても今日からできること

最小構成: CLAUDE.mdに3行追加する

段階的にレベルアップするなら

AIエージェントのエラー処理設計: よくある疑問

背景: なぜ「自己改善」が必要なのか

まとめ

関連記事

この技術が解決した業務課題

【自社導入事例】ブログ運用を完全自動化 - GitHubリポジトリから記事・サムネイル・SNS投稿まで

【AI開発】2026年版・始め方ガイド — 小規模チームのスタック選定チェックリスト

【AIエージェント × 営業】月5万のSaaSを使わず、2人チームがAI SDRを自作した全体像

関連記事

この技術、実際の現場ではこう使われています