AI セーフティ Engineering
Post-hook 自己改善ループ — 生成 AI 出力を自動でレビュー・リトライする
AI が一発で正しい出力を返す保証はない。Reviewer エージェントと Post-hook を組み合わせ、品質が閾値を下回ったら自動でリトライするループ設計の思想・実装・落とし穴を montage の実例で解説する。
#claude-code
#ai-driven-dev
#self-improvement
カテゴリ
hook によるガードレール・プロンプトインジェクション対策
3 件の記事
AI が一発で正しい出力を返す保証はない。Reviewer エージェントと Post-hook を組み合わせ、品質が閾値を下回ったら自動でリトライするループ設計の思想・実装・落とし穴を montage の実例で解説する。
AI に強い権限を渡すなら、事後ロギングより事前ブロックが堅い。弊社内製の金融データ基盤で設計・運用している PreToolUse hook の設計思想と実装例を紹介する。
スクレイプ結果や Gmail 本文など外部テキストを LLM に渡す際の攻撃面を整理し、wrap_untrusted / UNTRUSTED_DATA_NOTICE / 出力検証の3層防御で実装する方法を解説する。