戦略だけでなく代理人の論理を検証してください

執筆者: FXマクロデータチーム
発行: May 21, 2026

Most AI trading teams still backtest only one layer: signal-to-PnL. That misses the highest-risk component in modern systems, the agent itself. If your model misreads a macro print, drifts from schema, or violates policy under pressure, a good strategy can still produce bad trades.

取引先の取引先まで届く前に,歴史的な文脈を再生し,意思決定品質を評価することで解決します. FXでは,これは, ドル/JPY ほら EUR/USDわかった

鍵となるアイデアは 戦略のバックテストでは "このルールで儲けられるだろうか?" と尋ねます "このAIは現実的な条件下で同じ安全な決断を繰り返しするだろうか?"

なぜ戦略のみのバックテストが真の失敗モードを見逃すのか

When you only evaluate PnL, you hide three critical failure classes:

解釈の誤り: モデルが誤って読み取っているのは国内外活動間違った方向に論文を立てているのです
契約の誤り 変動が大きい時期には機能が崩れます
リスク・ポリシーのバイパス: モデルが大きすぎることを推奨するか,無効化基準を無視するか

これらの問題は PnLの劣化が明らかになる前に現れる.エージェントレベルバックテストは,より早くそれらを発見します.

The Four-Layer Agent Backtest Framework

層1: 文脈再生

モデルがリアルタイムで見たように各タイムスタンプを再構築します. FXMacroDataエンドポイントから決定時間まで利用可能なデータのみと,カレンダースナップショットを抽出します. リリースカレンダーわかった

curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR&quote=USD&api_key=YOUR_API_KEY"

層2: 決定を再生する

生成プロンプトと制約を正確に入力して各コンテキストでエージェントを実行します. 解析された出力と生出力を保存して,論理と構造の両方を監査できます.

{
  "pair": "EUR/USD",
  "action": "long|short|flat",
  "confidence": 0.0,
  "thesis": "string",
  "invalidation": "string",
  "size_pct": 0.0
}

層3: 政策シミュレーション

リアルタイムで使うゲートキーパールールと同じで最大リスクイベント・ウィンドウロック信頼基準集中制限

層4 結果の属性

異なる結果のバケット:

適切な論文政策の遵守利益
正しい論文だが実行質が悪い
間違った説で政策がブロックされるべきだった
市場方向から独立したシステムやプロセスの障害

指示や方針,配管の改善をすべきか判断します

高品質の再再生データセットを設計する

複製のパイプラインはデータのセットが清潔すぎたり狭すぎたりしたため失敗します複合的なデータセットを作りましょう

実践的な分割:

普通のセッションの40%: 低体積で,傾向に準拠し,範囲に限定された混合物
35% イベントウィンドウ: 放射性物質は基本PCE 政策金利の日々
25% ストレスの窓: リスクが大きい日,異常な幅の差と遅延騒音

各タイムスタンプでは,その時点で知られていたものだけを記録します.これはカレンダーからのリリーススケジュール文脈,現在のスポット経路,そして中央銀行の通信アーカイブからの政策文脈を含みます.

Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome

状況のパイロードをハッシュすることで修復器の時に偶然の将来のデータ漏れを検出できます

導きだけでなく,推論を評価すること

指示のみのスコア付けは重要な劣化を隠しています. 決定的なチェックと軽い人間の監査によってスコアされた単純な推論の表記を追加します:

原因の正確性 論文は正しいマクロドライバーを参照しているのでしょうか?
制限意識 リスクルールを反映しているか?
不確実性校正: 信頼は文脈の質と一致する?
行動規律 モデルを選びます flat 証拠が弱いという場合

追跡する ReasoningConsistency モデルとプロンプトを比較できます

役に立つパターン: 人によって毎月レビューされる小さな判定セット (50-100例) を保持します.それを自動化メトリックの品質アンカーとして使用します.

ポイントエージェントの品質 (ヒット率を超えて)

堅牢なスコアカードは,少なくとも以下の指標を記録する必要があります.

スキーマ合格率: 解析がきれいになる出力の割合です
政策の遵守率 厳しい制約を満たす出力の割合です
論理的一貫性 論文が提供された文脈と一致する頻度
遅延分布: p50/p95 リアルなパイプライン条件での決定時間
体制の安定性 傾向,範囲,およびイベントショックウィンドウを横断します

体重評価の例:

AgentScore = 0.30 * SchemaPass
           + 0.25 * PolicyCompliance
           + 0.20 * ReasoningConsistency
           + 0.15 * RegimeStability
           + 0.10 * LatencyScore

セキュリティを優先するワークフローを実行する場合は,スキーマとポリシーコンプライアンスに対する重みを増加させます.イベント速度ワークフロウを実行する場合には,レイテンシーとイベントウィンドウの動作に対する重さを増加させてください.

最小再生帯

決定とスコアを記録する再プレイランナーを使用します

from dataclasses import dataclass


@dataclass
class ReplayResult:
    ts: str
    parsed_ok: bool
    policy_ok: bool
    reasoning_ok: bool
    latency_ms: int
    pnl_r: float


def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
    raw = agent.run(ctx)
    parsed = agent.parse(raw)
    parsed_ok = parsed is not None

    if not parsed_ok:
        return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)

    gate = gatekeeper.validate(parsed, ctx)
    policy_ok = gate.allowed

    reasoning_ok = gate.reasoning_consistent
    pnl_r = gate.simulated_r if policy_ok else 0.0

    return ReplayResult(
        ts=ctx["ts"],
        parsed_ok=parsed_ok,
        policy_ok=policy_ok,
        reasoning_ok=reasoning_ok,
        latency_ms=agent.last_latency_ms,
        pnl_r=pnl_r,
    )

鍵は決定的な再現です同じ入力文脈同じプロンプトバージョン同じ検証ルール

再演の結果から派遣の決定まで

モデルやプロンプト変更をポイントメトリックから直接促進しないでください. 明確なデプロイゲートを使用します:

ゲート1 スキーマのパスレートは戻らないで
ゲート2 政策遵守はイベント・ウィンドウで限界値を超えておく必要があります
ゲート3 論理的一貫性が向上するか安定するか
ゲート4 遅延 p95は運用予算内にとどまらなければならない

すべてのゲートを通過すれば紙取引の影モードを開始します.

Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster

チームが再プレイに過剰に適し運用行動を低評価する典型的なサイクルを防ぐことができます

検査の中でよく犯す間違い

漏れ: 偶然将来のフィールドを文脈に組み込む
速速引いて 一つのインプットでバックテストし,もう一つはライブで取引します.
配列分別がない 変動が非常に異なる状態の平均値です
政策を再生する事はありません すべてのモデル出力を取引可能なものと扱う.

実践的な警告 低スケーマ安定性を持つ高ヒット率は生産準備ができていない. 破れた契約は,化粧騒音ではなく,運用リスクです.

リアルタイム取引の信頼性を向上させる方法

標準的なバックテストではできない方法で信頼性を向上させる.

銀行が銀行を運営する日々の失敗を集約しています連邦準備制度理事会やってきてイングランド銀行わかった
誤りとは速報と政策関係です
導入前にバージョンの意思決定行動を比較できるため,より安全なモデルアップグレードをサポートします.
承認されたまたは拒否されたすべての取引候補者について再利用可能な監査追跡を作成します.

PnLを既に追跡している場合これは AI自動化が静かに劣化するのを防ぐ欠けている観測可能層を追加します

結論

バックテスト戦略論理は必要である. バック検査エージェント論理は,AI取引ワークフローを持続可能にするものです. 最も強力なシステムは,市場利潤と意思決定の整合性を評価します.

実行モードに到達する前に,すべてのプロンプト/モデル変更を通過するように要求します. 生産量フィルターから外国為替セッション異なる市場状態下でストレストーストの行動に

Backtest Your Agent Logic Not Just Your Strategy

戦略だけでなく代理人の論理を検証してください

なぜ戦略のみのバックテストが真の失敗モードを見逃すのか

The Four-Layer Agent Backtest Framework

層1: 文脈再生

層2: 決定を再生する

層3: 政策シミュレーション

層4 結果の属性

高品質の再再生データセットを設計する

導きだけでなく,推論を評価すること

ポイントエージェントの品質 (ヒット率を超えて)

最小再生帯

再演の結果から派遣の決定まで

検査の中でよく犯す間違い

リアルタイム取引の信頼性を向上させる方法

結論

More Articles

Blogroll

Key Facts

Quick Q&A

戦略だけでなく 代理人 の 論理 を 検証 し て ください

なぜ戦略のみのバックテストが 真の失敗モードを見逃すのか

The Four-Layer Agent Backtest Framework

層1: 文脈再生

層2: 決定を再生する

層3: 政策シミュレーション

層4 結果の属性

高品質の再再生データセットを設計する

導き だけ で なく,推論 を 評価 する こと

ポイントエージェントの品質 (ヒット率を超えて)

最小再生帯

再演 の 結果 から 派遣 の 決定 まで

検査 の 中 で よく 犯す 間違い

リアルタイム取引の信頼性を向上させる方法

結論

More Articles

Blogroll

Key Facts

Quick Q&A

戦略だけでなく代理人の論理を検証してください

なぜ戦略のみのバックテストが真の失敗モードを見逃すのか

導きだけでなく,推論を評価すること

再演の結果から派遣の決定まで

検査の中でよく犯す間違い