戦略だけでなく 代理人 の 論理 を 検証 し て ください
執筆者: FXマクロデータチーム
発行: May 21, 2026
Most AI trading teams still backtest only one layer: signal-to-PnL. That misses the highest-risk component in modern systems, the agent itself. If your model misreads a macro print, drifts from schema, or violates policy under pressure, a good strategy can still produce bad trades.
取引先の取引先まで届く前に,歴史的な文脈を再生し,意思決定品質を評価することで解決します. FXでは,これは, ドル/JPY ほら EUR/USDわかった
なぜ戦略のみのバックテストが 真の失敗モードを見逃すのか
When you only evaluate PnL, you hide three critical failure classes:
- 解釈の誤り: モデルが誤って読み取っているのは 国内外活動 間違った方向に論文を立てているのです
- 契約の誤り 変動が大きい時期には 機能が崩れます
- リスク・ポリシーのバイパス: モデルが大きすぎることを推奨するか,無効化基準を無視するか
これらの問題は PnLの劣化が明らかになる前に現れる.エージェントレベルバックテストは,より早くそれらを発見します.
The Four-Layer Agent Backtest Framework
層1: 文脈再生
モデルがリアルタイムで見たように各タイムスタンプを再構築します. FXMacroDataエンドポイントから決定時間まで利用可能なデータのみと,カレンダースナップショットを抽出します. リリースカレンダーわかった
curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR"e=USD&api_key=YOUR_API_KEY"
層2: 決定を再生する
生成プロンプトと制約を正確に入力して各コンテキストでエージェントを実行します. 解析された出力と生出力を保存して,論理と構造の両方を監査できます.
{
"pair": "EUR/USD",
"action": "long|short|flat",
"confidence": 0.0,
"thesis": "string",
"invalidation": "string",
"size_pct": 0.0
}
層3: 政策シミュレーション
リアルタイムで使う ゲートキーパールールと同じで 最大リスク イベント・ウィンドウロック 信頼基準 集中制限
層4 結果の属性
異なる結果のバケット:
- 適切な論文 政策の遵守 利益
- 正しい論文だが 実行質が悪い
- 間違った説で 政策がブロックされるべきだった
- 市場方向から独立したシステムやプロセスの障害
指示や方針,配管の改善を すべきか判断します
高品質の再再生データセットを設計する
複製のパイプラインは データのセットが 清潔すぎたり 狭すぎたりしたため 失敗します 複合的なデータセットを 作りましょう
実践的な分割:
- 普通のセッションの40%: 低体積で,傾向に準拠し,範囲に限定された混合物
- 35% イベントウィンドウ: 放射性物質は 基本PCE 政策金利の日々
- 25% ストレスの窓: リスクが大きい日,異常な幅の差と遅延騒音
各タイムスタンプでは,その時点で知られていたものだけを記録します.これはカレンダーからのリリーススケジュール文脈,現在のスポット経路,そして中央銀行の通信アーカイブからの政策文脈を含みます.
Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome
状況のパイロードをハッシュすることで 修復器の時に 偶然の将来のデータ漏れを検出できます
導き だけ で なく,推論 を 評価 する こと
指示のみのスコア付けは重要な劣化を隠しています. 決定的なチェックと軽い人間の監査によってスコアされた単純な推論の表記を追加します:
- 原因の正確性 論文は正しいマクロドライバーを 参照しているのでしょうか?
- 制限意識 リスクルールを反映しているか?
- 不確実性校正: 信頼は文脈の質と一致する?
- 行動規律 モデルを選びます
flat証拠 が 弱い と いう 場合
追跡する ReasoningConsistency モデルとプロンプトを比較できます
ポイントエージェントの品質 (ヒット率を超えて)
堅牢なスコアカードは,少なくとも以下の指標を記録する必要があります.
- スキーマ合格率: 解析がきれいになる出力の割合です
- 政策の遵守率 厳しい制約を満たす出力の割合です
- 論理的一貫性 論文が提供された文脈と一致する頻度
- 遅延分布: p50/p95 リアルなパイプライン条件での決定時間
- 体制の安定性 傾向,範囲,およびイベントショックウィンドウを横断します
体重評価の例:
AgentScore = 0.30 * SchemaPass
+ 0.25 * PolicyCompliance
+ 0.20 * ReasoningConsistency
+ 0.15 * RegimeStability
+ 0.10 * LatencyScore
セキュリティを優先するワークフローを実行する場合は,スキーマとポリシーコンプライアンスに対する重みを増加させます.イベント速度ワークフロウを実行する場合には,レイテンシーとイベントウィンドウの動作に対する重さを増加させてください.
最小再生帯
決定とスコアを記録する 再プレイランナーを使用します
from dataclasses import dataclass
@dataclass
class ReplayResult:
ts: str
parsed_ok: bool
policy_ok: bool
reasoning_ok: bool
latency_ms: int
pnl_r: float
def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
raw = agent.run(ctx)
parsed = agent.parse(raw)
parsed_ok = parsed is not None
if not parsed_ok:
return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)
gate = gatekeeper.validate(parsed, ctx)
policy_ok = gate.allowed
reasoning_ok = gate.reasoning_consistent
pnl_r = gate.simulated_r if policy_ok else 0.0
return ReplayResult(
ts=ctx["ts"],
parsed_ok=parsed_ok,
policy_ok=policy_ok,
reasoning_ok=reasoning_ok,
latency_ms=agent.last_latency_ms,
pnl_r=pnl_r,
)
鍵は決定的な再現です 同じ入力文脈 同じプロンプトバージョン 同じ検証ルール
再演 の 結果 から 派遣 の 決定 まで
モデルやプロンプト変更をポイントメトリックから直接促進しないでください. 明確なデプロイゲートを使用します:
- ゲート1 スキーマのパスレートは 戻らないで
- ゲート2 政策遵守はイベント・ウィンドウで 限界値を超えておく必要があります
- ゲート3 論理的一貫性が向上するか 安定するか
- ゲート4 遅延 p95は 運用予算内にとどまらなければならない
すべてのゲートを通過すれば 紙取引の影モードを開始します.
Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster
チームが再プレイに 過剰に適し 運用行動を低評価する 典型的なサイクルを防ぐことができます
検査 の 中 で よく 犯す 間違い
- 漏れ: 偶然 将来のフィールドを文脈に組み込む
- 速速引いて 一つのインプットでバックテストし,もう一つはライブで取引します.
- 配列分別がない 変動が非常に異なる状態の平均値です
- 政策を再生する事はありません すべてのモデル出力を取引可能なものと扱う.
リアルタイム取引の信頼性を向上させる方法
標準的なバックテストではできない方法で信頼性を向上させる.
- 銀行が銀行を運営する日々の失敗を集約しています 連邦準備制度理事会 やってきて イングランド銀行わかった
- 誤りとは 速報と 政策関係です
- 導入前にバージョンの意思決定行動を比較できるため,より安全なモデルアップグレードをサポートします.
- 承認されたまたは拒否されたすべての取引候補者について再利用可能な監査追跡を作成します.
PnLを既に追跡している場合 これは AI自動化が 静かに劣化するのを防ぐ 欠けている観測可能層を追加します
結論
バックテスト戦略論理は必要である. バック検査エージェント論理は,AI取引ワークフローを持続可能にするものです. 最も強力なシステムは,市場利潤と意思決定の整合性を評価します.
実行モードに到達する前に,すべてのプロンプト/モデル変更を通過するように要求します. 生産量 フィルターから 外国為替セッション 異なる市場状態下でストレストーストの行動に