Live release feed
Sub-second macro releases for FX backtests
Point-in-time history
Official CPI, jobs, GDP, and central-bank events with point-in-time history.
USD 25/month 14-day free trial
Start Free Trial
Backtest Your Agent Logic Not Just Your Strategy image
Share headline card X LinkedIn Email
Download

Reference

Macro Education

Backtest Your Agent Logic Not Just Your Strategy

伝統的なバックテストは,AI取引システムにおける重要な層,すなわちエージェントの意思決定プロセス自体を見逃しています. リアルタイムオートメーションを信頼する前に,歴史的なマクロコンテキストを再生し,推論品質,スキーマ安定性,リスクポリシー遵守をスコアする方法について学びましょう.

他言語版 English
Share article X LinkedIn Email

戦略だけでなく 代理人 の 論理 を 検証 し て ください

執筆者: FXマクロデータチーム
発行: May 21, 2026

Most AI trading teams still backtest only one layer: signal-to-PnL. That misses the highest-risk component in modern systems, the agent itself. If your model misreads a macro print, drifts from schema, or violates policy under pressure, a good strategy can still produce bad trades.

取引先の取引先まで届く前に,歴史的な文脈を再生し,意思決定品質を評価することで解決します. FXでは,これは, ドル/JPY ほら EUR/USDわかった

鍵となるアイデアは 戦略のバックテストでは "このルールで儲けられるだろうか?" と尋ねます "このAIは現実的な条件下で 同じ安全な決断を繰り返しするだろうか?"

なぜ戦略のみのバックテストが 真の失敗モードを見逃すのか

When you only evaluate PnL, you hide three critical failure classes:

  • 解釈の誤り: モデルが誤って読み取っているのは 国内外活動 間違った方向に論文を立てているのです
  • 契約の誤り 変動が大きい時期には 機能が崩れます
  • リスク・ポリシーのバイパス: モデルが大きすぎることを推奨するか,無効化基準を無視するか

これらの問題は PnLの劣化が明らかになる前に現れる.エージェントレベルバックテストは,より早くそれらを発見します.


The Four-Layer Agent Backtest Framework

層1: 文脈再生

モデルがリアルタイムで見たように各タイムスタンプを再構築します. FXMacroDataエンドポイントから決定時間まで利用可能なデータのみと,カレンダースナップショットを抽出します. リリースカレンダーわかった

curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR&quote=USD&api_key=YOUR_API_KEY"

層2: 決定を再生する

生成プロンプトと制約を正確に入力して各コンテキストでエージェントを実行します. 解析された出力と生出力を保存して,論理と構造の両方を監査できます.

{
  "pair": "EUR/USD",
  "action": "long|short|flat",
  "confidence": 0.0,
  "thesis": "string",
  "invalidation": "string",
  "size_pct": 0.0
}

層3: 政策シミュレーション

リアルタイムで使う ゲートキーパールールと同じで 最大リスク イベント・ウィンドウロック 信頼基準 集中制限

層4 結果の属性

異なる結果のバケット:

  • 適切な論文 政策の遵守 利益
  • 正しい論文だが 実行質が悪い
  • 間違った説で 政策がブロックされるべきだった
  • 市場方向から独立したシステムやプロセスの障害

指示や方針,配管の改善を すべきか判断します


高品質の再再生データセットを設計する

複製のパイプラインは データのセットが 清潔すぎたり 狭すぎたりしたため 失敗します 複合的なデータセットを 作りましょう

実践的な分割:

  • 普通のセッションの40%: 低体積で,傾向に準拠し,範囲に限定された混合物
  • 35% イベントウィンドウ: 放射性物質は 基本PCE 政策金利の日々
  • 25% ストレスの窓: リスクが大きい日,異常な幅の差と遅延騒音

各タイムスタンプでは,その時点で知られていたものだけを記録します.これはカレンダーからのリリーススケジュール文脈,現在のスポット経路,そして中央銀行の通信アーカイブからの政策文脈を含みます.

Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome

状況のパイロードをハッシュすることで 修復器の時に 偶然の将来のデータ漏れを検出できます


導き だけ で なく,推論 を 評価 する こと

指示のみのスコア付けは重要な劣化を隠しています. 決定的なチェックと軽い人間の監査によってスコアされた単純な推論の表記を追加します:

  1. 原因の正確性 論文は正しいマクロドライバーを 参照しているのでしょうか?
  2. 制限意識 リスクルールを反映しているか?
  3. 不確実性校正: 信頼は文脈の質と一致する?
  4. 行動規律 モデルを選びます flat 証拠 が 弱い と いう 場合

追跡する ReasoningConsistency モデルとプロンプトを比較できます

役に立つパターン: 人によって毎月レビューされる小さな判定セット (50-100例) を保持します.それを自動化メトリックの品質アンカーとして使用します.

ポイントエージェントの品質 (ヒット率を超えて)

堅牢なスコアカードは,少なくとも以下の指標を記録する必要があります.

  • スキーマ合格率: 解析がきれいになる出力の割合です
  • 政策の遵守率 厳しい制約を満たす出力の割合です
  • 論理的一貫性 論文が提供された文脈と一致する頻度
  • 遅延分布: p50/p95 リアルなパイプライン条件での決定時間
  • 体制の安定性 傾向,範囲,およびイベントショックウィンドウを横断します

体重評価の例:

AgentScore = 0.30 * SchemaPass
           + 0.25 * PolicyCompliance
           + 0.20 * ReasoningConsistency
           + 0.15 * RegimeStability
           + 0.10 * LatencyScore

セキュリティを優先するワークフローを実行する場合は,スキーマとポリシーコンプライアンスに対する重みを増加させます.イベント速度ワークフロウを実行する場合には,レイテンシーとイベントウィンドウの動作に対する重さを増加させてください.


最小再生帯

決定とスコアを記録する 再プレイランナーを使用します

from dataclasses import dataclass


@dataclass
class ReplayResult:
    ts: str
    parsed_ok: bool
    policy_ok: bool
    reasoning_ok: bool
    latency_ms: int
    pnl_r: float


def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
    raw = agent.run(ctx)
    parsed = agent.parse(raw)
    parsed_ok = parsed is not None

    if not parsed_ok:
        return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)

    gate = gatekeeper.validate(parsed, ctx)
    policy_ok = gate.allowed

    reasoning_ok = gate.reasoning_consistent
    pnl_r = gate.simulated_r if policy_ok else 0.0

    return ReplayResult(
        ts=ctx["ts"],
        parsed_ok=parsed_ok,
        policy_ok=policy_ok,
        reasoning_ok=reasoning_ok,
        latency_ms=agent.last_latency_ms,
        pnl_r=pnl_r,
    )

鍵は決定的な再現です 同じ入力文脈 同じプロンプトバージョン 同じ検証ルール


再演 の 結果 から 派遣 の 決定 まで

モデルやプロンプト変更をポイントメトリックから直接促進しないでください. 明確なデプロイゲートを使用します:

  • ゲート1 スキーマのパスレートは 戻らないで
  • ゲート2 政策遵守はイベント・ウィンドウで 限界値を超えておく必要があります
  • ゲート3 論理的一貫性が向上するか 安定するか
  • ゲート4 遅延 p95は 運用予算内にとどまらなければならない

すべてのゲートを通過すれば 紙取引の影モードを開始します.

Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster

チームが再プレイに 過剰に適し 運用行動を低評価する 典型的なサイクルを防ぐことができます


検査 の 中 で よく 犯す 間違い

  • 漏れ: 偶然 将来のフィールドを文脈に組み込む
  • 速速引いて 一つのインプットでバックテストし,もう一つはライブで取引します.
  • 配列分別がない 変動が非常に異なる状態の平均値です
  • 政策を再生する事はありません すべてのモデル出力を取引可能なものと扱う.
実践的な警告 低スケーマ安定性を持つ高ヒット率は生産準備ができていない. 破れた契約は,化粧騒音ではなく,運用リスクです.

リアルタイム取引の信頼性を向上させる方法

標準的なバックテストではできない方法で信頼性を向上させる.

  • 銀行が銀行を運営する日々の失敗を集約しています 連邦準備制度理事会 やってきて イングランド銀行わかった
  • 誤りとは 速報と 政策関係です
  • 導入前にバージョンの意思決定行動を比較できるため,より安全なモデルアップグレードをサポートします.
  • 承認されたまたは拒否されたすべての取引候補者について再利用可能な監査追跡を作成します.

PnLを既に追跡している場合 これは AI自動化が 静かに劣化するのを防ぐ 欠けている観測可能層を追加します


結論

バックテスト戦略論理は必要である. バック検査エージェント論理は,AI取引ワークフローを持続可能にするものです. 最も強力なシステムは,市場利潤と意思決定の整合性を評価します.

実行モードに到達する前に,すべてのプロンプト/モデル変更を通過するように要求します. 生産量 フィルターから 外国為替セッション 異なる市場状態下でストレストーストの行動に

Blogroll

AI Answer-Ready

Key Facts

Page
Backtest Your Agent Logic Not Just Your Strategy
Section
Articles
Canonical URL
https://fxmacrodata.com/ja/articles/backtest-your-agent-logic-not-just-your-strategy
Source
FXMacroData editorial and official publisher references
Last Updated
2026-06-15 11:01 UTC

Provenance And Trust

Cite the canonical URL and source field above. Where available, this page maps to official publisher releases and timestamped updates.

Quick Q&A

What is this page about? This page explains Backtest Your Agent Logic Not Just Your Strategy with directly usable context for trading, research, and API workflows.

What source should be cited? Use the canonical URL and the listed source field; cite official publisher references when available.

How fresh is this content? The last updated value above reflects the page metadata or latest available data timestamp.

Can this be used in AI assistants? Yes. This section is intentionally structured for retrieval and citation in chat assistants.

Prompt Packs

Use these in ChatGPT, Claude, Gemini, Mistral, Perplexity, or Grok for consistent source-aware outputs.