Testen Sie Ihre Logik, nicht nur Ihre Strategie.
Schriftsteller: FXMacroData-Team
Veröffentlicht: 21. Mai 2026
Die meisten KI-Handelsteams testen immer noch nur eine Ebene: Signal-zu-PnL. Das übersieht die höchste Risiko-Komponente in modernen Systemen, den Agent selbst. Wenn Ihr Modell einen Makro-Druck falsch liest, vom Schema abweicht oder unter Druck gegen die Richtlinie verstößt, kann eine gute Strategie immer noch schlechte Trades hervorbringen.
Agent Logik Backtesting löst dies durch Wiederholung historischer Kontexte und Bewertung der Entscheidungsqualität, bevor jede Bestellung Ihren Broker erreicht. USD/JPY Und ... EUR/USD- Ich weiß .
Warum Strategie-only Backtests echte Versagen verpassen
Wenn man nur PnL bewertet, versteckt man drei kritische Fehlerklassen:
- Interpretationsfehler: Das Modell interpretiert eine Freigabe wie falsch. NFP und baut eine These in die falsche Richtung.
- Vertragsfehler: Die Ausgabe bricht Ihr Schema in Zeiten hoher Volatilität.
- Risikobilanz-Umgehung: Das Modell empfiehlt eine Überdimensionierung oder ignoriert die Invaliditätskriterien.
Diese Probleme treten oft vor dem PnL-Abbau auf, wenn der Backtest auf Agentenebene sie früher ermittelt.
Der vier-schichtige Agent-Backtest-Rahmen
Schicht 1: Kontextwiederholung
Sie können die Daten, die bis zur Entscheidung verfügbar sind, nur aus den Endpunkten von FXMacroData und Kalender-Snapshots aus dem Veröffentlichungskalender- Ich weiß .
curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR"e=USD&api_key=YOUR_API_KEY"
Schicht 2: Entscheidungserholung
Führen Sie den Agent in jedem Kontext mit der genauen Produktionsaufforderung und Einschränkungen aus. Speichern Sie Roh-Ausgabe plus analysierte Ausgabe, damit Sie sowohl die Argumentation als auch die Struktur überprüfen können.
{
"pair": "EUR/USD",
"action": "long|short|flat",
"confidence": 0.0,
"thesis": "string",
"invalidation": "string",
"size_pct": 0.0
}
Schicht 3: Simulation von Politiken
Wiederholen Sie die gleichen Torwächterregeln, die Sie live verwenden: Maximalrisiko, Event-Fenster-Sperren, Vertrauensgrenzen und Konzentrationsbeschränkungen.
Schicht 4: Ergebniszuordnung
Einzelne Ergebnisbeutel:
- Richtige These, gute Einhaltung der Richtlinien, profitabel.
- Richtige These, schlechte Ausführungsqualität.
- Falsche These, die Politik hätte blockiert werden sollen.
- Schema- oder Prozessfehler unabhängig von der Marktrichtung.
Hier erfahren Sie, ob Sie Anweisungen, Richtlinien oder die Ausführungsanlagen verbessern müssen.
Entwurf eines hochwertigen Wiederholungsdatensatzes
Die meisten Wiederholungs-Pipelines scheitern, weil der Datensatz zu sauber oder zu eng ist.
Eine praktische Spaltung:
- 40% der normalen Sitzungen: geringe Volumen, trendorientierte und in einem bestimmten Bereich begrenzte Mischungen.
- 35% Ereignisfenster: Hochwirkungsfreisetzungen wie Kern-PCE und den Tagesraten.
- 25% Belastungsfenster: breite Risikogrenztage mit ungewöhnlich hoher Spread- und Latenzlärm.
Für jeden Zeitstempel erfassen Sie nur das, was damals bekannt war, einschließlich des Release-Zeitrahmen-Kontexts aus dem Kalender, des aktuellen Spot-Pfades und des Kontextes der Politik aus den Kommunikationsarchiven der Zentralbank.
Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome
Das Hashing von Kontext-Nutzlasten hilft bei der Erkennung von versehentlichen Datenlecks während der Reaktoren.
Wie man eine gute Begründung findet, nicht nur eine gute Anleitung
Hinzufügen einer einfachen Argumentationsrubrik, die durch deterministische Prüfungen und leichte menschliche Prüfung bewertet wird:
- Ursachenkorrektheit: Verweist die These auf den richtigen Makro-Treiber?
- Einschränkungserkenntnis: spiegelt die Empfehlung die Risikoregeln wider?
- Kalibrierung der Unsicherheit: entspricht Vertrauen der Kontextqualität?
- Handlungsdisziplin: Wählt das Modell ?
flatwenn die Beweise schwach sind?
Verfolgen Sie das . ReasoningConsistency So können Sie Modelle und Anweisungen über PnL hinaus vergleichen.
Qualität des Scoring Agents (über die Trefferrate hinaus)
Eine solide Scorecard sollte mindestens folgende Kennzahlen aufweisen:
- Schema-Übergangsquote: Prozent der Ausgänge, die sauber analysiert werden.
- Zulassungsquote: Prozentsatz der Ausgänge, die harte Einschränkungen erfüllen.
- Einheitliche Begründung: Wie oft die These mit dem angegebenen Kontext übereinstimmt.
- Verteilung der Latenz: p50/p95 Entscheidungszustand unter realistischen Pipeline-Bedingungen.
- Stabilität des Regimes: Die Ergebnisse werden in Trend-, Range- und Event-Shock-Fenstern angezeigt.
Beispiel gewichtete Punktzahl:
AgentScore = 0.30 * SchemaPass
+ 0.25 * PolicyCompliance
+ 0.20 * ReasoningConsistency
+ 0.15 * RegimeStability
+ 0.10 * LatencyScore
Wenn Sie einen Sicherheits-Workflow ausführen, erhöhen Sie die Gewichte für Schema und Richtlinienkonformität.
Mindest-Wiederholungs-Gurt
Verwenden Sie einen Wiederholungsläufer, der jede Entscheidung und Punktkomponente protokolliert.
from dataclasses import dataclass
@dataclass
class ReplayResult:
ts: str
parsed_ok: bool
policy_ok: bool
reasoning_ok: bool
latency_ms: int
pnl_r: float
def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
raw = agent.run(ctx)
parsed = agent.parse(raw)
parsed_ok = parsed is not None
if not parsed_ok:
return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)
gate = gatekeeper.validate(parsed, ctx)
policy_ok = gate.allowed
reasoning_ok = gate.reasoning_consistent
pnl_r = gate.simulated_r if policy_ok else 0.0
return ReplayResult(
ts=ctx["ts"],
parsed_ok=parsed_ok,
policy_ok=policy_ok,
reasoning_ok=reasoning_ok,
latency_ms=agent.last_latency_ms,
pnl_r=pnl_r,
)
Der Schlüssel ist die deterministische Wiedergabe: der gleiche Eingabe-Kontext, die gleiche prompt Version, die gleichen Validierungsregeln.
Von den Ergebnissen der Wiederholung bis zu den Entscheidungen über den Einsatz
Verwenden Sie keine Modell- oder Anforderungsänderungen direkt aus Punktmetriken.
- Gate 1: Schema-Passrate darf nicht zurückgehen.
- Gate 2: Die Einhaltung der Richtlinien muss in den Ereignisfenstern über dem Schwellenwert liegen.
- Gate 3: Die Konsistenz der Argumentation muss sich verbessern oder stabil bleiben.
- Gate 4: Die Latenzzeit p95 muss innerhalb des Betriebsbudgets liegen.
Nur wenn alle Tore durch sind, sollten Sie mit dem Schattenmodus beginnen.
Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster
Dies verhindert den klassischen Zyklus, in dem Teams sich überanpassen, um wieder zu spielen und das operative Verhalten zu testen.
Häufige Fehler beim Testen
- Leckage: Zufällig werden zukünftige Felder in den Kontext aufgenommen.
- Schnell abwehren: Backtesting mit einer Anforderung und Live-Handel mit einer anderen.
- Keine Regime-Segmentierung: Durchschnittliche Ergebnisse in sehr unterschiedlichen Volatilitätszuständen.
- Keine Wiederholung der Politik: Alle Modell-Ausgänge als handelbar zu behandeln.
Wie dies die Zuverlässigkeit des Live-Handels verbessert
Agent-Logik-Backtesting verbessert die Zuverlässigkeit auf eine Weise, wie klassische Backtests es nicht können:
- Finden Sie Ausfallcluster rund um Zentralbanktage, von der Die Federal Reserve - Ich bin nicht ... Bank of England- Ich weiß .
- Er zeigt, welche Fehler prompt- oder policybezogen sind.
- Unterstützt sichere Modellupgrades, da Sie das Entscheidungverhalten zwischen Versionen vor der Bereitstellung vergleichen können.
- Erstellt eine wiederverwendbare Prüfspur für jeden angenommenen oder abgelehnten Handelskandidaten.
Wenn Sie PnL bereits verfolgen, fügt dies die fehlende Beobachtungsschicht hinzu, die verhindert, dass sich die KI-Automatisierung stillschweigend degradiert.
Schlussfolgerung
Die Backtesting-Strategie ist notwendig. Die Backteesting Agent Logik macht KI-Handelsworkflows langlebig. Die stärksten Systeme bewerten sowohl Marktvorteil als auch Entscheidungsintegrität.
Nächster Schritt: Erstellen Sie einen monatlichen Wiederholungs-Benchmark und verlangen Sie, dass jede Anforderung/Modelländerung durchläuft, bevor Sie den Live-Modus erreichen. COT und Sessionfilter von FX-Sitzungen Die Kommission hat die Kommission aufgefordert, die in den vorliegenden Berichten beschriebenen Maßnahmen zu prüfen.