Testen Sie Ihre Logik, nicht nur Ihre Strategie.

Schriftsteller: FXMacroData-Team
Veröffentlicht: 21. Mai 2026

Die meisten KI-Handelsteams testen immer noch nur eine Ebene: Signal-zu-PnL. Das übersieht die höchste Risiko-Komponente in modernen Systemen, den Agent selbst. Wenn Ihr Modell einen Makro-Druck falsch liest, vom Schema abweicht oder unter Druck gegen die Richtlinie verstößt, kann eine gute Strategie immer noch schlechte Trades hervorbringen.

Agent Logik Backtesting löst dies durch Wiederholung historischer Kontexte und Bewertung der Entscheidungsqualität, bevor jede Bestellung Ihren Broker erreicht. USD/JPY Und ... EUR/USD- Ich weiß .

Die Schlüsselidee: Ein Strategie-Backtest fragt: "Hätte diese Regel Geld verdient?" Agent-Backtesting fragt "Hat diese KI die gleiche sichere Entscheidung wiederholt unter realistischen Bedingungen getroffen?"

Warum Strategie-only Backtests echte Versagen verpassen

Wenn man nur PnL bewertet, versteckt man drei kritische Fehlerklassen:

Interpretationsfehler: Das Modell interpretiert eine Freigabe wie falsch. NFP und baut eine These in die falsche Richtung.
Vertragsfehler: Die Ausgabe bricht Ihr Schema in Zeiten hoher Volatilität.
Risikobilanz-Umgehung: Das Modell empfiehlt eine Überdimensionierung oder ignoriert die Invaliditätskriterien.

Diese Probleme treten oft vor dem PnL-Abbau auf, wenn der Backtest auf Agentenebene sie früher ermittelt.

Der vier-schichtige Agent-Backtest-Rahmen

Schicht 1: Kontextwiederholung

Sie können die Daten, die bis zur Entscheidung verfügbar sind, nur aus den Endpunkten von FXMacroData und Kalender-Snapshots aus dem Veröffentlichungskalender- Ich weiß .

curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR&quote=USD&api_key=YOUR_API_KEY"

Schicht 2: Entscheidungserholung

Führen Sie den Agent in jedem Kontext mit der genauen Produktionsaufforderung und Einschränkungen aus. Speichern Sie Roh-Ausgabe plus analysierte Ausgabe, damit Sie sowohl die Argumentation als auch die Struktur überprüfen können.

{
  "pair": "EUR/USD",
  "action": "long|short|flat",
  "confidence": 0.0,
  "thesis": "string",
  "invalidation": "string",
  "size_pct": 0.0
}

Schicht 3: Simulation von Politiken

Wiederholen Sie die gleichen Torwächterregeln, die Sie live verwenden: Maximalrisiko, Event-Fenster-Sperren, Vertrauensgrenzen und Konzentrationsbeschränkungen.

Schicht 4: Ergebniszuordnung

Einzelne Ergebnisbeutel:

Richtige These, gute Einhaltung der Richtlinien, profitabel.
Richtige These, schlechte Ausführungsqualität.
Falsche These, die Politik hätte blockiert werden sollen.
Schema- oder Prozessfehler unabhängig von der Marktrichtung.

Hier erfahren Sie, ob Sie Anweisungen, Richtlinien oder die Ausführungsanlagen verbessern müssen.

Entwurf eines hochwertigen Wiederholungsdatensatzes

Die meisten Wiederholungs-Pipelines scheitern, weil der Datensatz zu sauber oder zu eng ist.

Eine praktische Spaltung:

40% der normalen Sitzungen: geringe Volumen, trendorientierte und in einem bestimmten Bereich begrenzte Mischungen.
35% Ereignisfenster: Hochwirkungsfreisetzungen wie Kern-PCE und den Tagesraten.
25% Belastungsfenster: breite Risikogrenztage mit ungewöhnlich hoher Spread- und Latenzlärm.

Für jeden Zeitstempel erfassen Sie nur das, was damals bekannt war, einschließlich des Release-Zeitrahmen-Kontexts aus dem Kalender, des aktuellen Spot-Pfades und des Kontextes der Politik aus den Kommunikationsarchiven der Zentralbank.

Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome

Das Hashing von Kontext-Nutzlasten hilft bei der Erkennung von versehentlichen Datenlecks während der Reaktoren.

Wie man eine gute Begründung findet, nicht nur eine gute Anleitung

Hinzufügen einer einfachen Argumentationsrubrik, die durch deterministische Prüfungen und leichte menschliche Prüfung bewertet wird:

Ursachenkorrektheit: Verweist die These auf den richtigen Makro-Treiber?
Einschränkungserkenntnis: spiegelt die Empfehlung die Risikoregeln wider?
Kalibrierung der Unsicherheit: entspricht Vertrauen der Kontextqualität?
Handlungsdisziplin: Wählt das Modell ? flat wenn die Beweise schwach sind?

Verfolgen Sie das . ReasoningConsistency So können Sie Modelle und Anweisungen über PnL hinaus vergleichen.

Nützliches Muster: keep a small adjudication set (50-100 examples) reviewed by humans monthly. Use it as a quality anchor for automated metrics.

Qualität des Scoring Agents (über die Trefferrate hinaus)

Eine solide Scorecard sollte mindestens folgende Kennzahlen aufweisen:

Schema-Übergangsquote: Prozent der Ausgänge, die sauber analysiert werden.
Zulassungsquote: Prozentsatz der Ausgänge, die harte Einschränkungen erfüllen.
Einheitliche Begründung: Wie oft die These mit dem angegebenen Kontext übereinstimmt.
Verteilung der Latenz: p50/p95 Entscheidungszustand unter realistischen Pipeline-Bedingungen.
Stabilität des Regimes: Die Ergebnisse werden in Trend-, Range- und Event-Shock-Fenstern angezeigt.

Beispiel gewichtete Punktzahl:

AgentScore = 0.30 * SchemaPass
           + 0.25 * PolicyCompliance
           + 0.20 * ReasoningConsistency
           + 0.15 * RegimeStability
           + 0.10 * LatencyScore

Wenn Sie einen Sicherheits-Workflow ausführen, erhöhen Sie die Gewichte für Schema und Richtlinienkonformität.

Mindest-Wiederholungs-Gurt

Verwenden Sie einen Wiederholungsläufer, der jede Entscheidung und Punktkomponente protokolliert.

from dataclasses import dataclass


@dataclass
class ReplayResult:
    ts: str
    parsed_ok: bool
    policy_ok: bool
    reasoning_ok: bool
    latency_ms: int
    pnl_r: float


def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
    raw = agent.run(ctx)
    parsed = agent.parse(raw)
    parsed_ok = parsed is not None

    if not parsed_ok:
        return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)

    gate = gatekeeper.validate(parsed, ctx)
    policy_ok = gate.allowed

    reasoning_ok = gate.reasoning_consistent
    pnl_r = gate.simulated_r if policy_ok else 0.0

    return ReplayResult(
        ts=ctx["ts"],
        parsed_ok=parsed_ok,
        policy_ok=policy_ok,
        reasoning_ok=reasoning_ok,
        latency_ms=agent.last_latency_ms,
        pnl_r=pnl_r,
    )

Der Schlüssel ist die deterministische Wiedergabe: der gleiche Eingabe-Kontext, die gleiche prompt Version, die gleichen Validierungsregeln.

Von den Ergebnissen der Wiederholung bis zu den Entscheidungen über den Einsatz

Verwenden Sie keine Modell- oder Anforderungsänderungen direkt aus Punktmetriken.

Gate 1: Schema-Passrate darf nicht zurückgehen.
Gate 2: Die Einhaltung der Richtlinien muss in den Ereignisfenstern über dem Schwellenwert liegen.
Gate 3: Die Konsistenz der Argumentation muss sich verbessern oder stabil bleiben.
Gate 4: Die Latenzzeit p95 muss innerhalb des Betriebsbudgets liegen.

Nur wenn alle Tore durch sind, sollten Sie mit dem Schattenmodus beginnen.

Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster

Dies verhindert den klassischen Zyklus, in dem Teams sich überanpassen, um wieder zu spielen und das operative Verhalten zu testen.

Häufige Fehler beim Testen

Leckage: Zufällig werden zukünftige Felder in den Kontext aufgenommen.
Schnell abwehren: Backtesting mit einer Anforderung und Live-Handel mit einer anderen.
Keine Regime-Segmentierung: Durchschnittliche Ergebnisse in sehr unterschiedlichen Volatilitätszuständen.
Keine Wiederholung der Politik: Alle Modell-Ausgänge als handelbar zu behandeln.

Praktische Warnung: Die Ergebnisse der Untersuchung zeigen, dass die Produktion von Produkten mit hoher Trefferrate und geringer Schema-Stabilität nicht in Produktion gerüstet ist.

Wie dies die Zuverlässigkeit des Live-Handels verbessert

Agent-Logik-Backtesting verbessert die Zuverlässigkeit auf eine Weise, wie klassische Backtests es nicht können:

Finden Sie Ausfallcluster rund um Zentralbanktage, von der Die Federal Reserve - Ich bin nicht ... Bank of England- Ich weiß .
Er zeigt, welche Fehler prompt- oder policybezogen sind.
Unterstützt sichere Modellupgrades, da Sie das Entscheidungverhalten zwischen Versionen vor der Bereitstellung vergleichen können.
Erstellt eine wiederverwendbare Prüfspur für jeden angenommenen oder abgelehnten Handelskandidaten.

Wenn Sie PnL bereits verfolgen, fügt dies die fehlende Beobachtungsschicht hinzu, die verhindert, dass sich die KI-Automatisierung stillschweigend degradiert.

Schlussfolgerung

Die Backtesting-Strategie ist notwendig. Die Backteesting Agent Logik macht KI-Handelsworkflows langlebig. Die stärksten Systeme bewerten sowohl Marktvorteil als auch Entscheidungsintegrität.

Nächster Schritt: Erstellen Sie einen monatlichen Wiederholungs-Benchmark und verlangen Sie, dass jede Anforderung/Modelländerung durchläuft, bevor Sie den Live-Modus erreichen. COT und Sessionfilter von FX-Sitzungen Die Kommission hat die Kommission aufgefordert, die in den vorliegenden Berichten beschriebenen Maßnahmen zu prüfen.

Testen Sie Ihre Logik, nicht nur Ihre Strategie.

Testen Sie Ihre Logik, nicht nur Ihre Strategie.

Warum Strategie-only Backtests echte Versagen verpassen

Der vier-schichtige Agent-Backtest-Rahmen

Schicht 1: Kontextwiederholung

Schicht 2: Entscheidungserholung

Schicht 3: Simulation von Politiken

Schicht 4: Ergebniszuordnung

Entwurf eines hochwertigen Wiederholungsdatensatzes

Wie man eine gute Begründung findet, nicht nur eine gute Anleitung

Qualität des Scoring Agents (über die Trefferrate hinaus)

Mindest-Wiederholungs-Gurt

Von den Ergebnissen der Wiederholung bis zu den Entscheidungen über den Einsatz

Häufige Fehler beim Testen

Wie dies die Zuverlässigkeit des Live-Handels verbessert

Schlussfolgerung

More Articles

Blogroll

Key Facts

Quick Q&A