Uji kembali logika agenmu, bukan hanya strategi

Penulis: Tim FXMacroData
Diterbitkan: 21 Mei 2026

Sebagian besar tim perdagangan AI masih melakukan backtest hanya satu lapisan: sinyal ke PnL. Itu melewatkan komponen berisiko tinggi dalam sistem modern, agen itu sendiri. Jika model Anda salah membaca cetak makro, menyimpang dari skema, atau melanggar kebijakan di bawah tekanan, strategi yang baik masih dapat menghasilkan perdagangan yang buruk.

Dalam FX, ini paling penting di sekitar jendela yang berat pada pasangan seperti USD/JPY Dan EUR/USDAku tidak tahu.

Ide utama: Sebuah backtest strategi bertanya "Apakah aturan ini akan menghasilkan uang?" Agen backtesting bertanya "Apa AI ini akan membuat keputusan yang sama aman berulang kali dalam kondisi yang realistis?"

Mengapa Backtest Strategi-Hanya Melewatkan Mode Kegagalan Nyata

Ketika Anda hanya mengevaluasi PnL, Anda menyembunyikan tiga kelas kegagalan kritis:

Kesalahan interpretasi: Model salah membaca rilis seperti NFP dan membangun tesis di arah yang salah.
Kesalahan kontrak: output melanggar skema Anda selama periode volatilitas tinggi.
Pengelompokan kebijakan risiko: model merekomendasikan oversizing atau mengabaikan kriteria invalidasi.

Masalah ini sering muncul sebelum degradasi PnL menjadi jelas.

Kerangka kerja pengujian balik agen empat lapisan

Lapisan 1: Konteks Mainkan Kembali

Rekonstruksi setiap timestamp seperti model akan melihat itu dalam waktu nyata. Kalender rilisAku tidak tahu.

curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR&quote=USD&api_key=YOUR_API_KEY"

Lapisan 2: Pemutaran Kembali Keputusan

Jalankan agen pada setiap konteks dengan permintaan produksi yang tepat dan kendala. Simpan output mentah ditambah output yang dianalisis sehingga Anda dapat memverifikasi kedua penalaran dan struktur.

{
  "pair": "EUR/USD",
  "action": "long|short|flat",
  "confidence": 0.0,
  "thesis": "string",
  "invalidation": "string",
  "size_pct": 0.0
}

Lapisan 3: Simulasi Kebijakan

Ulangi aturan penjaga gerbang yang sama yang Anda gunakan secara langsung: risiko maksimum, penguncian jendela acara, tingkat kepercayaan, dan kendala konsentrasi.

Lapisan 4: Atribusi Hasil

Bucket hasil terpisah:

Tesis yang benar, kepatuhan kebijakan yang baik, menguntungkan.
Tesis yang benar, kualitas eksekusi yang buruk.
Tesis yang salah, kebijakan seharusnya memblokir.
Kegagalan skema atau proses independen dari arah pasar.

Ini memberi tahu Anda apakah perlu memperbaiki petunjuk, kebijakan, atau pipa eksekusi.

Merancang Dataset Replay Berkualitas Tinggi

Sebagian besar saluran pemutaran ulang gagal karena dataset terlalu bersih atau terlalu sempit.

Pembagian praktis:

40% sesi normal: campuran bervolume rendah, mengikuti tren dan berkisar.
35% jendela acara: pelepasan dampak tinggi seperti PCE inti dan hari-hari suku bunga kebijakan.
25% jendela stres: hari-hari risiko yang luas dengan spread dan latensi kebisingan yang sangat tinggi.

Untuk setiap time stamp, menangkap hanya apa yang diketahui saat itu. yang termasuk jadwal rilis konteks dari kalender, jalur spot saat ini, dan setiap konteks kebijakan dari arsip komunikasi bank sentral.

Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome

Hashing konten konten membantu mendeteksi bocoran data masa depan yang tidak disengaja selama refaktor.

Bagaimana Menghargai Penalaran, Bukan Hanya Arahan

Penentuan nilai hanya dengan arah menyembunyikan degradasi penting. tambahkan rubrik penalaran sederhana yang dihitung dengan pemeriksaan deterministik ditambah audit manusia ringan:

Kebenarannya: Apakah tesis referensi yang tepat macro driver?
Kesadaran tentang kendala: Apakah rekomendasi mencerminkan aturan risiko?
Kalibrasi ketidakpastian: Apakah kepercayaan sesuai dengan kualitas konteks?
Disiplin tindakan: Apakah model memilih flat ketika bukti lemah?

Lacak ini sebagai ReasoningConsistency jadi Anda dapat membandingkan model dan perintah di luar PnL.

Pola yang berguna: menyimpan satu set penilaian kecil (50-100 contoh) yang ditinjau oleh manusia setiap bulan.

Kualitas agen pencitraan (Lebih dari hit rate)

Sebuah scorecard yang kuat harus melacak setidaknya metrik ini:

Tingkat lulus skema: persen output yang dianalisis dengan bersih.
Tingkat kepatuhan kebijakan: persen output yang memenuhi batasan keras.
Konsistensi penalaran: seberapa sering tesis selaras dengan konteks yang diberikan.
Distribusi latensi: p50/p95 waktu keputusan dalam kondisi pipa yang realistis.
Stabilitas rezim: skor drift di seluruh tren, rentang-terbatas, dan jendela peristiwa-kejut.

Contoh skor tertimbang:

AgentScore = 0.30 * SchemaPass
           + 0.25 * PolicyCompliance
           + 0.20 * ReasoningConsistency
           + 0.15 * RegimeStability
           + 0.10 * LatencyScore

Jika Anda menjalankan alur kerja yang mengutamakan keamanan, tingkatkan bobot pada skema dan kepatuhan kebijakan.

Pakaian Pemutar Ulang Minimal

Gunakan pelari ulang yang mencatat setiap keputusan dan skor komponen.

from dataclasses import dataclass


@dataclass
class ReplayResult:
    ts: str
    parsed_ok: bool
    policy_ok: bool
    reasoning_ok: bool
    latency_ms: int
    pnl_r: float


def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
    raw = agent.run(ctx)
    parsed = agent.parse(raw)
    parsed_ok = parsed is not None

    if not parsed_ok:
        return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)

    gate = gatekeeper.validate(parsed, ctx)
    policy_ok = gate.allowed

    reasoning_ok = gate.reasoning_consistent
    pnl_r = gate.simulated_r if policy_ok else 0.0

    return ReplayResult(
        ts=ctx["ts"],
        parsed_ok=parsed_ok,
        policy_ok=policy_ok,
        reasoning_ok=reasoning_ok,
        latency_ms=agent.last_latency_ms,
        pnl_r=pnl_r,
    )

Kuncinya adalah pemutaran ulang deterministik: konteks input yang sama, versi prompt yang sama. Aturan validasi yang sama

Dari Hasil Pemutaran Ulang ke Keputusan Pengiriman

Jangan mempromosikan perubahan model atau prompt langsung dari metrik titik.

Gerbang 1: tingkat lulus skema tidak harus regresi.
Gerbang 2: kepatuhan kebijakan harus tetap di atas ambang batas di jendela acara.
Gerbang 3: konsistensi penalaran harus meningkat atau tetap stabil.
Gerbang 4: latency p95 harus tetap dalam anggaran operasional.

Hanya jika semua gerbang lulus Anda harus memulai mode bayangan perdagangan kertas.

Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster

Hal ini mencegah siklus klasik di mana tim overfit untuk replay dan undertest perilaku operasional.

Kesalahan Tes Umum

Kebocoran: secara tidak sengaja termasuk bidang masa depan dalam konteks.
Pergeseran cepat: backtesting dengan satu prompt dan perdagangan hidup dengan yang lain.
Tidak ada segmen rejim: rata-rata hasil di berbagai negara volatilitas yang sangat berbeda.
Tidak ada kebijakan ulang: memperlakukan semua output model sebagai yang dapat diperdagangkan.

Peringatan praktis: Rasio hit tinggi dengan stabilitas skema rendah tidak siap untuk produksi. kontrak yang rusak adalah risiko operasional, bukan kebisingan kosmetik.

Bagaimana Ini Meningkatkan Keandalan Perdagangan Langsung

Agen-logic backtesting meningkatkan keandalan dengan cara backtest klasik tidak bisa:

Menemukan cluster kegagalan di sekitar hari-hari bank sentral, dari Federal Reserve ke Bank of EnglandAku tidak tahu.
Menunjukkan kesalahan yang terkait dengan prompt versus kebijakan.
Mendukung upgrade model yang lebih aman karena Anda dapat membandingkan perilaku keputusan di berbagai versi sebelum penyebaran.
Membuat jejak audit yang dapat digunakan kembali untuk setiap kandidat perdagangan yang diterima atau ditolak.

Jika Anda sudah melacak PnL, ini menambahkan lapisan pengamatan yang hilang yang mencegah otomatisasi AI terdegradasi dengan diam-diam.

Kesimpulan

Backtesting strategi logika diperlukan. Backtasting logika agen adalah apa yang membuat alur kerja perdagangan AI tahan lama. Sistem terkuat mengevaluasi kedua: tepi pasar dan integritas keputusan.

Langkah selanjutnya: buatlah benchmark replay bulanan dan minta setiap prompt/model perubahan untuk lulus sebelum mencapai mode live. COT dan filter sesi dari Sesi FX untuk perilaku tes stres di bawah kondisi pasar yang berbeda.

Uji kembali logika agenmu, bukan hanya strategi

Uji kembali logika agenmu, bukan hanya strategi

Mengapa Backtest Strategi-Hanya Melewatkan Mode Kegagalan Nyata

Kerangka kerja pengujian balik agen empat lapisan

Lapisan 1: Konteks Mainkan Kembali

Lapisan 2: Pemutaran Kembali Keputusan

Lapisan 3: Simulasi Kebijakan

Lapisan 4: Atribusi Hasil

Merancang Dataset Replay Berkualitas Tinggi

Bagaimana Menghargai Penalaran, Bukan Hanya Arahan

Kualitas agen pencitraan (Lebih dari hit rate)

Pakaian Pemutar Ulang Minimal

Dari Hasil Pemutaran Ulang ke Keputusan Pengiriman

Kesalahan Tes Umum

Bagaimana Ini Meningkatkan Keandalan Perdagangan Langsung

Kesimpulan

More Articles

Blogroll

Key Facts

Quick Q&A