Uji kembali logika agenmu, bukan hanya strategi
Penulis: Tim FXMacroData
Diterbitkan: 21 Mei 2026
Sebagian besar tim perdagangan AI masih melakukan backtest hanya satu lapisan: sinyal ke PnL. Itu melewatkan komponen berisiko tinggi dalam sistem modern, agen itu sendiri. Jika model Anda salah membaca cetak makro, menyimpang dari skema, atau melanggar kebijakan di bawah tekanan, strategi yang baik masih dapat menghasilkan perdagangan yang buruk.
Dalam FX, ini paling penting di sekitar jendela yang berat pada pasangan seperti USD/JPY Dan EUR/USDAku tidak tahu.
Mengapa Backtest Strategi-Hanya Melewatkan Mode Kegagalan Nyata
Ketika Anda hanya mengevaluasi PnL, Anda menyembunyikan tiga kelas kegagalan kritis:
- Kesalahan interpretasi: Model salah membaca rilis seperti NFP dan membangun tesis di arah yang salah.
- Kesalahan kontrak: output melanggar skema Anda selama periode volatilitas tinggi.
- Pengelompokan kebijakan risiko: model merekomendasikan oversizing atau mengabaikan kriteria invalidasi.
Masalah ini sering muncul sebelum degradasi PnL menjadi jelas.
Kerangka kerja pengujian balik agen empat lapisan
Lapisan 1: Konteks Mainkan Kembali
Rekonstruksi setiap timestamp seperti model akan melihat itu dalam waktu nyata. Kalender rilisAku tidak tahu.
curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR"e=USD&api_key=YOUR_API_KEY"
Lapisan 2: Pemutaran Kembali Keputusan
Jalankan agen pada setiap konteks dengan permintaan produksi yang tepat dan kendala. Simpan output mentah ditambah output yang dianalisis sehingga Anda dapat memverifikasi kedua penalaran dan struktur.
{
"pair": "EUR/USD",
"action": "long|short|flat",
"confidence": 0.0,
"thesis": "string",
"invalidation": "string",
"size_pct": 0.0
}
Lapisan 3: Simulasi Kebijakan
Ulangi aturan penjaga gerbang yang sama yang Anda gunakan secara langsung: risiko maksimum, penguncian jendela acara, tingkat kepercayaan, dan kendala konsentrasi.
Lapisan 4: Atribusi Hasil
Bucket hasil terpisah:
- Tesis yang benar, kepatuhan kebijakan yang baik, menguntungkan.
- Tesis yang benar, kualitas eksekusi yang buruk.
- Tesis yang salah, kebijakan seharusnya memblokir.
- Kegagalan skema atau proses independen dari arah pasar.
Ini memberi tahu Anda apakah perlu memperbaiki petunjuk, kebijakan, atau pipa eksekusi.
Merancang Dataset Replay Berkualitas Tinggi
Sebagian besar saluran pemutaran ulang gagal karena dataset terlalu bersih atau terlalu sempit.
Pembagian praktis:
- 40% sesi normal: campuran bervolume rendah, mengikuti tren dan berkisar.
- 35% jendela acara: pelepasan dampak tinggi seperti PCE inti dan hari-hari suku bunga kebijakan.
- 25% jendela stres: hari-hari risiko yang luas dengan spread dan latensi kebisingan yang sangat tinggi.
Untuk setiap time stamp, menangkap hanya apa yang diketahui saat itu. yang termasuk jadwal rilis konteks dari kalender, jalur spot saat ini, dan setiap konteks kebijakan dari arsip komunikasi bank sentral.
Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome
Hashing konten konten membantu mendeteksi bocoran data masa depan yang tidak disengaja selama refaktor.
Bagaimana Menghargai Penalaran, Bukan Hanya Arahan
Penentuan nilai hanya dengan arah menyembunyikan degradasi penting. tambahkan rubrik penalaran sederhana yang dihitung dengan pemeriksaan deterministik ditambah audit manusia ringan:
- Kebenarannya: Apakah tesis referensi yang tepat macro driver?
- Kesadaran tentang kendala: Apakah rekomendasi mencerminkan aturan risiko?
- Kalibrasi ketidakpastian: Apakah kepercayaan sesuai dengan kualitas konteks?
- Disiplin tindakan: Apakah model memilih
flatketika bukti lemah?
Lacak ini sebagai ReasoningConsistency jadi Anda dapat membandingkan model dan perintah di luar PnL.
Kualitas agen pencitraan (Lebih dari hit rate)
Sebuah scorecard yang kuat harus melacak setidaknya metrik ini:
- Tingkat lulus skema: persen output yang dianalisis dengan bersih.
- Tingkat kepatuhan kebijakan: persen output yang memenuhi batasan keras.
- Konsistensi penalaran: seberapa sering tesis selaras dengan konteks yang diberikan.
- Distribusi latensi: p50/p95 waktu keputusan dalam kondisi pipa yang realistis.
- Stabilitas rezim: skor drift di seluruh tren, rentang-terbatas, dan jendela peristiwa-kejut.
Contoh skor tertimbang:
AgentScore = 0.30 * SchemaPass
+ 0.25 * PolicyCompliance
+ 0.20 * ReasoningConsistency
+ 0.15 * RegimeStability
+ 0.10 * LatencyScore
Jika Anda menjalankan alur kerja yang mengutamakan keamanan, tingkatkan bobot pada skema dan kepatuhan kebijakan.
Pakaian Pemutar Ulang Minimal
Gunakan pelari ulang yang mencatat setiap keputusan dan skor komponen.
from dataclasses import dataclass
@dataclass
class ReplayResult:
ts: str
parsed_ok: bool
policy_ok: bool
reasoning_ok: bool
latency_ms: int
pnl_r: float
def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
raw = agent.run(ctx)
parsed = agent.parse(raw)
parsed_ok = parsed is not None
if not parsed_ok:
return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)
gate = gatekeeper.validate(parsed, ctx)
policy_ok = gate.allowed
reasoning_ok = gate.reasoning_consistent
pnl_r = gate.simulated_r if policy_ok else 0.0
return ReplayResult(
ts=ctx["ts"],
parsed_ok=parsed_ok,
policy_ok=policy_ok,
reasoning_ok=reasoning_ok,
latency_ms=agent.last_latency_ms,
pnl_r=pnl_r,
)
Kuncinya adalah pemutaran ulang deterministik: konteks input yang sama, versi prompt yang sama. Aturan validasi yang sama
Dari Hasil Pemutaran Ulang ke Keputusan Pengiriman
Jangan mempromosikan perubahan model atau prompt langsung dari metrik titik.
- Gerbang 1: tingkat lulus skema tidak harus regresi.
- Gerbang 2: kepatuhan kebijakan harus tetap di atas ambang batas di jendela acara.
- Gerbang 3: konsistensi penalaran harus meningkat atau tetap stabil.
- Gerbang 4: latency p95 harus tetap dalam anggaran operasional.
Hanya jika semua gerbang lulus Anda harus memulai mode bayangan perdagangan kertas.
Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster
Hal ini mencegah siklus klasik di mana tim overfit untuk replay dan undertest perilaku operasional.
Kesalahan Tes Umum
- Kebocoran: secara tidak sengaja termasuk bidang masa depan dalam konteks.
- Pergeseran cepat: backtesting dengan satu prompt dan perdagangan hidup dengan yang lain.
- Tidak ada segmen rejim: rata-rata hasil di berbagai negara volatilitas yang sangat berbeda.
- Tidak ada kebijakan ulang: memperlakukan semua output model sebagai yang dapat diperdagangkan.
Bagaimana Ini Meningkatkan Keandalan Perdagangan Langsung
Agen-logic backtesting meningkatkan keandalan dengan cara backtest klasik tidak bisa:
- Menemukan cluster kegagalan di sekitar hari-hari bank sentral, dari Federal Reserve ke Bank of EnglandAku tidak tahu.
- Menunjukkan kesalahan yang terkait dengan prompt versus kebijakan.
- Mendukung upgrade model yang lebih aman karena Anda dapat membandingkan perilaku keputusan di berbagai versi sebelum penyebaran.
- Membuat jejak audit yang dapat digunakan kembali untuk setiap kandidat perdagangan yang diterima atau ditolak.
Jika Anda sudah melacak PnL, ini menambahkan lapisan pengamatan yang hilang yang mencegah otomatisasi AI terdegradasi dengan diam-diam.
Kesimpulan
Backtesting strategi logika diperlukan. Backtasting logika agen adalah apa yang membuat alur kerja perdagangan AI tahan lama. Sistem terkuat mengevaluasi kedua: tepi pasar dan integritas keputusan.
Langkah selanjutnya: buatlah benchmark replay bulanan dan minta setiap prompt/model perubahan untuk lulus sebelum mencapai mode live. COT dan filter sesi dari Sesi FX untuk perilaku tes stres di bawah kondisi pasar yang berbeda.