अपनी एजेंट लॉजिक का बैकटेस्ट करें, न कि सिर्फ अपनी रणनीति
लेखक: FXMacroData टीम
प्रकाशित: 21 मई, 2026
अधिकांश एआई ट्रेडिंग टीम अभी भी केवल एक परत का बैकटेस्ट करती हैंः सिग्नल-टू-पीएनएल। यह आधुनिक प्रणालियों में उच्चतम जोखिम वाले घटक, एजेंट को याद करती है। यदि आपका मॉडल मैक्रो प्रिंट को गलत पढ़ता है, स्कीमा से विचलित होता है, या दबाव में नीति का उल्लंघन करता है, तो एक अच्छी रणनीति अभी भी खराब ट्रेडों का उत्पादन कर सकती है।
एजेंट लॉजिक बैकटेस्टिंग इसे ऐतिहासिक संदर्भों को फिर से खेलकर और किसी भी आदेश को अपने ब्रोकर तक पहुंचने से पहले निर्णय की गुणवत्ता को स्कोर करके हल करता है। एफएक्स में यह सबसे अधिक जोड़े पर घटना-भारी खिड़कियों के आसपास मायने रखता है जैसे कि USD/JPY और EUR/USD.
क्यों रणनीति-केवल बैकटेस्ट वास्तविक विफलता मोड को याद करते हैं
जब आप केवल पीएनएल का मूल्यांकन करते हैं, तो आप तीन महत्वपूर्ण विफलता वर्गों को छिपाते हैंः
- व्याख्या की त्रुटियाँः मॉडल गलत रीडिंग करता है जैसे कि एनपीएफ और गलत दिशा में एक थीसिस का निर्माण करता है।
- अनुबंध में त्रुटियाँ: उच्च अस्थिरता की अवधि के दौरान आउटपुट आपकी योजना को तोड़ता है।
- जोखिम नीति बायपासः मॉडल में ओवरसाइजिंग की सिफारिश की गई है या अमान्य करने के मानदंडों को नजरअंदाज किया गया है।
ये समस्याएं अक्सर PnL गिरावट स्पष्ट होने से पहले दिखाई देती हैं। एजेंट-स्तर बैकटेस्टिंग उन्हें पहले पकड़ती है।
चार-स्तर एजेंट बैकटेस्ट फ्रेमवर्क
परत 1: संदर्भ पुनः प्रदर्शन
प्रत्येक समय के स्टैम्प को वास्तविक समय में मॉडल के रूप में पुनर्निर्माण करें। केवल निर्णय समय तक उपलब्ध डेटा को FXMacroData एंडपॉइंट्स और कैलेंडर स्नैपशॉट से निकालें। रिलीज कैलेंडर.
curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR"e=USD&api_key=YOUR_API_KEY"
परत 2: निर्णय पुनरावृत्ति
प्रत्येक संदर्भ पर एजेंट को सटीक उत्पादन संकेत और बाधाओं के साथ चलाएं. कच्चे आउटपुट और पार्स आउटपुट को स्टोर करें ताकि आप तर्क और संरचना दोनों का ऑडिट कर सकें.
{
"pair": "EUR/USD",
"action": "long|short|flat",
"confidence": 0.0,
"thesis": "string",
"invalidation": "string",
"size_pct": 0.0
}
परत 3: नीति अनुकरण
वही गेटकीपर नियम दोहराएं जो आप लाइव उपयोग करते हैंः अधिकतम जोखिम, घटना-विंडो लॉकआउट, विश्वास की सतह, और एकाग्रता प्रतिबंध।
परत 4: परिणाम श्रेय
अलग-अलग परिणाम बकेट:
- सही थीसिस, अच्छी नीति अनुपालन, लाभदायक।
- सही थीसिस, खराब निष्पादन गुणवत्ता।
- गलत थीसिस, नीति को अवरुद्ध करना चाहिए था।
- बाजार की दिशा से स्वतंत्र रूप से योजना या प्रक्रिया की विफलता।
यह आपको बताता है कि क्या संकेतों, नीतियों या निष्पादन नलसाजी में सुधार करना है।
उच्च गुणवत्ता वाले रिप्ले डेटासेट को डिजाइन करना
अधिकांश पुनरावृत्ति पाइपलाइन विफल हो जाते हैं क्योंकि डेटासेट बहुत साफ या बहुत संकीर्ण है। मिश्रित शासन से अपना डेटासेट बनाएं, न कि केवल हाल के महीनों से।
एक व्यावहारिक विभाजनः
- 40% सामान्य सत्रः कम मात्रा वाले, प्रवृत्ति के अनुरूप और सीमाबद्ध मिश्रण।
- 35% घटनाओं के खिड़कियांः उच्च प्रभाव वाले उत्सर्जन जैसे कोर पीसीई और पॉलिसी दर के दिन।
- 25% तनाव खिड़कियांः असामान्य रूप से उच्च प्रसार और विलंबता शोर के साथ व्यापक जोखिम-बंद दिन।
प्रत्येक समय के लिए, केवल उस समय ज्ञात है जो कब्जा. कि कैलेंडर से रिलीज कार्यक्रम संदर्भ, वर्तमान स्पॉट पथ, और केंद्रीय बैंक संचार अभिलेखागार से किसी भी नीति संदर्भ शामिल है.
Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome
संदर्भ पेलोड को हैश करने से रेफैक्टर के दौरान आकस्मिक भविष्य के डेटा लीक का पता लगाने में मदद मिलती है।
सिर्फ निर्देश नहीं बल्कि तर्क का मूल्यांकन कैसे करें
केवल दिशा-निर्देश स्कोरिंग महत्वपूर्ण गिरावट को छिपाता है। निर्धारक जांच और हल्के मानव ऑडिट द्वारा स्कोर किए गए एक सरल तर्क अनुभाग जोड़ेंः
- कारणात्मक शुद्धता: क्या थीसिस सही मैक्रो ड्राइवर का संदर्भ देती है?
- बाधाओं के प्रति जागरूकता: क्या सिफारिश जोखिम नियमों को दर्शाती है?
- अनिश्चितता कैलिब्रेशनः क्या आत्मविश्वास संदर्भ की गुणवत्ता से मेल खाता है?
- कार्य अनुशासन: क्या मॉडल चुनता है?
flatजब सबूत कमजोर हों?
इस के रूप में ट्रैक ReasoningConsistency तो आप PnL से परे मॉडल और संकेतों की तुलना कर सकते हैं.
स्कोरिंग एजेंट की गुणवत्ता (हिट दर से परे)
एक मजबूत स्कोरकार्ड में कम से कम इन मापदंडों का पालन करना चाहिए:
- स्कीमा पास दर: प्रतिशत आउटपुट जो साफ पार्स.
- नीति अनुपालन दर: सख्त बाधाओं को पूरा करने वाले आउटपुट का प्रतिशत।
- तर्कसंगतता: कितनी बार थीसिस प्रदान किए गए संदर्भ के साथ संरेखित होती है।
- विलंबता वितरणः p50/p95 वास्तविक पाइपलाइन स्थितियों में निर्णय समय।
- शासन स्थिरता: स्कोर ट्रेंडिंग, रेंज-बाउंड और इवेंट-शॉक विंडो में ढल जाता है।
उदाहरण भारित स्कोरः
AgentScore = 0.30 * SchemaPass
+ 0.25 * PolicyCompliance
+ 0.20 * ReasoningConsistency
+ 0.15 * RegimeStability
+ 0.10 * LatencyScore
यदि आप सुरक्षा-प्रथम कार्यप्रवाह चलाते हैं, तो स्कीमा और नीति अनुपालन पर भार बढ़ाएं. यदि आप घटना गति कार्यप्रवास चलाते है, तो विलंबता और घटना-विंडो व्यवहार पर भार बढ़ाना.
न्यूनतम पुनः खेल बैंड
एक रिप्ले रनर का प्रयोग करें जो प्रत्येक निर्णय और स्कोर घटक को लॉग करता है।
from dataclasses import dataclass
@dataclass
class ReplayResult:
ts: str
parsed_ok: bool
policy_ok: bool
reasoning_ok: bool
latency_ms: int
pnl_r: float
def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
raw = agent.run(ctx)
parsed = agent.parse(raw)
parsed_ok = parsed is not None
if not parsed_ok:
return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)
gate = gatekeeper.validate(parsed, ctx)
policy_ok = gate.allowed
reasoning_ok = gate.reasoning_consistent
pnl_r = gate.simulated_r if policy_ok else 0.0
return ReplayResult(
ts=ctx["ts"],
parsed_ok=parsed_ok,
policy_ok=policy_ok,
reasoning_ok=reasoning_ok,
latency_ms=agent.last_latency_ms,
pnl_r=pnl_r,
)
कुंजी निर्धारक पुनरावृत्ति हैः एक ही इनपुट संदर्भ, एक ही शीघ्र संस्करण, एक समान सत्यापन नियम।
पुनरावृत्ति के परिणामों से लेकर तैनाती के निर्णय तक
मॉडल या प्रॉम्प्ट परिवर्तनों को सीधे बिंदु मीट्रिक से बढ़ावा न दें। स्पष्ट तैनाती गेट का उपयोग करें:
- गेट 1: स्कीमा पास दर में कोई गिरावट नहीं होनी चाहिए।
- गेट 2: नीति अनुपालन को घटनाओं के समय सीमा से ऊपर रहना चाहिए।
- गेट 3: तर्क की स्थिरता में सुधार या स्थिरता बनी रहे।
- गेट 4: विलंबता पी 95 को परिचालन बजट के भीतर रहना चाहिए।
केवल अगर सभी गेट पास हो जाएं तो आपको कागज-व्यापार छाया मोड शुरू करना चाहिए। फिर लाइव तैनाती से पहले न्यूनतम छाया नमूना आकार की आवश्यकता होती है।
Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster
यह क्लासिक चक्र को रोकता है जहां टीमों को पुनः खेलने के लिए ओवरफिट और ऑपरेशनल व्यवहार का परीक्षण करना पड़ता है।
परीक्षण में आम गलतियाँ
- रिसावः गलती से संदर्भ में भविष्य के क्षेत्रों को शामिल.
- शीघ्र बहाव: एक संकेत के साथ बैकटेस्टिंग और दूसरे के साथ लाइव ट्रेडिंग।
- कोई रेजिमेंट सेगमेंटेशन नहींः बहुत भिन्न अस्थिरता स्थितियों में परिणामों का औसत।
- कोई नीति पुनरावृत्ति नहींः सभी मॉडल आउटपुट को ट्रेडेबल माना जाता है।
यह कैसे लाइव ट्रेडिंग विश्वसनीयता में सुधार करता है
एजेंट-लॉजिक बैकटेस्टिंग क्लासिक बैकटेस्टर के तरीके से विश्वसनीयता में सुधार करता है:
- केंद्रीय बैंक के दिनों के आसपास विफलता समूहों को ढूंढता है, फेडरल रिजर्व के लिए बैंक ऑफ इंग्लैंड.
- यह पता चलता है कि कौन सी त्रुटियां नीति से संबंधित हैं या शीघ्रता से संबंधित।
- सुरक्षित मॉडल उन्नयन का समर्थन करता है क्योंकि आप तैनाती से पहले संस्करणों के बीच निर्णय व्यवहार की तुलना कर सकते हैं.
- प्रत्येक स्वीकृत या अस्वीकृत व्यापार उम्मीदवार के लिए पुनः प्रयोज्य लेखा परीक्षा ट्रेल बनाता है।
यदि आप पहले से ही पीएनएल ट्रैक करते हैं, तो यह गायब अवलोकनशीलता परत जोड़ता है जो एआई स्वचालन को चुपचाप गिरावट से रोकता है।
निष्कर्ष
बैकटेस्टिंग रणनीति तर्क आवश्यक है। बैकटेस्टींग एजेंट तर्क वह है जो एआई ट्रेडिंग वर्कफ़्लो को टिकाऊ बनाता है। सबसे मजबूत सिस्टम दोनों का मूल्यांकन करते हैंः बाजार बढ़त और निर्णय अखंडता।
अगला चरणः एक मासिक रीप्ले बेंचमार्क बनाएं और लाइव मोड तक पहुंचने से पहले इसे पारित करने के लिए प्रत्येक संकेत / मॉडल परिवर्तन की आवश्यकता है। सीओटी और सत्र फ़िल्टर से विदेशी मुद्रा सत्र विभिन्न बाजार स्थितियों में तनाव परीक्षण व्यवहार के लिए।