अपनी एजेंट लॉजिक का बैकटेस्ट करें, न कि सिर्फ अपनी रणनीति

लेखक: FXMacroData टीम
प्रकाशित: 21 मई, 2026

अधिकांश एआई ट्रेडिंग टीम अभी भी केवल एक परत का बैकटेस्ट करती हैंः सिग्नल-टू-पीएनएल। यह आधुनिक प्रणालियों में उच्चतम जोखिम वाले घटक, एजेंट को याद करती है। यदि आपका मॉडल मैक्रो प्रिंट को गलत पढ़ता है, स्कीमा से विचलित होता है, या दबाव में नीति का उल्लंघन करता है, तो एक अच्छी रणनीति अभी भी खराब ट्रेडों का उत्पादन कर सकती है।

एजेंट लॉजिक बैकटेस्टिंग इसे ऐतिहासिक संदर्भों को फिर से खेलकर और किसी भी आदेश को अपने ब्रोकर तक पहुंचने से पहले निर्णय की गुणवत्ता को स्कोर करके हल करता है। एफएक्स में यह सबसे अधिक जोड़े पर घटना-भारी खिड़कियों के आसपास मायने रखता है जैसे कि USD/JPY और EUR/USD.

मुख्य विचार: एक रणनीति बैकटेस्ट पूछता है "क्या इस नियम ने पैसा कमाया होगा?" एजेंट बैकटेस्टींग पूछता हैः "क्या यह एआई यथार्थवादी परिस्थितियों में एक ही सुरक्षित निर्णय बार-बार लेता है?

क्यों रणनीति-केवल बैकटेस्ट वास्तविक विफलता मोड को याद करते हैं

जब आप केवल पीएनएल का मूल्यांकन करते हैं, तो आप तीन महत्वपूर्ण विफलता वर्गों को छिपाते हैंः

व्याख्या की त्रुटियाँः मॉडल गलत रीडिंग करता है जैसे कि एनपीएफ और गलत दिशा में एक थीसिस का निर्माण करता है।
अनुबंध में त्रुटियाँ: उच्च अस्थिरता की अवधि के दौरान आउटपुट आपकी योजना को तोड़ता है।
जोखिम नीति बायपासः मॉडल में ओवरसाइजिंग की सिफारिश की गई है या अमान्य करने के मानदंडों को नजरअंदाज किया गया है।

ये समस्याएं अक्सर PnL गिरावट स्पष्ट होने से पहले दिखाई देती हैं। एजेंट-स्तर बैकटेस्टिंग उन्हें पहले पकड़ती है।

चार-स्तर एजेंट बैकटेस्ट फ्रेमवर्क

परत 1: संदर्भ पुनः प्रदर्शन

प्रत्येक समय के स्टैम्प को वास्तविक समय में मॉडल के रूप में पुनर्निर्माण करें। केवल निर्णय समय तक उपलब्ध डेटा को FXMacroData एंडपॉइंट्स और कैलेंडर स्नैपशॉट से निकालें। रिलीज कैलेंडर.

curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR&quote=USD&api_key=YOUR_API_KEY"

परत 2: निर्णय पुनरावृत्ति

प्रत्येक संदर्भ पर एजेंट को सटीक उत्पादन संकेत और बाधाओं के साथ चलाएं. कच्चे आउटपुट और पार्स आउटपुट को स्टोर करें ताकि आप तर्क और संरचना दोनों का ऑडिट कर सकें.

{
  "pair": "EUR/USD",
  "action": "long|short|flat",
  "confidence": 0.0,
  "thesis": "string",
  "invalidation": "string",
  "size_pct": 0.0
}

परत 3: नीति अनुकरण

वही गेटकीपर नियम दोहराएं जो आप लाइव उपयोग करते हैंः अधिकतम जोखिम, घटना-विंडो लॉकआउट, विश्वास की सतह, और एकाग्रता प्रतिबंध।

परत 4: परिणाम श्रेय

अलग-अलग परिणाम बकेट:

सही थीसिस, अच्छी नीति अनुपालन, लाभदायक।
सही थीसिस, खराब निष्पादन गुणवत्ता।
गलत थीसिस, नीति को अवरुद्ध करना चाहिए था।
बाजार की दिशा से स्वतंत्र रूप से योजना या प्रक्रिया की विफलता।

यह आपको बताता है कि क्या संकेतों, नीतियों या निष्पादन नलसाजी में सुधार करना है।

उच्च गुणवत्ता वाले रिप्ले डेटासेट को डिजाइन करना

अधिकांश पुनरावृत्ति पाइपलाइन विफल हो जाते हैं क्योंकि डेटासेट बहुत साफ या बहुत संकीर्ण है। मिश्रित शासन से अपना डेटासेट बनाएं, न कि केवल हाल के महीनों से।

एक व्यावहारिक विभाजनः

40% सामान्य सत्रः कम मात्रा वाले, प्रवृत्ति के अनुरूप और सीमाबद्ध मिश्रण।
35% घटनाओं के खिड़कियांः उच्च प्रभाव वाले उत्सर्जन जैसे कोर पीसीई और पॉलिसी दर के दिन।
25% तनाव खिड़कियांः असामान्य रूप से उच्च प्रसार और विलंबता शोर के साथ व्यापक जोखिम-बंद दिन।

प्रत्येक समय के लिए, केवल उस समय ज्ञात है जो कब्जा. कि कैलेंडर से रिलीज कार्यक्रम संदर्भ, वर्तमान स्पॉट पथ, और केंद्रीय बैंक संचार अभिलेखागार से किसी भी नीति संदर्भ शामिल है.

Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome

संदर्भ पेलोड को हैश करने से रेफैक्टर के दौरान आकस्मिक भविष्य के डेटा लीक का पता लगाने में मदद मिलती है।

सिर्फ निर्देश नहीं बल्कि तर्क का मूल्यांकन कैसे करें

केवल दिशा-निर्देश स्कोरिंग महत्वपूर्ण गिरावट को छिपाता है। निर्धारक जांच और हल्के मानव ऑडिट द्वारा स्कोर किए गए एक सरल तर्क अनुभाग जोड़ेंः

कारणात्मक शुद्धता: क्या थीसिस सही मैक्रो ड्राइवर का संदर्भ देती है?
बाधाओं के प्रति जागरूकता: क्या सिफारिश जोखिम नियमों को दर्शाती है?
अनिश्चितता कैलिब्रेशनः क्या आत्मविश्वास संदर्भ की गुणवत्ता से मेल खाता है?
कार्य अनुशासन: क्या मॉडल चुनता है? flat जब सबूत कमजोर हों?

इस के रूप में ट्रैक ReasoningConsistency तो आप PnL से परे मॉडल और संकेतों की तुलना कर सकते हैं.

उपयोगी पैटर्नः एक छोटा निर्णय सेट (50-100 उदाहरण) बनाए रखें जिसे मनुष्यों द्वारा मासिक रूप से समीक्षा की जाती है। इसे स्वचालित मीट्रिक्स के लिए गुणवत्ता लंगर के रूप में उपयोग करें।

स्कोरिंग एजेंट की गुणवत्ता (हिट दर से परे)

एक मजबूत स्कोरकार्ड में कम से कम इन मापदंडों का पालन करना चाहिए:

स्कीमा पास दर: प्रतिशत आउटपुट जो साफ पार्स.
नीति अनुपालन दर: सख्त बाधाओं को पूरा करने वाले आउटपुट का प्रतिशत।
तर्कसंगतता: कितनी बार थीसिस प्रदान किए गए संदर्भ के साथ संरेखित होती है।
विलंबता वितरणः p50/p95 वास्तविक पाइपलाइन स्थितियों में निर्णय समय।
शासन स्थिरता: स्कोर ट्रेंडिंग, रेंज-बाउंड और इवेंट-शॉक विंडो में ढल जाता है।

उदाहरण भारित स्कोरः

AgentScore = 0.30 * SchemaPass
           + 0.25 * PolicyCompliance
           + 0.20 * ReasoningConsistency
           + 0.15 * RegimeStability
           + 0.10 * LatencyScore

यदि आप सुरक्षा-प्रथम कार्यप्रवाह चलाते हैं, तो स्कीमा और नीति अनुपालन पर भार बढ़ाएं. यदि आप घटना गति कार्यप्रवास चलाते है, तो विलंबता और घटना-विंडो व्यवहार पर भार बढ़ाना.

न्यूनतम पुनः खेल बैंड

एक रिप्ले रनर का प्रयोग करें जो प्रत्येक निर्णय और स्कोर घटक को लॉग करता है।

from dataclasses import dataclass


@dataclass
class ReplayResult:
    ts: str
    parsed_ok: bool
    policy_ok: bool
    reasoning_ok: bool
    latency_ms: int
    pnl_r: float


def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
    raw = agent.run(ctx)
    parsed = agent.parse(raw)
    parsed_ok = parsed is not None

    if not parsed_ok:
        return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)

    gate = gatekeeper.validate(parsed, ctx)
    policy_ok = gate.allowed

    reasoning_ok = gate.reasoning_consistent
    pnl_r = gate.simulated_r if policy_ok else 0.0

    return ReplayResult(
        ts=ctx["ts"],
        parsed_ok=parsed_ok,
        policy_ok=policy_ok,
        reasoning_ok=reasoning_ok,
        latency_ms=agent.last_latency_ms,
        pnl_r=pnl_r,
    )

कुंजी निर्धारक पुनरावृत्ति हैः एक ही इनपुट संदर्भ, एक ही शीघ्र संस्करण, एक समान सत्यापन नियम।

पुनरावृत्ति के परिणामों से लेकर तैनाती के निर्णय तक

मॉडल या प्रॉम्प्ट परिवर्तनों को सीधे बिंदु मीट्रिक से बढ़ावा न दें। स्पष्ट तैनाती गेट का उपयोग करें:

गेट 1: स्कीमा पास दर में कोई गिरावट नहीं होनी चाहिए।
गेट 2: नीति अनुपालन को घटनाओं के समय सीमा से ऊपर रहना चाहिए।
गेट 3: तर्क की स्थिरता में सुधार या स्थिरता बनी रहे।
गेट 4: विलंबता पी 95 को परिचालन बजट के भीतर रहना चाहिए।

केवल अगर सभी गेट पास हो जाएं तो आपको कागज-व्यापार छाया मोड शुरू करना चाहिए। फिर लाइव तैनाती से पहले न्यूनतम छाया नमूना आकार की आवश्यकता होती है।

Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster

यह क्लासिक चक्र को रोकता है जहां टीमों को पुनः खेलने के लिए ओवरफिट और ऑपरेशनल व्यवहार का परीक्षण करना पड़ता है।

परीक्षण में आम गलतियाँ

रिसावः गलती से संदर्भ में भविष्य के क्षेत्रों को शामिल.
शीघ्र बहाव: एक संकेत के साथ बैकटेस्टिंग और दूसरे के साथ लाइव ट्रेडिंग।
कोई रेजिमेंट सेगमेंटेशन नहींः बहुत भिन्न अस्थिरता स्थितियों में परिणामों का औसत।
कोई नीति पुनरावृत्ति नहींः सभी मॉडल आउटपुट को ट्रेडेबल माना जाता है।

व्यावहारिक चेतावनीः उच्च हिट दर के साथ कम स्कीमा स्थिरता उत्पादन के लिए तैयार नहीं है। टूटे हुए अनुबंध परिचालन जोखिम हैं, कॉस्मेटिक शोर नहीं।

यह कैसे लाइव ट्रेडिंग विश्वसनीयता में सुधार करता है

एजेंट-लॉजिक बैकटेस्टिंग क्लासिक बैकटेस्टर के तरीके से विश्वसनीयता में सुधार करता है:

केंद्रीय बैंक के दिनों के आसपास विफलता समूहों को ढूंढता है, फेडरल रिजर्व के लिए बैंक ऑफ इंग्लैंड.
यह पता चलता है कि कौन सी त्रुटियां नीति से संबंधित हैं या शीघ्रता से संबंधित।
सुरक्षित मॉडल उन्नयन का समर्थन करता है क्योंकि आप तैनाती से पहले संस्करणों के बीच निर्णय व्यवहार की तुलना कर सकते हैं.
प्रत्येक स्वीकृत या अस्वीकृत व्यापार उम्मीदवार के लिए पुनः प्रयोज्य लेखा परीक्षा ट्रेल बनाता है।

यदि आप पहले से ही पीएनएल ट्रैक करते हैं, तो यह गायब अवलोकनशीलता परत जोड़ता है जो एआई स्वचालन को चुपचाप गिरावट से रोकता है।

निष्कर्ष

बैकटेस्टिंग रणनीति तर्क आवश्यक है। बैकटेस्टींग एजेंट तर्क वह है जो एआई ट्रेडिंग वर्कफ़्लो को टिकाऊ बनाता है। सबसे मजबूत सिस्टम दोनों का मूल्यांकन करते हैंः बाजार बढ़त और निर्णय अखंडता।

अगला चरणः एक मासिक रीप्ले बेंचमार्क बनाएं और लाइव मोड तक पहुंचने से पहले इसे पारित करने के लिए प्रत्येक संकेत / मॉडल परिवर्तन की आवश्यकता है। सीओटी और सत्र फ़िल्टर से विदेशी मुद्रा सत्र विभिन्न बाजार स्थितियों में तनाव परीक्षण व्यवहार के लिए।

Backtest Your Agent Logic Not Just Your Strategy