Live release feed
Sub-second macro releases for FX backtests
Point-in-time history
Official CPI, jobs, GDP, and central-bank events with point-in-time history.
USD 25/month 14-day free trial
Start Free Trial
Backtest Your Agent Logic Not Just Your Strategy image
Share headline card X LinkedIn Email
Download

Reference

Macro Education

Backtest Your Agent Logic Not Just Your Strategy

पारंपरिक बैकटेस्ट एआई ट्रेडिंग सिस्टम में एक महत्वपूर्ण परत को याद करते हैंः एजेंट निर्णय प्रक्रिया स्वयं। जानें कि लाइव स्वचालन पर भरोसा करने से पहले ऐतिहासिक मैक्रो संदर्भ को कैसे दोहराएं और तर्क गुणवत्ता, स्कीमा स्थिरता और जोखिम नीति अनुपालन को स्कोर करें।

इसमें भी उपलब्ध है English
Share article X LinkedIn Email

अपनी एजेंट लॉजिक का बैकटेस्ट करें, न कि सिर्फ अपनी रणनीति

लेखक: FXMacroData टीम
प्रकाशित: 21 मई, 2026

अधिकांश एआई ट्रेडिंग टीम अभी भी केवल एक परत का बैकटेस्ट करती हैंः सिग्नल-टू-पीएनएल। यह आधुनिक प्रणालियों में उच्चतम जोखिम वाले घटक, एजेंट को याद करती है। यदि आपका मॉडल मैक्रो प्रिंट को गलत पढ़ता है, स्कीमा से विचलित होता है, या दबाव में नीति का उल्लंघन करता है, तो एक अच्छी रणनीति अभी भी खराब ट्रेडों का उत्पादन कर सकती है।

एजेंट लॉजिक बैकटेस्टिंग इसे ऐतिहासिक संदर्भों को फिर से खेलकर और किसी भी आदेश को अपने ब्रोकर तक पहुंचने से पहले निर्णय की गुणवत्ता को स्कोर करके हल करता है। एफएक्स में यह सबसे अधिक जोड़े पर घटना-भारी खिड़कियों के आसपास मायने रखता है जैसे कि USD/JPY और EUR/USD.

मुख्य विचार: एक रणनीति बैकटेस्ट पूछता है "क्या इस नियम ने पैसा कमाया होगा?" एजेंट बैकटेस्टींग पूछता हैः "क्या यह एआई यथार्थवादी परिस्थितियों में एक ही सुरक्षित निर्णय बार-बार लेता है?

क्यों रणनीति-केवल बैकटेस्ट वास्तविक विफलता मोड को याद करते हैं

जब आप केवल पीएनएल का मूल्यांकन करते हैं, तो आप तीन महत्वपूर्ण विफलता वर्गों को छिपाते हैंः

  • व्याख्या की त्रुटियाँः मॉडल गलत रीडिंग करता है जैसे कि एनपीएफ और गलत दिशा में एक थीसिस का निर्माण करता है।
  • अनुबंध में त्रुटियाँ: उच्च अस्थिरता की अवधि के दौरान आउटपुट आपकी योजना को तोड़ता है।
  • जोखिम नीति बायपासः मॉडल में ओवरसाइजिंग की सिफारिश की गई है या अमान्य करने के मानदंडों को नजरअंदाज किया गया है।

ये समस्याएं अक्सर PnL गिरावट स्पष्ट होने से पहले दिखाई देती हैं। एजेंट-स्तर बैकटेस्टिंग उन्हें पहले पकड़ती है।


चार-स्तर एजेंट बैकटेस्ट फ्रेमवर्क

परत 1: संदर्भ पुनः प्रदर्शन

प्रत्येक समय के स्टैम्प को वास्तविक समय में मॉडल के रूप में पुनर्निर्माण करें। केवल निर्णय समय तक उपलब्ध डेटा को FXMacroData एंडपॉइंट्स और कैलेंडर स्नैपशॉट से निकालें। रिलीज कैलेंडर.

curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR&quote=USD&api_key=YOUR_API_KEY"

परत 2: निर्णय पुनरावृत्ति

प्रत्येक संदर्भ पर एजेंट को सटीक उत्पादन संकेत और बाधाओं के साथ चलाएं. कच्चे आउटपुट और पार्स आउटपुट को स्टोर करें ताकि आप तर्क और संरचना दोनों का ऑडिट कर सकें.

{
  "pair": "EUR/USD",
  "action": "long|short|flat",
  "confidence": 0.0,
  "thesis": "string",
  "invalidation": "string",
  "size_pct": 0.0
}

परत 3: नीति अनुकरण

वही गेटकीपर नियम दोहराएं जो आप लाइव उपयोग करते हैंः अधिकतम जोखिम, घटना-विंडो लॉकआउट, विश्वास की सतह, और एकाग्रता प्रतिबंध।

परत 4: परिणाम श्रेय

अलग-अलग परिणाम बकेट:

  • सही थीसिस, अच्छी नीति अनुपालन, लाभदायक।
  • सही थीसिस, खराब निष्पादन गुणवत्ता।
  • गलत थीसिस, नीति को अवरुद्ध करना चाहिए था।
  • बाजार की दिशा से स्वतंत्र रूप से योजना या प्रक्रिया की विफलता।

यह आपको बताता है कि क्या संकेतों, नीतियों या निष्पादन नलसाजी में सुधार करना है।


उच्च गुणवत्ता वाले रिप्ले डेटासेट को डिजाइन करना

अधिकांश पुनरावृत्ति पाइपलाइन विफल हो जाते हैं क्योंकि डेटासेट बहुत साफ या बहुत संकीर्ण है। मिश्रित शासन से अपना डेटासेट बनाएं, न कि केवल हाल के महीनों से।

एक व्यावहारिक विभाजनः

  • 40% सामान्य सत्रः कम मात्रा वाले, प्रवृत्ति के अनुरूप और सीमाबद्ध मिश्रण।
  • 35% घटनाओं के खिड़कियांः उच्च प्रभाव वाले उत्सर्जन जैसे कोर पीसीई और पॉलिसी दर के दिन।
  • 25% तनाव खिड़कियांः असामान्य रूप से उच्च प्रसार और विलंबता शोर के साथ व्यापक जोखिम-बंद दिन।

प्रत्येक समय के लिए, केवल उस समय ज्ञात है जो कब्जा. कि कैलेंडर से रिलीज कार्यक्रम संदर्भ, वर्तमान स्पॉट पथ, और केंद्रीय बैंक संचार अभिलेखागार से किसी भी नीति संदर्भ शामिल है.

Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome

संदर्भ पेलोड को हैश करने से रेफैक्टर के दौरान आकस्मिक भविष्य के डेटा लीक का पता लगाने में मदद मिलती है।


सिर्फ निर्देश नहीं बल्कि तर्क का मूल्यांकन कैसे करें

केवल दिशा-निर्देश स्कोरिंग महत्वपूर्ण गिरावट को छिपाता है। निर्धारक जांच और हल्के मानव ऑडिट द्वारा स्कोर किए गए एक सरल तर्क अनुभाग जोड़ेंः

  1. कारणात्मक शुद्धता: क्या थीसिस सही मैक्रो ड्राइवर का संदर्भ देती है?
  2. बाधाओं के प्रति जागरूकता: क्या सिफारिश जोखिम नियमों को दर्शाती है?
  3. अनिश्चितता कैलिब्रेशनः क्या आत्मविश्वास संदर्भ की गुणवत्ता से मेल खाता है?
  4. कार्य अनुशासन: क्या मॉडल चुनता है? flat जब सबूत कमजोर हों?

इस के रूप में ट्रैक ReasoningConsistency तो आप PnL से परे मॉडल और संकेतों की तुलना कर सकते हैं.

उपयोगी पैटर्नः एक छोटा निर्णय सेट (50-100 उदाहरण) बनाए रखें जिसे मनुष्यों द्वारा मासिक रूप से समीक्षा की जाती है। इसे स्वचालित मीट्रिक्स के लिए गुणवत्ता लंगर के रूप में उपयोग करें।

स्कोरिंग एजेंट की गुणवत्ता (हिट दर से परे)

एक मजबूत स्कोरकार्ड में कम से कम इन मापदंडों का पालन करना चाहिए:

  • स्कीमा पास दर: प्रतिशत आउटपुट जो साफ पार्स.
  • नीति अनुपालन दर: सख्त बाधाओं को पूरा करने वाले आउटपुट का प्रतिशत।
  • तर्कसंगतता: कितनी बार थीसिस प्रदान किए गए संदर्भ के साथ संरेखित होती है।
  • विलंबता वितरणः p50/p95 वास्तविक पाइपलाइन स्थितियों में निर्णय समय।
  • शासन स्थिरता: स्कोर ट्रेंडिंग, रेंज-बाउंड और इवेंट-शॉक विंडो में ढल जाता है।

उदाहरण भारित स्कोरः

AgentScore = 0.30 * SchemaPass
           + 0.25 * PolicyCompliance
           + 0.20 * ReasoningConsistency
           + 0.15 * RegimeStability
           + 0.10 * LatencyScore

यदि आप सुरक्षा-प्रथम कार्यप्रवाह चलाते हैं, तो स्कीमा और नीति अनुपालन पर भार बढ़ाएं. यदि आप घटना गति कार्यप्रवास चलाते है, तो विलंबता और घटना-विंडो व्यवहार पर भार बढ़ाना.


न्यूनतम पुनः खेल बैंड

एक रिप्ले रनर का प्रयोग करें जो प्रत्येक निर्णय और स्कोर घटक को लॉग करता है।

from dataclasses import dataclass


@dataclass
class ReplayResult:
    ts: str
    parsed_ok: bool
    policy_ok: bool
    reasoning_ok: bool
    latency_ms: int
    pnl_r: float


def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
    raw = agent.run(ctx)
    parsed = agent.parse(raw)
    parsed_ok = parsed is not None

    if not parsed_ok:
        return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)

    gate = gatekeeper.validate(parsed, ctx)
    policy_ok = gate.allowed

    reasoning_ok = gate.reasoning_consistent
    pnl_r = gate.simulated_r if policy_ok else 0.0

    return ReplayResult(
        ts=ctx["ts"],
        parsed_ok=parsed_ok,
        policy_ok=policy_ok,
        reasoning_ok=reasoning_ok,
        latency_ms=agent.last_latency_ms,
        pnl_r=pnl_r,
    )

कुंजी निर्धारक पुनरावृत्ति हैः एक ही इनपुट संदर्भ, एक ही शीघ्र संस्करण, एक समान सत्यापन नियम।


पुनरावृत्ति के परिणामों से लेकर तैनाती के निर्णय तक

मॉडल या प्रॉम्प्ट परिवर्तनों को सीधे बिंदु मीट्रिक से बढ़ावा न दें। स्पष्ट तैनाती गेट का उपयोग करें:

  • गेट 1: स्कीमा पास दर में कोई गिरावट नहीं होनी चाहिए।
  • गेट 2: नीति अनुपालन को घटनाओं के समय सीमा से ऊपर रहना चाहिए।
  • गेट 3: तर्क की स्थिरता में सुधार या स्थिरता बनी रहे।
  • गेट 4: विलंबता पी 95 को परिचालन बजट के भीतर रहना चाहिए।

केवल अगर सभी गेट पास हो जाएं तो आपको कागज-व्यापार छाया मोड शुरू करना चाहिए। फिर लाइव तैनाती से पहले न्यूनतम छाया नमूना आकार की आवश्यकता होती है।

Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster

यह क्लासिक चक्र को रोकता है जहां टीमों को पुनः खेलने के लिए ओवरफिट और ऑपरेशनल व्यवहार का परीक्षण करना पड़ता है।


परीक्षण में आम गलतियाँ

  • रिसावः गलती से संदर्भ में भविष्य के क्षेत्रों को शामिल.
  • शीघ्र बहाव: एक संकेत के साथ बैकटेस्टिंग और दूसरे के साथ लाइव ट्रेडिंग।
  • कोई रेजिमेंट सेगमेंटेशन नहींः बहुत भिन्न अस्थिरता स्थितियों में परिणामों का औसत।
  • कोई नीति पुनरावृत्ति नहींः सभी मॉडल आउटपुट को ट्रेडेबल माना जाता है।
व्यावहारिक चेतावनीः उच्च हिट दर के साथ कम स्कीमा स्थिरता उत्पादन के लिए तैयार नहीं है। टूटे हुए अनुबंध परिचालन जोखिम हैं, कॉस्मेटिक शोर नहीं।

यह कैसे लाइव ट्रेडिंग विश्वसनीयता में सुधार करता है

एजेंट-लॉजिक बैकटेस्टिंग क्लासिक बैकटेस्टर के तरीके से विश्वसनीयता में सुधार करता है:

  • केंद्रीय बैंक के दिनों के आसपास विफलता समूहों को ढूंढता है, फेडरल रिजर्व के लिए बैंक ऑफ इंग्लैंड.
  • यह पता चलता है कि कौन सी त्रुटियां नीति से संबंधित हैं या शीघ्रता से संबंधित।
  • सुरक्षित मॉडल उन्नयन का समर्थन करता है क्योंकि आप तैनाती से पहले संस्करणों के बीच निर्णय व्यवहार की तुलना कर सकते हैं.
  • प्रत्येक स्वीकृत या अस्वीकृत व्यापार उम्मीदवार के लिए पुनः प्रयोज्य लेखा परीक्षा ट्रेल बनाता है।

यदि आप पहले से ही पीएनएल ट्रैक करते हैं, तो यह गायब अवलोकनशीलता परत जोड़ता है जो एआई स्वचालन को चुपचाप गिरावट से रोकता है।


निष्कर्ष

बैकटेस्टिंग रणनीति तर्क आवश्यक है। बैकटेस्टींग एजेंट तर्क वह है जो एआई ट्रेडिंग वर्कफ़्लो को टिकाऊ बनाता है। सबसे मजबूत सिस्टम दोनों का मूल्यांकन करते हैंः बाजार बढ़त और निर्णय अखंडता।

अगला चरणः एक मासिक रीप्ले बेंचमार्क बनाएं और लाइव मोड तक पहुंचने से पहले इसे पारित करने के लिए प्रत्येक संकेत / मॉडल परिवर्तन की आवश्यकता है। सीओटी और सत्र फ़िल्टर से विदेशी मुद्रा सत्र विभिन्न बाजार स्थितियों में तनाव परीक्षण व्यवहार के लिए।

Blogroll

AI Answer-Ready

Key Facts

Page
Backtest Your Agent Logic Not Just Your Strategy
Section
Articles
Canonical URL
https://fxmacrodata.com/hi/articles/backtest-your-agent-logic-not-just-your-strategy
Source
FXMacroData editorial and official publisher references
Last Updated
2026-06-15 11:01 UTC

Provenance And Trust

Cite the canonical URL and source field above. Where available, this page maps to official publisher releases and timestamped updates.

Quick Q&A

What is this page about? This page explains Backtest Your Agent Logic Not Just Your Strategy with directly usable context for trading, research, and API workflows.

What source should be cited? Use the canonical URL and the listed source field; cite official publisher references when available.

How fresh is this content? The last updated value above reflects the page metadata or latest available data timestamp.

Can this be used in AI assistants? Yes. This section is intentionally structured for retrieval and citation in chat assistants.

Prompt Packs

Use these in ChatGPT, Claude, Gemini, Mistral, Perplexity, or Grok for consistent source-aware outputs.