إرجع إلى منطق عميلك، ليس فقط استراتيجيتك

مؤلف: فريق FXMacroData
نشرت: 21 مايو 2026

معظم فرق التداول الذكية لا تزال تستخدم طبقة واحدة فقط: الإشارة إلى PnL. هذا يفتقد إلى أعلى عنصر خطر في الأنظمة الحديثة ، وهو الوكيل نفسه. إذا كان نموذجك يسيء قراءة طباعة كبيرة ، أو يتحرك من المخطط ، أو ينتهك السياسة تحت الضغط ، فقد تنتج استراتيجية جيدة صفقات سيئة.

يقوم اختبار الخلفية المنطقي للعميل بحل هذا الأمر من خلال إعادة تشغيل السياقات التاريخية وتحديد جودة القرار قبل وصول أي أمر إلى الوسيط الخاص بك. في الفوركس ، هذا يهم أكثر حول النوافذ الثقيلة بالأحداث على الأزواج مثل الدولار الأمريكي مقابل اليابان و اليورو/دولار. .

الفكرة الرئيسية: يطرح اختبار الخلفي للاستراتيجية السؤال "هل كانت هذه القاعدة ستجني المال؟" ويطرح الاختبار الخلافي للعميل السؤال: "هل كان هذا الذكاء الاصطناعي سيأخذ نفس القرار الآمن مرارا وتكرارا في ظل ظروف واقعية؟"

لماذا اختبارات الخلفية الاستراتيجية فقط تفوت أساليب الفشل الحقيقية

عندما تقوم بتقييم PnL فقط، يمكنك إخفاء ثلاث فئات فشل حرجة:

أخطاء تفسير: النموذج يسيء قراءة إصدار مثل الأهداف الوطنية و يبني أطروحة في الاتجاه الخاطئ
أخطاء العقد: إنتاجك يُخترق مخططك خلال فترات التقلبات العالية.
تجاوب سياسة المخاطر: النموذج يوصي بتجاوز الحجم أو يتجاهل معايير الإبطال.

هذه المشاكل غالبا ما تظهر قبل أن يصبح تدهور PnL واضحا. الاختبار الخلفي على مستوى الوكيل يكتشفها في وقت سابق.

إطار اختبار الجهاز الخلفي ذو الأربع طبقات

الطبقة 1: إعادة تشغيل السياق

إعادة بناء كل طابع زمني كما كان النموذج قد رأى في الوقت الحقيقي. سحب فقط البيانات المتاحة حتى وقت القرار من نقاط FXMacroData النهائية والصور الفورية التقويم من تقويم الإصدار. .

curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR&quote=USD&api_key=YOUR_API_KEY"

الطبقة 2: إعادة تشغيل القرار

قم بتشغيل العميل على كل سياق مع إشارة الإنتاج الدقيقة والقيود. تخزين الناتج الخام بالإضافة إلى الناتجة المفصلة حتى تتمكن من مراجعة كل من المنطق والبنية.

{
  "pair": "EUR/USD",
  "action": "long|short|flat",
  "confidence": 0.0,
  "thesis": "string",
  "invalidation": "string",
  "size_pct": 0.0
}

Layer 3: Policy Simulation

أعد تشغيل نفس قواعد حارس البوابات التي تستخدمها مباشرة: الحد الأقصى للخطر، إغلاق نافذة الأحداث، أسفل الثقة، وقيود التركيز.

الطبقة 4: إعطاء النتائج

أجزاء منفصلة من النتائج:

أطروحة صحيحة، اتباع سياسة جيدة، مربحة.
أطروحة صحيحة، جودة تنفيذ سيئة.
هذه فكرة خاطئة، كان يجب أن تُحجب السياسة
فشل المخطط أو العملية مستقل عن اتجاه السوق.

هذا يخبرك ما إذا كان يجب تحسين الإشارات أو السياسات أو أنابيب التنفيذ.

تصميم مجموعة بيانات إعادة تشغيل عالية الجودة

معظم أنابيب إعادة التشغيل تفشل لأن مجموعة البيانات نظيفة جداً أو ضيقة جداً. قم ببناء مجموعة البينات الخاصة بك من أنظمة مختلطة، وليس فقط الأشهر الأخيرة.

تقسيم عملي:

40% جلسات عادية: خليطات منخفضة الحجم، متبعة للاتجاهات ومحدودة النطاق.
35% من فترات الأحداث: إطلاقات عالية التأثير مثل أساسية PCE و أيام أسعار الفائدة
25% من نوافذ الإجهاد: أيام واسعة من المخاطر مع انتشار عال بشكل غير عادي وصوت الكمون.

لكل طابع زمني، قم بتقاط ما كان معروفًا فقط، بما في ذلك سياق جدول الإصدار من التقويم، المسار الحالي، وأي سياق سياسة من أرشيفات الاتصالات بين البنك المركزي.

Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome

تساعد عملية التجزئة في تحديد الحمولات المفيدة للمحتوى في اكتشاف تسرب البيانات المستقبلية العرضية خلال المُعدّلات.

كيفية تقييم التفكير وليس فقط التوجيه

إضافة صفحة تفكير بسيطة يتم تسجيلها عن طريق التحققات الحتمية بالإضافة إلى مراجعة البشر الخفيفة:

صحيحة السببية: هل الرسالة تشير إلى المحرك الكلي الصحيح؟
الوعي بالقيود: هل تعكس التوصية قواعد المخاطر؟
معايرة عدم اليقين: هل الثقة تتوافق مع جودة السياق؟
انضباط العمل: هل النموذج يختار flat عندما تكون الأدلة ضعيفة؟

تتبع هذا ReasoningConsistency حتى تتمكن من مقارنة النماذج والإشارات خارج PnL.

نمط مفيد: الاحتفاظ بمجموعة صغيرة من القرارات (50-100 مثال) التي يراجعها البشر شهرياً. استخدامه كمؤشر جودة للمقاييس الآلية.

جودة وكيل التسجيل (ما وراء معدل التأثير)

يجب أن تتبع بطاقة النتيجة القوية على الأقل هذه المقاييس:

معدل اجتياز المخطط: نسبة المخرجات التي يتم تحليلها بشكل نظيف.
معدل الامتثال للسياسة: % من النتائج التي تلبي القيود الصعبة
التوافق في التفكير: كم مرة تتوافق الأطروحة مع السياق المقدم.
توزيع الكمون: p50/p95 وقت القرار في ظروف خط الأنابيب الواقعية.
استقرار النظام: تحرك النتيجة عبر النوافذ المتجهة، المحدودة بالمنطقة، والصدمة الحادثة.

مثال على النتيجة المرجحة:

AgentScore = 0.30 * SchemaPass
           + 0.25 * PolicyCompliance
           + 0.20 * ReasoningConsistency
           + 0.15 * RegimeStability
           + 0.10 * LatencyScore

إذا كنت تقوم بتشغيل سير عمل يضع السلامة في المقام الأول، فاضع الوزن على المخطط والامتثال للسياسة. إذا كنت تعمل سير عمل يتعلق بسرعة الحدث، فاكبر الوزون على التأخير وسلوك نافذة الحدث.

الحد الأدنى من السلك

استخدموا جهاز إعادة تشغيل يسجل كل قرار وكل عنصر للوصول إلى النتيجة

from dataclasses import dataclass


@dataclass
class ReplayResult:
    ts: str
    parsed_ok: bool
    policy_ok: bool
    reasoning_ok: bool
    latency_ms: int
    pnl_r: float


def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
    raw = agent.run(ctx)
    parsed = agent.parse(raw)
    parsed_ok = parsed is not None

    if not parsed_ok:
        return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)

    gate = gatekeeper.validate(parsed, ctx)
    policy_ok = gate.allowed

    reasoning_ok = gate.reasoning_consistent
    pnl_r = gate.simulated_r if policy_ok else 0.0

    return ReplayResult(
        ts=ctx["ts"],
        parsed_ok=parsed_ok,
        policy_ok=policy_ok,
        reasoning_ok=reasoning_ok,
        latency_ms=agent.last_latency_ms,
        pnl_r=pnl_r,
    )

المفتاح هو إعادة التعيين: نفس سياق المدخلات، نفس الإصدار المباشر، نفس قواعد التحقق من صحة.

من نتائج المشاهدة إلى قرارات النشر

لا تعزز النموذج أو تغييرات الطلب مباشرة من مقاييس النقاط. استخدم بوابات النشر الصريحة:

Gate 1: يجب أن لا يتراجع معدل تمرير المخطط.
Gate 2: يجب أن تبقى الامتثال للسياسة فوق الحد الأدنى في فترات الحدث.
Gate 3: يجب أن يتحسن اتساق المنطق أو يبقى ثابتًا.
Gate 4: يجب أن تبقى فترة التأخير P95 ضمن الميزانية التشغيلية.

فقط إذا اجتازت جميع البوابات يجب أن تبدأ في وضع الظل ثم تحتاج إلى الحد الأدنى لقياس حجم العينة قبل التنفيذ

Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster

هذا يمنع الدورة الكلاسيكية حيث الفريقات أكثر من اللازم لإعادة التشغيل وتقليل اختبار السلوك التشغيلي.

أخطاء اختبار شائعة

تسرب: وبالخطأ تضمّن الحقول المستقبلية في السياق.
التنقل السريع: اختبار الخلفية مع إشارة واحدة والتداول الحي مع آخر.
لا يوجد قسم للنظام: متوسط النتائج عبر حالات تقلب مختلفة جدا.
لا إعادة للسياسة معالجة جميع نتائج النموذج على أنها قابلة للتداول.

تحذير عملي: معدل نجاح عال مع استقرار مخطط منخفض ليس جاهزا للإنتاج. العقود المكسورة هي خطر تشغيلي، وليس الضوضاء التجميلية.

كيف يزيد هذا من موثوقية التداول المباشر

يزيد اختبار الخلفي المنطقي للعميل من موثوقية الطرق التي لا يمكن اختبارات الخلفية التقليدية:

يجد مجموعات فشل حول أيام البنك المركزي، من الاحتياطي الفيدرالي إلى بنك انجلترا. .
يكشف عن الأخطاء التي تتعلق بالسرعة مقابل الخطأ المتعلق بالسياسة.
يدعم تحديثات النموذج الأكثر أمانًا لأنك تستطيع مقارنة سلوك القرار بين الإصدارات قبل النشر.
يخلق مسار تدقيق قابلة لإعادة الاستخدام لكل مرشح تجاري مقبول أو رفض.

إذا كنت تتعقب PnL بالفعل، هذا يضيف طبقة الملاحظة المفقودة التي تبقي الآلية الذكية من التدهور بصمت.

خلاصة القول

اختبار الخلفي من منطق الاستراتيجية ضروري. اختبار خلفي منطق الوكيل هو ما يجعل سير العمل التجاري الذكاء الاصطناعي دائما. تقييم أقوى الأنظمة على حد سواء: حافة السوق ووحدة القرار.

الخطوة التالية: إنشاء معايير إعادة تشغيل شهرية وطلب كل تغيير في النموذج / النمط لتمريرها قبل الوصول إلى الوضع الحي. كوت ومرشحات الجلسة من جلسات العملات الأجنبية إلى اختبار الإجهاد في ظل حالات السوق المختلفة.

Backtest Your Agent Logic Not Just Your Strategy