전략 뿐 아니라, 요원 논리를 다시 시험해 보세요

저자: FXMacroData 팀
출판된지: May 21, 2026

대부분의 AI 거래 팀은 여전히 하나의 계층: 신호-PnL에 대한 백테스트를 수행합니다. 현대 시스템에서 가장 높은 위험 요소인 에이전트를 놓치고 있습니다. 모델이 매크로 프린트를 잘못 읽거나 스키마에서 벗어나거나 압력 아래에서 정책을 위반하면 좋은 전략은 여전히 나쁜 거래를 일으킬 수 있습니다.

에이전트 논리 백테스팅은 역사적 맥락을 재연하고 어떤 명령도 브로커에 도달하기 전에 결정 품질을 점 점수로 해결합니다. FX에서 이것은 쌍에서 이벤트 중량 창을 중심으로 가장 중요합니다. USD/JPY 그리고 EUR/USD- 그래요

핵심 아이디어: 전략 백테스트는 "이 규칙이 돈을 벌었을까?"라고 묻습니다. 에이전트 백테스팅은 "이 인공지능은 현실적인 조건에서 동일한 안전한 결정을 반복적으로 내렸을까?"라고 질문합니다.

왜 전략만 적용하는 백테스트가 실제 실패 방식에 실패하는 걸까요?

PnL만 평가하면 세 가지 중요한 실패 클래스를 숨깁니다.

해석 오류: 모델은 와 같은 발표를 잘못 읽습니다. 국가적 정책 그리고 잘못된 방향으로 논문을 쌓습니다.
계약 오류: 높은 변동성 기간 동안 출력이 여러분의 스키마를 깨는 경우도 있습니다.
위험 정책 우회: 모델이 과대 크기를 추천하거나 무효화 기준을 무시합니다.

이러한 문제는 PnL 붕괴가 명백해지기 전에 종종 나타납니다. 에이전트 수준의 백테스팅은 더 일찍 발견됩니다.

The Four-Layer Agent Backtest Framework

계층 1: 컨텍스트 재생

모델이 실시간으로 볼 수 있는 각 시간표를 재구성합니다. FXMacroData 엔드포인트에서 결정 시간까지 사용 가능한 데이터만 가져와 발매 일정은- 그래요

curl "https://fxmacrodata.com/api/v1/announcements/usd/core_pce?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/announcements/eur/inflation?api_key=YOUR_API_KEY"
curl "https://fxmacrodata.com/api/v1/forex?base=EUR&quote=USD&api_key=YOUR_API_KEY"

계층 2: 결정 재현

정확한 생산 프롬프트와 제약과 함께 각 컨텍스트에 에이전트를 실행합니다. 원시 출력 및 분석 출력을 저장하여 추론과 구조를 모두 감사 할 수 있습니다.

{
  "pair": "EUR/USD",
  "action": "long|short|flat",
  "confidence": 0.0,
  "thesis": "string",
  "invalidation": "string",
  "size_pct": 0.0
}

계층 3: 정책 시뮬레이션

실시간으로 사용하는 동일한 게이트키퍼 규칙을 다시 재생하세요: 최대 위험, 이벤트 창 잠금, 신뢰도 바닥, 집중력 제한.

계층 4: 결과의 배정

개별적인 결과 부문:

올바른 논문, 좋은 정책 준수, 수익성.
올바른 논문, 낮은 실행 품질.
잘못된 논문, 정책은 차단되어야 합니다.
시장 방향에 관계없이 시스템 또는 프로세스 장애

이것은 당신이 요청, 정책, 또는 실행 배관공정을 개선해야하는지 여부를 알려줍니다.

고품질의 재연 데이터 세트를 설계

대부분의 재생 파이프라인들은 데이터 세트가 너무 깨끗하거나 너무 좁기 때문에 실패합니다.

실용적인 분할:

40% 정상 세션: 저용량, 트렌드 따라와 범위 제한 혼합물
35% 이벤트 창: 류의 오염물질의 핵심 PCE 그리고 정책금리일.
25% 스트레스 창문: 비정상적으로 높은 스프레드와 대기 소음으로 넓은 위험-아웃 날.

각 시간표에 대해, 그 당시 알려진 것만을 캡처합니다. 달력에서 발매 스케줄 컨텍스트, 현재 스팟 경로, 중앙은행 통신 아카이브에서 정책 컨텍스터를 포함합니다.

Replay row fields (recommended):
- ts_utc
- pair
- context_payload_hash
- prompt_version
- model_version
- raw_output
- parsed_output
- policy_decision
- simulated_execution
- realized_outcome

컨텍스트 페이로드를 해시하면 리팩터 중에 우연한 미래 데이터 누출을 감지하는 데 도움이 됩니다.

단지 지시 가 아니라 추론 을 평가 하는 방법

방향만 점수를 주는 것은 중요한 을 숨깁니다. 결정적인 검사와 가벼운 인간 감사로 점수를 받는 간단한 추론 주제를 추가합니다.

인과적 정확성: 이 논문은 올바른 매크로 드라이버를 참조합니까?
제한 인식: 추천은 위험 규칙을 반영합니까?
불확실성 캘리브레이션: 신뢰는 컨텍스트 품질과 일치합니까?
행동 규율: 모델 선택 flat 증거가 약할 때

추적해 ReasoningConsistency 그래서 PnL를 넘어 모델과 요청들을 비교할 수 있습니다.

유용한 패턴: 작은 판단 세트를 유지 (50-100 예제) 인간에 의해 월간 검토. 자동 측정에 대한 품질 앵커로 사용.

스코어 에이전트 품질 (타격률 이상)

강력한 스코어카드는 적어도 다음의 메트릭을 추적해야 합니다.

스키마 통과율: 순수하게 분석되는 출력의 비율입니다.
정책 준수율: 하드 제약에 만족하는 출력의 비율입니다.
논리 일관성: 논문이 제공된 맥락과 얼마나 자주 일치하는지.
지연 분포: p50/p95 현실적인 파이프라인 조건에서 결정 시간이
체제 안정성: 점수가 트렌딩, 범위 및 이벤트 쇼크 창을 가로지르는 이동입니다.

가중점표 예제:

AgentScore = 0.30 * SchemaPass
           + 0.25 * PolicyCompliance
           + 0.20 * ReasoningConsistency
           + 0.15 * RegimeStability
           + 0.10 * LatencyScore

안전 우선 작업 흐름을 실행하는 경우, 스키마와 정책 준수에 대한 무게를 증가시킵니다. 이벤트 속도 작업 흐리를 실행하는 경우에는, 대기 시간 및 이벤트 창 행동에 대한 무게가 증가합니다.

최소 재 재생 배열

모든 결정과 점수 요소를 기록하는 재연기 런너를 사용하세요.

from dataclasses import dataclass


@dataclass
class ReplayResult:
    ts: str
    parsed_ok: bool
    policy_ok: bool
    reasoning_ok: bool
    latency_ms: int
    pnl_r: float


def evaluate_one(ctx, agent, gatekeeper) -> ReplayResult:
    raw = agent.run(ctx)
    parsed = agent.parse(raw)
    parsed_ok = parsed is not None

    if not parsed_ok:
        return ReplayResult(ctx["ts"], False, False, False, agent.last_latency_ms, 0.0)

    gate = gatekeeper.validate(parsed, ctx)
    policy_ok = gate.allowed

    reasoning_ok = gate.reasoning_consistent
    pnl_r = gate.simulated_r if policy_ok else 0.0

    return ReplayResult(
        ts=ctx["ts"],
        parsed_ok=parsed_ok,
        policy_ok=policy_ok,
        reasoning_ok=reasoning_ok,
        latency_ms=agent.last_latency_ms,
        pnl_r=pnl_r,
    )

핵심은 결정적인 재생입니다. 같은 입력 컨텍스트, 같은 프롬프트 버전, 같은 검증 규칙.

재시험 결과 에서 배부 결정

모델 또는 포인트 메트릭스에서 직접 변경을 촉진하지 마십시오. 명시적인 배포 게이트를 사용하십시오.

1번 게이트 스키마 통과율은 퇴행하지 않아야 합니다.
게이트 2: 정책 준수율은 이벤트 윈도우에서 한계 이상 유지되어야 합니다.
3번 게이트 추론의 일관성이 개선되거나 안정적으로 유지되어야 합니다.
게이트 4: 대기시간 p95은 운영 예산 내에서 유지되어야 합니다.

모든 게이트가 통과되면 그림자 모드를 시작해야 합니다.

Promotion policy example:
- Replay pass: required
- Shadow mode: 3 weeks minimum
- Live rollout: 20% traffic for 5 days, then full
- Auto-rollback: any schema fail burst or policy breach cluster

이것은 팀들이 재연하고 운영 행동을 과소평가하는 고전적인 주기를 방지합니다.

시험 에서 흔히 발생하는 실수

누출: 실수로 미래의 필드를 컨텍스트에 포함합니다.
급속한 이동: 한 번은 뒷 테스트를 하고 다른 한 번에는 실시간 거래를 합니다.
정렬 세그먼트 없이: 매우 다른 변동성 상태를 통한 평균 결과를 얻습니다.
정책 재현은 없습니다. 모든 모델 출력이 거래 가능한 것으로 취급됩니다.

실용적인 경고: 높은 타격률과 낮은 스키마 안정성은 생산 준비가되지 않습니다. 깨진 계약은 운영 위험, 화장품 소음이 아닙니다.

이 가 실시간 거래 의 신뢰성 을 향상 시키는 방법

에이전트 논리 백테스팅은 전통적인 백테스트가 할 수 없는 방법으로 신뢰성을 향상시킵니다.

중앙은행의 일들에 대한 실패 클러스터를 찾습니다. 연방준비제도 영국 은행- 그래요
어떤 오류가 바로 관련 있는 것인지, 정책 관련 있는 것이냐를 보여줍니다.
배포 전에 버전에서 의사 결정 행동을 비교할 수 있기 때문에 더 안전한 모델 업그레이드를 지원합니다.
모든 승인 또는 거절 당한 무역 후보에 대해 재사용 가능한 감사 추적을 만듭니다.

이미 PnL를 추적하고 있다면, 이것은 AI 자동화가 조용히 퇴색되는 것을 막는, 부족한 관찰성 계층을 추가합니다.

결론

역 테스트 전략 논리는 필수적입니다. 역 테스트 에이전트 논리는 AI 거래 워크플로우를 내구성있게 만드는 것입니다. 가장 강력한 시스템은 시장 우위와 의사결정 무결성을 모두 평가합니다.

다음 단계: 월간 재생 벤치마크를 만들고 실시간 모드에 도달하기 전에 모든 프롬프트/모델 변경을 통과하도록 요구합니다. COT 그리고 세션 필터 외환 세션 다른 시장 상태에서 스트레스 테스트 행동

Backtest Your Agent Logic Not Just Your Strategy