Recursive Multi-Agent Systems

Recursive
Multi-Agent Systems

"표준 멀티 에이전트의 가장 큰 병목은 에이전트끼리 주고받는 텍스트 메시지였다. 그 통신을 latent vector로 바꾸자 — 토큰은 최대 75% 줄고 정확도는 8% 올랐다."

저자 Yang et al· 13명

발행 arXiv2604.25917

토큰 절감 −75.6%max

정확도 +8.3%avg

작성 2026.05.17

Reference Implementation

실전 코드

논문의 핵심 아이디어를 PyTorch 스타일로 재구성한 참고 구현. 실제 논문 코드와 다를 수 있고, 단순화한 의사 코드에 가깝다. 핵심은 — RecursiveLink로 latent 전달 + inner-outer gradient propagation.

01 · Agent — latent state 입출력

core

import torch
import torch.nn as nn

class LatentAgent(nn.Module):
    """각 agent는 latent state z를 입력받아 새 z를 출력.
    텍스트 디코딩 없이 다음 agent로 그대로 전달된다."""

    def __init__(self, d_in: int, d_hidden: int, d_out: int):
        super().__init__()
        self.backbone = build_transformer(d_in, d_hidden)  # 사전학습 LM
        self.out_proj = nn.Linear(d_hidden, d_out)

    def forward(self, z: torch.Tensor) -> torch.Tensor:
        # z: (batch, seq_len, d_in) — 텍스트 대신 latent로 입력
        h = self.backbone(z)             # latent space 안에서 reasoning
        return self.out_proj(h)        # 다음 agent로 보낼 z'

포인트. 표준 LLM agent는 encode → reason → decode_text 사이클. 여기서는 decode_text를 생략하고 hidden state를 그대로 다음 agent로 흘려보낸다. 사전학습 backbone은 그대로 쓰되 입출력 인터페이스만 바꾼 것.

02 · RecursiveLink — agent 간 latent projection

link

class RecursiveLink(nn.Module):
    """agent A의 출력 latent을 agent B의 입력 공간으로 매핑.
    이종(heterogeneous) backbone 간 차원 차이를 흡수한다."""

    def __init__(self, d_from: int, d_to: int):
        super().__init__()
        self.proj = nn.Sequential(
            nn.Linear(d_from, d_to),
            nn.LayerNorm(d_to),
            nn.GELU(),
            nn.Linear(d_to, d_to),
        )

    def forward(self, z: torch.Tensor) -> torch.Tensor:
        return self.proj(z)

포인트. 핵심은 가벼움 — 단순 MLP 두 층. agent 자체보다 훨씬 작아 통신 추가 비용은 거의 0. 이종 모델을 조립할 때 차원만 맞춰주면 됨.

03 · 재귀 합성 — N agents × K rounds

composition

class RecursiveMAS(nn.Module):
    def __init__(self, agents: list[LatentAgent], links: list[RecursiveLink],
                 max_rounds: int = 4):
        super().__init__()
        self.agents = nn.ModuleList(agents)
        self.links  = nn.ModuleList(links)   # len = len(agents)
        self.max_rounds = max_rounds
        self.halt = nn.Linear(agents[0].d_in, 1)  # 라운드 정지 신호

    def forward(self, z_init: torch.Tensor) -> torch.Tensor:
        z = z_init
        for k in range(self.max_rounds):
            # 한 라운드: 모든 agent를 순환 통과
            for agent, link in zip(self.agents, self.links):
                z = agent(z)
                z = link(z)
            # 적응적 halt — 더 정제할 필요 없으면 종료
            if torch.sigmoid(self.halt(z.mean(dim=1))).mean() > 0.9:
                break
        return z

포인트. 같은 agent들을 K번 재귀적으로 통과 — 라운드마다 latent state가 정제. halt head가 더 이상 개선 여지가 없다고 판단하면 조기 종료해서 비용 통제. 표준 transformer의 layer-stack과 닮았지만 layer가 곧 agent라는 점이 다름.

04 · Inner–Outer 학습 루프

training

def train_step(model: RecursiveMAS, batch, criterion, optimizer):
    z_init, target = batch
    optimizer.zero_grad()

    # Outer: 전체 시스템 forward — 모든 agent · 모든 라운드
    z_final = model(z_init)
    outer_loss = criterion(z_final, target)

    # 핵심: backward가 모든 라운드에 걸쳐 흐른다.
    # 한 agent의 출력 오류가 어느 round · 어느 agent에서 시작됐는지
    # gradient-based credit assignment으로 자동 추적.
    outer_loss.backward()

    # gradient clipping — recursion으로 인한 폭주 방지
    nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

    optimizer.step()
    return outer_loss.item()

포인트. 명시적 inner/outer 분리 없이 PyTorch의 autograd가 자동으로 처리 — 모든 라운드를 unroll한 거대한 computational graph 위에서 backprop. gradient clipping이 학습 안정성의 핵심 (RNN/transformer-with-loop 학습할 때와 동일한 trick).

05 · Inference + 텍스트 입출력 interface

i/o

class RecursiveMASPipeline:
    """사용자는 텍스트로 input/output하지만, 내부에서는 latent로 작동."""

    def __init__(self, model: RecursiveMAS, tokenizer, encoder, decoder):
        self.model = model
        self.tok = tokenizer
        self.enc = encoder   # 텍스트 → latent
        self.dec = decoder   # latent → 텍스트

    def __call__(self, prompt: str) -> str:
        # 1) 진입: 텍스트를 latent로 한 번만 인코딩
        tokens = self.tok(prompt, return_tensors="pt")
        z = self.enc(tokens.input_ids)

        # 2) 내부 협업: 전부 latent space에서. 디코딩 없음.
        z_out = self.model(z)

        # 3) 최종 출구에서만 텍스트로 디코딩
        ids = self.dec(z_out)
        return self.tok.decode(ids[0], skip_special_tokens=True)

포인트. 사용자 인터페이스(텍스트)는 그대로 유지 — encode 1회 / decode 1회만 발생하고, 내부 agent 통신은 모두 latent. 토큰 절감의 정량적 근거가 바로 여기 있다 (intermediate decode/encode가 사라진 비용).

위 코드는 아이디어를 보이기 위한 단순화다. 논문 본문에는 RecursiveLink의 더 정교한 구조 · halt mechanism · gradient stability proof · 9개 벤치마크별 ablation이 자세히 다뤄진다. 실제 구현은 저자들이 공개할 코드를 기다리는 게 좋다.

Recursive
Multi-Agent Systems

한 줄로 이해하기

핵심 통찰 — 통신을 latent space로

RecursiveMAS 프레임워크

RecursiveLink 모듈

Inner–Outer Loop 학습

측정 결과 — 효율과 품질 동시 개선

트레이드오프 — 디버깅과 학습 비용

그림으로 보는 구조

01 · 핵심 차이Text vs Latent 통신

02 · 아키텍처RecursiveMAS 구조

03 · 학습Inner–Outer Loop

04 · 결과벤치마크 — 효율과 품질

그래서 — 언제 RecursiveMAS가 적합한가?

적합한 시나리오