Building Effective Agents

Building
Effective Agents

"성공한 팀들이 공통적으로 발견한 것은 — 복잡한 프레임워크가 아니라, 단순하고 조합 가능한 패턴이었다."

저자 Schluntz· Zhang

발행 Dec 2024

핵심 패턴 5 + 1workflows · agent

교훈 Keep it simple

작성 2026.05.14

실전 코드

패턴별 Python 구현

Anthropic SDK 기준의 최소 구현. 프레임워크 없이 — 모든 흐름은 일반 Python 코드와 LLM 호출로 표현 가능하다는 글의 핵심을 그대로 보여주는 형태로 정리했다.

00 · Augmented LLM

building block

from anthropic import Anthropic

client = Anthropic()

def augmented_llm(user_msg: str, tools: list, memory: list):
    # memory: 이전 turns / tools: 함수 스키마 리스트
    response = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=1024,
        system="You are a precise assistant. Use tools when helpful.",
        messages=memory + [{"role": "user", "content": user_msg}],
        tools=tools,
    )
    return response

포인트. 이 한 함수가 다른 모든 패턴의 원자다. 도구·메모리·시스템 프롬프트를 깔끔하게 분리해 두면, 위층 패턴에서 그대로 조합할 수 있다.

01 · Prompt Chaining

workflow

def llm_call(prompt: str, system: str = "") -> str:
    msg = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=1024,
        system=system,
        messages=[{"role": "user", "content": prompt}],
    )
    return msg.content[0].text

def chain(input_text: str, prompts: list[str]) -> str:
    out = input_text
    for i, p in enumerate(prompts):
        out = llm_call(f"{p}\n\n<input>\n{out}\n</input>")
        # 검증 게이트: 형식이 깨졌으면 중단
        if "<error>" in out.lower():
            raise RuntimeError(f"Step {i} failed: {out}")
    return out

# 사용 예: 개요 → 검증 → 본문
result = chain(
    "신년 마케팅 캠페인 주제: 친환경 패션",
    prompts=[
        "3문장 개요를 만든다.",
        "개요가 톤(미니멀, 진정성)에 맞는지 점검하고 다듬어라.",
        "개요를 200자 본문으로 확장하라.",
    ],
)

포인트. 단계마다 검증 게이트가 핵심. 형식이 무너지면 즉시 끊어서 잘못된 출력이 다음 단계로 전염되는 걸 막는다.

02 · Routing

workflow

import json

def classify(query: str) -> str:
    out = llm_call(
        system="분류기. 다음 중 하나로만 답: refund | technical | general",
        prompt=f"고객 문의: {query}\n\n카테고리만 출력.",
    )
    return out.strip().lower()

ROUTES = {
    "refund":    ("claude-haiku-4-5", "환불 정책에 따라 절차를 안내하라."),
    "technical": ("claude-sonnet-4-6", "기술 지원 엔지니어처럼 단계별로 진단하라."),
    "general":   ("claude-haiku-4-5", "친절하게 응답하라."),
}

def route(query: str) -> str:
    category = classify(query)
    model, system = ROUTES.get(category, ROUTES["general"])
    msg = client.messages.create(
        model=model, max_tokens=1024,
        system=system,
        messages=[{"role": "user", "content": query}],
    )
    return msg.content[0].text

포인트. 분기마다 모델·시스템 프롬프트를 다르게 가져가는 게 본질. 쉬운 케이스는 Haiku로 빠르고 싸게, 복잡한 케이스만 Sonnet으로 풀어 비용을 통제한다.

03 · Parallelization

workflow

import asyncio
from anthropic import AsyncAnthropic

aclient = AsyncAnthropic()

async def acall(prompt: str, system: str) -> str:
    msg = await aclient.messages.create(
        model="claude-sonnet-4-6", max_tokens=512,
        system=system,
        messages=[{"role": "user", "content": prompt}],
    )
    return msg.content[0].text

async def vote_safety_check(code: str) -> bool:
    # Voting: 같은 작업을 다른 프롬프트로 3번 → 하나라도 위험 판정이면 reject
    perspectives = [
        "보안 엔지니어 관점에서 위험 식별",
        "악의적 사용자 관점에서 악용 경로 식별",
        "코드 리뷰어 관점에서 의심스러운 패턴 식별",
    ]
    results = await asyncio.gather(*[
        acall(f"코드:\n{code}\n\n'UNSAFE' 또는 'SAFE'만 답하라.", p)
        for p in perspectives
    ])
    return all("SAFE" in r.upper() for r in results)

포인트. asyncio.gather 한 줄로 지연을 N→1로 줄인다. Voting은 false negative가 치명적인 가드레일에서 특히 강하다.

04 · Orchestrator–Workers

workflow

def orchestrate(task: str) -> str:
    # 1) 오케스트레이터가 하위 작업 목록을 동적으로 생성
    plan_json = llm_call(
        system="작업을 독립 하위 작업 JSON 배열로 분해. 각 원소: {id, goal}",
        prompt=task,
    )
    subtasks = json.loads(plan_json)

    # 2) 워커들이 하위 작업을 수행
    results = []
    for st in subtasks:
        out = llm_call(
            system="하위 작업을 정확히 수행하고 결과만 반환.",
            prompt=f"{st['goal']}",
        )
        results.append({"id": st["id"], "out": out})

    # 3) 합성
    return llm_call(
        system="하위 결과를 일관된 최종 산출물로 통합.",
        prompt=json.dumps(results, ensure_ascii=False),
    )

포인트. Parallelization과의 결정적 차이 — 하위 작업 자체가 LLM에 의해 런타임에 결정된다. 그래서 더 강력하지만, 비용·예측 불가능성이 함께 늘어난다.

05 · Evaluator–Optimizer

workflow

def eval_optimize(task: str, max_iters: int = 3) -> str:
    draft = llm_call(system="초안을 작성.", prompt=task)

    for i in range(max_iters):
        critique = llm_call(
            system=("엄격한 평가자. 기준: 명료성, 사실성, 톤. "
                    "마지막 줄에 PASS 또는 REVISE만 출력."),
            prompt=f"<task>{task}</task>\n<draft>{draft}</draft>",
        )
        if critique.strip().splitlines()[-1].strip() == "PASS":
            return draft

        draft = llm_call(
            system="피드백을 반영해 다시 작성.",
            prompt=f"<draft>{draft}</draft>\n<critique>{critique}</critique>",
        )
    return draft  # 한도 도달: 마지막 draft 반환

포인트. 평가 기준은 구체적이고 글로 쓸 수 있어야 의미가 있다. "더 좋게 만들어"는 루프를 무의미하게 만든다.

06 · Agent Loop

autonomous

TOOLS = [
    {
        "name": "read_file",
        "description": "파일 내용을 읽는다. 주니어 개발자에게 설명하듯 명확히.",
        "input_schema": {
            "type": "object",
            "properties": {"path": {"type": "string"}},
            "required": ["path"],
        },
    },
    # ... 다른 도구들
]

def run_tool(name: str, args: dict) -> str:
    if name == "read_file":
        with open(args["path"]) as f:
            return f.read()
    raise ValueError(f"unknown tool: {name}")

def agent(goal: str, max_steps: int = 10):
    messages = [{"role": "user", "content": goal}]

    for step in range(max_steps):
        resp = client.messages.create(
            model="claude-sonnet-4-6",
            max_tokens=1024,
            tools=TOOLS,
            messages=messages,
        )

        if resp.stop_reason == "end_turn":
            return resp.content[0].text

        # 도구 호출 처리
        messages.append({"role": "assistant", "content": resp.content})
        tool_results = []
        for block in resp.content:
            if block.type == "tool_use":
                result = run_tool(block.name, block.input)
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result,
                })
        messages.append({"role": "user", "content": tool_results})

    raise RuntimeError("max_steps reached without completion")

포인트. 에이전트의 90%는 루프 + 도구 사용 + 종료 조건이다. max_steps는 비용 폭주 방지의 안전핀. 도구의 description·input_schema 품질이 곧 에이전트 품질이다.

프로덕션에서는 여기에 관측(로깅·트레이싱) · 가드레일(입출력 필터링) · 휴먼 인 더 루프(중요 행동 전 승인)를 더해야 한다. 패턴 자체보다 이 주변 인프라가 시스템 신뢰도를 결정한다.

한 줄로 이해하기

워크플로우 ≠ 에이전트

모든 것의 출발점: Augmented LLM

다섯 가지 워크플로우 패턴

에이전트는 비용을 정직하게 청구한다

관건은 ACI (Agent-Computer Interface)

단순함 → 투명성 → 신중한 ACI

그림으로 보는 6가지 구조

00 · 빌딩블록Augmented LLM

01 · 워크플로우Prompt Chaining

02 · 워크플로우Routing

03 · 워크플로우Parallelization

04 · 워크플로우Orchestrator — Workers

05 · 워크플로우Evaluator — Optimizer

Generator

Evaluator

06 · 자율형Agent

그래서 — 언제 무엇을 고를까?

워크플로우를 골라라

에이전트를 골라라

패턴별 Python 구현

00 · Augmented LLM

01 · Prompt Chaining

02 · Routing

03 · Parallelization

04 · Orchestrator–Workers

05 · Evaluator–Optimizer

06 · Agent Loop

실무 도입 가이드

Routing

Prompt Chaining

Parallelization · Voting

Parallelization · Sectioning

Evaluator–Optimizer

—

Orchestrator–Workers

Agent Loop

도입 권장 순서

Routing 부터 시작

Chaining 으로 정확도 개선

Voting 을 가드레일에 추가

Evaluator–Optimizer 는 측정 가능한 곳만

Agent 는 가장 마지막

안티패턴 — 쓰지 말아야 할 곳caution