Uber Delivery Search Platform

Uber Delivery
Search Platform

"Uber Eats 사용자는 'gf pizza'를 검색하고 'soda'를 'soft drink'로 바꿔 찾는다. Lexical 매칭으로는 답을 찾을 수 없는 — billion-scale의 의미 검색을 어떻게 풀었는가."

저자 Nagar et al· 5명

발행 Uber Blog· 2026.04

코어 Two-Tower+ MRL

백본 QWEN· 단일 모델

작성 2026.05.20

Reference Implementation

실전 코드

Uber 내부 코드는 공개되지 않았으니, 아이디어를 PyTorch + Sentence-Transformers + FAISS로 재구성한 참고 구현. 실제 배포에서는 Lucene Plus / HNSW 인덱스, gRPC 서빙, 모니터링 등이 더 붙는다.

01 · Two-Tower 모델 (QWEN 백본 + MRL 출력)

model

import torch
import torch.nn as nn
from transformers import AutoModel, AutoTokenizer

MRL_DIMS = [128, 256, 512, 768, 1024, 1280, 1536]

class EncoderTower(nn.Module):
    """쿼리·문서 양쪽이 공유하는 인코더 — 같은 임베딩 공간 보장."""
    def __init__(self, model_name: str = "Qwen/Qwen-Embedding"):
        super().__init__()
        self.backbone = AutoModel.from_pretrained(model_name)
        self.proj = nn.Linear(self.backbone.config.hidden_size, max(MRL_DIMS))

    def forward(self, input_ids, attention_mask):
        h = self.backbone(input_ids, attention_mask=attention_mask).last_hidden_state
        # pool: weighted mean over tokens
        mask = attention_mask.unsqueeze(-1).float()
        pooled = (h * mask).sum(1) / mask.sum(1).clamp(min=1e-6)
        z = self.proj(pooled)                          # (B, 1536)
        return nn.functional.normalize(z, dim=-1)    # L2 정규화 — cosine sim 위해

def slice_mrl(z: torch.Tensor, dim: int) -> torch.Tensor:
    """주어진 차원으로 잘라서 다시 L2 정규화."""
    return nn.functional.normalize(z[..., :dim], dim=-1)

포인트. 쿼리와 문서 양쪽이 같은 인코더를 쓰는 게 핵심 — 임베딩 공간 일관성 보장. MRL은 단순히 "큰 임베딩을 앞에서 잘라쓴다"가 아니라, 학습 시 모든 차원 cut에 loss를 거는 것이 트릭.

02 · MRL InfoNCE Loss

training

def mrl_info_nce(q: torch.Tensor, d_pos: torch.Tensor, d_neg: torch.Tensor,
                 temperature: float = 0.05) -> torch.Tensor:
    """모든 MRL 차원 cut에 대해 InfoNCE를 동등 가중치로 합산.

    q, d_pos: (B, D_max)
    d_neg:    (B, K, D_max)  — in-batch + hard negatives
    """
    total = 0.0
    for dim in MRL_DIMS:
        qc = slice_mrl(q, dim)                # (B, dim)
        dp = slice_mrl(d_pos, dim)            # (B, dim)
        dn = slice_mrl(d_neg, dim)            # (B, K, dim)

        # positive: q · d_pos, negatives: q · each d_neg
        pos_sim = (qc * dp).sum(-1, keepdim=True)       # (B, 1)
        neg_sim = torch.einsum("bd,bkd->bk", qc, dn)        # (B, K)
        logits = torch.cat([pos_sim, neg_sim], dim=-1) / temperature

        target = torch.zeros(logits.size(0), dtype=torch.long, device=logits.device)
        total += nn.functional.cross_entropy(logits, target)

    return total / len(MRL_DIMS)

포인트. 핵심은 모든 차원에 동등 가중치. 만약 큰 차원에 더 큰 weight를 주면 작은 차원 cut의 품질이 무너진다. Uber는 7개 cut 모두 1/7씩 — 그래서 256-dim도 1536-dim과 거의 동등한 품질을 낸다.

03 · Offline Document Indexing (배치)

offline

import faiss
import numpy as np

def build_index(docs: list[dict], encoder: EncoderTower,
                dim: int = 256, hnsw_m: int = 32) -> faiss.Index:
    """스케줄 작업으로 격주 실행되는 인덱스 빌드 — Blue/Green 컬럼."""

    # 1) 배치 임베딩
    embeds = []
    for batch in chunks(docs, 1024):
        toks = tokenize([d["text"] for d in batch])
        with torch.no_grad():
            z = encoder(**toks)
        embeds.append(slice_mrl(z, dim).cpu().numpy())
    vecs = np.vstack(embeds).astype("float32")

    # 2) int7 양자화 — latency 절반
    quantizer = faiss.ScalarQuantizer(dim, faiss.ScalarQuantizer.QT_7bit)
    index = faiss.IndexHNSWSQ(dim, faiss.ScalarQuantizer.QT_7bit, hnsw_m)
    index.train(vecs)
    index.add(vecs)

    # 3) Boolean 필터용 메타데이터 별도 저장
    meta = {d["id"]: {"hexagon": d["hexagon"], "city_id": d["city_id"],
                       "doc_type": d["doc_type"]} for d in docs}

    return index, meta

# 검증 게이트 3종 — 배포 전 통과 필수
def validate_index(new_idx, old_idx, sample_queries):
    assert new_idx.ntotal >= old_idx.ntotal * 0.99     # completeness
    assert schema_compat(new_idx, old_idx)              # backward-compatibility
    assert recall_regression(new_idx, old_idx,
                             sample_queries) > 0.98      # correctness

포인트. Uber는 blue/green을 별도 인덱스가 아닌 한 인덱스 안의 컬럼으로 운영해 저장 -50%. 대신 세 가지 검증 게이트(완전성·하위호환·정확성)로 single-index 리스크를 방어. QT_7bit가 성능 핵심.

04 · Online Retrieval (pre-filter + ANN + re-rank)

online

def search(query: str, user_ctx: dict, encoder: EncoderTower,
           index: faiss.Index, meta: dict, reranker, k: int = 200) -> list:

    # 1) 쿼리 임베딩 (online, ms 단위)
    toks = tokenize([query])
    with torch.no_grad():
        q = encoder(**toks)
    q256 = slice_mrl(q, 256).cpu().numpy().astype("float32")

    # 2) Boolean pre-filter — billion → 1M 미만으로 먼저 깎는다
    allowed_ids = {
        doc_id for doc_id, m in meta.items()
        if m["hexagon"] in user_ctx["reachable_hexagons"]
        and m["city_id"] == user_ctx["city_id"]
        and m["doc_type"] in user_ctx["allowed_types"]
    }
    selector = faiss.IDSelectorArray(list(allowed_ids))
    params = faiss.SearchParametersHNSW(sel=selector, efSearch=128)

    # 3) ANN — 깎인 후보들 안에서만
    D, I = index.search(q256, k, params=params)

    # 4) Micro re-rank — 작은 NN으로 top-K 정밀 정렬
    candidates = [{"id": int(i), "score": float(d)} for i, d in zip(I[0], D[0])]
    return reranker(query, candidates, user_ctx)[:20]

포인트. 단계 순서가 핵심 — pre-filter → ANN → re-rank. 순서를 바꾸면 (예: ANN 먼저, filter 나중) billion-scale에서 latency가 즉시 1000배 차이난다. IDSelectorArray로 HNSW 안에서 제외 처리.

05 · 학습 파이프라인 (DDP + DeepSpeed ZeRO-3)

training

import deepspeed
from torch.utils.data import DataLoader

def train(encoder: EncoderTower, dataset, config_path: str):
    """수억 샘플 학습 — ZeRO-3로 모델 파라미터 분산."""
    model_engine, optimizer, _, _ = deepspeed.initialize(
        model=encoder,
        config=config_path,        # ZeRO-3 + bf16 + grad checkpointing
    )

    loader = DataLoader(dataset, batch_size=256, num_workers=8, pin_memory=True)

    for step, batch in enumerate(loader):
        q  = model_engine(**batch["query"])             # (B, D_max)
        dp = model_engine(**batch["pos_doc"])           # (B, D_max)
        dn = model_engine(**batch["neg_docs"])          # (B, K, D_max)

        loss = mrl_info_nce(q, dp, dn, temperature=0.05)
        model_engine.backward(loss)
        model_engine.step()

        if step % 100 == 0:
            log(f"step={step} loss={loss.item():.4f}")

포인트. 수억 단위 학습 데이터 + 큰 LLM 백본은 단일 GPU 불가 — DDP + DeepSpeed ZeRO-3로 파라미터·옵티마이저 상태·gradient를 모두 분산. bf16 + gradient checkpointing은 메모리 추가 절약. Hard negatives의 품질이 학습 결과를 크게 좌우한다.

위 코드는 핵심 아이디어 재구성이다. 실제 Uber 배포에서는 Lucene Plus의 분산 인덱싱, 컨테이너 오케스트레이션, gRPC 서빙 레이어, A/B 실험 프레임워크, 모니터링·alert 인프라가 모두 붙는다. 단일 모델로 모든 vertical(레스토랑·grocery·retail)과 모든 시장을 커버한 것이 운영 관점에서 가장 큰 수확이라고 저자들은 강조한다.

Uber Delivery
Search Platform

한 줄로 이해하기

문제 — Lexical 매칭의 한계

Two-Tower 아키텍처

QWEN 단일 백본

Matryoshka 임베딩 — 한 모델, 7개 차원

Lucene Plus + HNSW + int7 양자화

Boolean Pre-filter — 99%+ 후보 제거

그림으로 보는 구조

01 · 아키텍처Two-Tower 구조

02 · 임베딩Matryoshka 임베딩

03 · 파이프라인Retrieval Funnel

04 · 결과측정된 개선

그래서 — 이 패턴은 언제 적합한가?

적합한 시나리오