Uber Search Platform — 학습 노트

Uber Search
Platform

"Elasticsearch를 블랙박스로 쓰던 시절부터, 자체 엔진 Sia를 만들었다가, 다시 OpenSearch 커뮤니티로 돌아온 10년의 궤적 — 그리고 그 사이에 쌓인 람다 아키텍처 · Pull-based 인제스천 · Vector 파이프라인."

기간 10+ 년· 3 세대

현재 코어 OpenSearch· Sunrise

인제스천 Kafka pull· active-active

Vector 1.5B· 400-dim

작성 2026.05.20

Reference Implementation

실전 코드

Uber 내부 코드는 비공개. 여기서는 글에서 묘사된 패턴들을 Python/PySpark + OpenSearch 클라이언트로 재구성한 참고 구현. 실제 배포는 Java/JVM 기반이지만 아이디어는 그대로.

01 · Pull-based StreamPoller 패턴

ingestion

import threading, queue, time
from dataclasses import dataclass
from kafka import KafkaConsumer

@dataclass
class Message:
    offset: int
    key: str
    payload: dict

class StreamPoller:
    """Kafka에서 자체 페이스로 끌어와 BlockingQueue로 흘리는 worker.
    backpressure는 큐가 full일 때 자연 발생 — Kafka는 그대로 대기."""

    def __init__(self, topic: str, shard_id: int, queue_size: int = 1000):
        self.consumer = KafkaConsumer(topic, group_id=f"os-shard-{shard_id}",
                                      auto_offset_reset="earliest",
                                      enable_auto_commit=False)
        self.queue = queue.Queue(maxsize=queue_size)
        self.start_pointer = 0      # BatchStartPointer
        self.in_flight_offsets = set()

    def poll_loop(self):
        for msg in self.consumer:
            # 큐가 full이면 put이 block → poller도 block
            # → Kafka에서 더 안 받음 (= 자연 backpressure)
            self.queue.put(Message(msg.offset, msg.key.decode(), msg.value))
            self.in_flight_offsets.add(msg.offset)

    def commit(self, processed_offsets: set):
        # BatchStartPointer = 모든 worker가 처리 완료한 최소 offset
        self.in_flight_offsets -= processed_offsets
        new_start = (min(self.in_flight_offsets)
                     if self.in_flight_offsets else max(processed_offsets) + 1)
        self.start_pointer = new_start
        self.consumer.commit({...: new_start})

포인트. 핵심은 BatchStartPointer — "모든 워커가 처리 완료한 최소 offset"을 체크포인트로 저장. 장애 복구 시 이 지점부터 재생하면 at-least-once 보장. 큐 full → poller block은 backpressure가 클라이언트가 아니라 Kafka에 남도록 하는 자연스러운 방식.

02 · BSL 컴팩션 사이클

architecture

import schedule, time
from typing import List
from lucene import IndexWriter, DirectoryReader

class BSLIndex:
    """Base / Snapshot / Live 3-layer 인덱스 — Sia 패턴 재현."""

    def __init__(self):
        self.live = InMemoryLuceneIndex()      # 메모리 NRT
        self.snapshots: List[DirectoryReader] = []
        self.base: DirectoryReader = None

    # ─── Layer 1: Live (always write here) ───
    def index_document(self, doc: dict):
        self.live.add(doc)                    # ms 단위 가시성

    # ─── Layer 2: ~30min마다 Live → Snapshot flush ───
    def flush_live_to_snapshot(self):
        snapshot = self.live.flush_to_disk()   # 표준 Lucene segment
        self.snapshots.append(snapshot)
        self.live.reset()                    # 메모리 해제

    # ─── Layer 3: weekly snapshot들 → Base compaction ───
    def build_base(self):
        # 누적된 snapshot들 + 기존 base를 force-merge
        merged = force_merge([self.base] + self.snapshots)
        self.base = merged
        self.snapshots = []                # 컴팩션 후 비움

    # ─── 쿼리: 3개 layer 모두 보고 union ───
    def search(self, query: str) -> list:
        results = []
        results += self.live.search(query)                # NRT
        for snap in self.snapshots:
            results += snap.search(query)                  # recent
        if self.base:
            results += self.base.search(query)              # historical
        return merge_topk(results)

# 스케줄러 (Sia는 cron으로 운영했을 것)
schedule.every(30).minutes.do(idx.flush_live_to_snapshot)
schedule.every().week.do(idx.build_base)

포인트. 3-layer 분리의 핵심은 각 layer가 다른 freshness/cost 트레이드오프를 가진다는 것. Live는 빠르지만 메모리 비쌈, Base는 압축되지만 stale. 쿼리는 항상 셋 다 union해서 일관성 유지. 단점: 새 Lucene operator(예: HNSW) 추가 시 3 layer 모두에서 작동해야 함 — 이게 Sunrise의 trigger.

03 · Spark Vector Bulk Indexing

vector

from pyspark.sql import SparkSession

spark = (SparkSession.builder
    .appName("vector-bulk-ingest")
    .config("spark.executor.cores", 16)         # 충분한 cores
    .config("spark.executor.instances", 100)    # 병렬 폭
    .config("spark.sql.shuffle.partitions", 800)
    .getOrCreate())

# 핵심: 인덱스 설정을 bulk-friendly로 — Uber가 강조한 값들
INDEX_SETTINGS = {
    "index": {
        "refresh_interval": "-1",            # 1s → off, 요청별 refresh
        "translog": {
            "flush_threshold_size": "1024mb",    # 518 → 1024 MB
            "sync_interval": "120s",            # 매 요청 → 120s
        },
        "merge": {
            "policy": {
                "floor_segment": "10m",           # 1m → 10m
                "segments_per_tier": 15,            # 10 → 15
                "max_merge_at_once": 15,            # 10 → 15
            }
        },
        "knn.algo_param.index_thread_qty": 8, # native KNN 빌드 스레드
    },
    "mappings": {
        "_source": {"enabled": False},        # 인덱스 크기 -50%+
        "properties": {
            "id": {"type": "keyword", "doc_values": False},
            "vec": {
                "type": "knn_vector", "dimension": 400,
                "method": {"name": "hnsw", "engine": "faiss"},
            }
        }
    }
}

(spark.read.table("hive.embeddings_table")
   .repartition(800)
   .write
   .format("opensearch")               # spark-opensearch-connector
   .option("opensearch.resource", "vec-v2-green")
   .option("opensearch.batch.size.bytes", "50mb")
   .option("opensearch.batch.write.refresh", "false")
   .mode("append")
   .save())

# 빌드 완료 후 명시적 force_merge → 단일 segment
os_client.indices.forcemerge(index="vec-v2-green", max_num_segments=1)

포인트. 12.5h → 2.5h (-79%)의 핵심은 네 가지 키 설정의 조합: refresh off · translog threshold 키우기 · merge policy 완화 · _source 비활성화. 단독 하나만으로는 큰 효과 없음 — 모두가 같은 방향(I/O 압박 감소)을 향하기 때문에 누적 효과.

04 · Blue-Green Index Swap (alias 기반)

deployment

from opensearchpy import OpenSearch

client = OpenSearch([{"host": "prod.cluster", "port": 9200}])

ALIAS = "vec-current"             # 쿼리는 항상 alias로

def deploy_green(green_index: str):
    """새로 빌드한 green 인덱스를 검증 후 traffic 스왑."""

    # ─── Gate 1: 완전성 (doc count가 비슷한가) ───
    blue = resolve_current_index(ALIAS)
    blue_count  = client.count(index=blue)["count"]
    green_count = client.count(index=green_index)["count"]
    assert green_count >= blue_count * 0.99, \
        f"green {green_count} too small vs blue {blue_count}"

    # ─── Gate 2: 매핑 하위 호환 (필드 추가만, 삭제·타입변경 금지) ───
    assert mapping_compatible(blue, green_index), "mapping breaking change"

    # ─── Gate 3: recall regression (sample 쿼리 결과 비교) ───
    for q in load_eval_queries(n=100):
        r_blue  = client.search(index=blue,        body=q)["hits"]["hits"]
        r_green = client.search(index=green_index, body=q)["hits"]["hits"]
        recall_at_10 = overlap([h["_id"] for h in r_blue[:10]],
                              [h["_id"] for h in r_green[:10]])
        assert recall_at_10 > 0.95, f"recall regression on {q}"

    # ─── 원자적 swap — 한 줄, downtime 0 ───
    client.indices.update_aliases(body={
        "actions": [
            {"remove": {"index": blue,        "alias": ALIAS}},
            {"add":    {"index": green_index, "alias": ALIAS}},
        ]
    })

    # 24h 후 blue 인덱스 삭제 (rollback 여유)
    schedule_delete(blue, after="24h")

포인트. 3개 게이트(완전성·매핑 호환·recall regression)를 통과해야 swap. swap 자체는 alias 업데이트 한 번이라 원자적·즉시. schedule_delete(after=24h)로 즉시 삭제 안 함 — rollback 여유. 운영 핵심은 "한 번에 빠르게"보다 "검증된 안전".

05 · gRPC Bulk Client (Protobuf 직통)

grpc

import grpc
from opensearch_pb2 import BulkRequest, IndexAction, Document
from opensearch_pb2_grpc import BulkServiceStub

# OpenSearch gRPC endpoint — Uber가 contribute한 native API
channel = grpc.secure_channel("opensearch.internal:9300",
                              grpc.ssl_channel_credentials())
bulk_stub = BulkServiceStub(channel)

def bulk_index(docs: list[dict], index: str):
    """REST/JSON 거치지 않고 Protobuf 그대로 — translation layer 0."""

    actions = []
    for d in docs:
        doc_pb = Document(
            id=d["id"],
            # vector는 Protobuf의 packed repeated float — bytes 효율 88% 절감
            vector=d["vec"],
            metadata={k: v for k, v in d.items() if k not in ["id", "vec"]},
        )
        actions.append(IndexAction(index=index, document=doc_pb))

    request = BulkRequest(actions=actions, refresh=False)
    response = bulk_stub.Bulk(request, timeout=30.0)

    if response.errors:
        for item in response.items:
            if item.error:
                log_error(item.id, item.error.message)
    return response.took_ms

# Spark batch job에서 사용: runtime -20~35%
# M3 metrics: p99 write 34.1ms → 13.6ms (-60%)
# Delivery vector: p50 83ms → 38ms (-53%)

포인트. gRPC의 진짜 이득은 벡터 같은 큰 binary payload에서 나온다 — 1572-dim KNN 쿼리에서 request size 88% 절감. JSON으로 float 배열을 보내면 "0.123456789," 식으로 텍스트 인코딩되지만, Protobuf packed repeated float은 4바이트 그대로. p99 개선은 평균 30~60%, 큰 payload에서는 그 이상.

위 5개 코드는 독립적으로 도입 가능한 패턴들이다. 한꺼번에 다 적용하지 말고 가장 큰 통증부터: ① backpressure 문제면 Pull-based, ② 모델 업데이트 disruption이면 Blue-Green, ③ vector workload면 Spark bulk + 설정 튜닝, ④ gRPC native 인프라면 마지막에 gRPC endpoint. 각 단계의 ROI를 측정한 뒤 다음으로.

Uber Search
Platform

한 줄로 이해하기

3 세대 진화 — Elasticsearch → Sia → OpenSearch

Project Sunrise — 왜 Sia를 버렸나

BSL 람다 — Base / Snapshot / Live

Pull-based Kafka 인제스천

Vector 파이프라인 — Spark + Blue-Green

gRPC + Protobuf — REST 대비 latency 60% 절감

그림으로 보는 구조

01 · 진화3 세대 타임라인

02 · 람다BSL — Base · Snapshot · Live

03 · 인제스천Pull-based Streaming

04 · 분산Active-Active Multi-region

05 · 벡터Vector Pipeline + Blue-Green

06 · 서비스Gateway · Ingester · Searcher 분리

Project Sunrise

BSL (Base / Snapshot / Live)

그래서 — 이 패턴들은 언제 도입할 가치가 있나?

도입 권장