Snap Inc.

Snap Inc.

Social Media / Technology · USA

✓ Quelle

Snap Inc. setzt prefix-cache-aware Routing für LLM-Inference in Produktion ein

Wie nutzt Snap Inc. KI?

Snap Inc. integriert llm-d mit prefix-cache-aware Routing in seine produktive KI-Infrastruktur und erreicht damit Prefix-Cache-Hit-Raten von 75–80 %.

AI Infrastructure / InferenceHochperformantes LLM-Inference in Produktion mit prefix-cache-aware Routing (75–80% Cache-Hit-Rate)GKE Inference Gateway, llm-d, Envoy-based Service Mesh

Auf einen Blick

Unternehmen
Snap Inc.
Branche
Social Media / Technology
Land
USA
Funktion
AI Infrastructure / Inference
KI-Technik
GKE Inference Gateway, llm-d, Envoy-based Service Mesh
Ergebnis
Prefix-Cache-Hit-Rate von 75–80 %

Ausgangslage

Generative KI-Workloads stellen in Produktionsumgebungen hohe Anforderungen an die Inferenz-Infrastruktur. Konventionelles Round-Robin-Load-Balancing verteilt eingehende Anfragen ohne Rücksicht darauf, welche Modellserver bereits relevante Kontextdaten im KV-Cache (Key-Value-Cache) vorhalten. Das führt dazu, dass identische Prompt-Präfixe wiederholt neu berechnet werden – mit entsprechend höherer Latenz und stärkerem Ressourcenverbrauch auf den Beschleunigern.

Prefix Caching adressiert dieses Problem, indem die Aktivierungszustände langer, repetitiver Prompt-Präfixe gespeichert werden. Wenn aufeinanderfolgende Anfragen dieselben Systeminstruktionen, denselben Kontext oder dieselbe Dokumentation teilen, überspringt das Modell die erneute Verarbeitung dieser Token vollständig.

Was das Unternehmen konkret macht

Snap Inc. integriert llm-d in seine produktive KI-Infrastruktur. llm-d ist ein Open-Source-Framework für hochperformante LLM-Inference. Laut Vinay Kola, Senior Manager Software Engineering bei Snap Inc., setzt das Unternehmen dabei auf prefix-cache-aware Routing: „At Snap, we are integrating llm-d into our production AI infrastructure to facilitate high-performance inference at scale."

Das Routing sorgt dafür, dass eingehende Anfragen gezielt an jene Instanzen weitergeleitet werden, die den relevanten Prefix bereits im Cache vorhalten. Wiederholte Berechnungen identischer Prompt-Anteile entfallen damit.

Technik & Ansatz

Snap nutzt llm-d in Kombination mit einem Envoy-basierten Service Mesh. Kola beschreibt dies explizit: „We appreciate the open-source nature of llm-d, as it enables seamless integration with our Envoy-based Service Mesh."

Prefix-cache-aware Routing liest eingehende Request-Präfixe und gleicht sie mit den Pods ab, die den entsprechenden KV-Cache bereits im Speicher halten. Dadurch entfällt die erneute Tokenverarbeitung für statische Anteile wie Systemprompts, Dokumentationskontext oder feste Geschäftsregeln. Nur der dynamische, anfragespezifische Teil des Prompts muss neu berechnet werden.

Ergebnisse

Snap erreicht mit diesem Ansatz Prefix-Cache-Hit-Raten von 75–80 %. Kola: „By employing prefix-cache-aware routing, we have achieved prefix cache hit rates ranging up to 75-80 %."

Weitere spezifische Kennzahlen zu Latenz, Durchsatz oder Kosteneinsparungen aus Snaps eigenem Betrieb sind in den vorliegenden Quellen nicht belegt.

Einordnung

Der Einsatz von llm-d bei Snap steht im Kontext eines breiteren Trends: Inference-Infrastruktur wird zum entscheidenden Faktor, wenn KI-Anwendungen aus dem Experimentierstadium in den produktiven Betrieb überführt werden. Die Wahl eines Open-Source-Frameworks und die Integration in ein bestehendes Envoy-basiertes Service Mesh deuten auf eine Infrastrukturstrategie hin, die auf Kompatibilität mit vorhandenen Komponenten setzt. Die belegte Cache-Hit-Rate von 75–80 % ist ein konkreter Betriebswert aus der Produktionsumgebung – nicht aus einem isolierten Benchmark.


Quellen

KI Cases fasst öffentlich berichtete Einsätze neutral zusammen und verlinkt die Originalquellen. Maßgeblich ist die jeweilige Quelle.

Jede Woche neue KI-Fallstudien

Wie Unternehmen KI wirklich einsetzen — kuratiert, mit Quelle, in deine Inbox.

Abonnieren