Snap Inc. setzt prefix-cache-aware Routing für LLM-Inference in Produktion ein

Reifegrad: Im Einsatz

Im Register seit 15.06.2026. Wir verfolgen, was aus diesem KI-Einsatz wird.

Wie nutzt Snap Inc. KI?

Snap Inc. integriert llm-d mit prefix-cache-aware Routing in seine produktive KI-Infrastruktur und erreicht damit Prefix-Cache-Hit-Raten von 75 bis 80 %.

AI Infrastructure / InferenceHochperformantes LLM-Inference in Produktion mit prefix-cache-aware Routing (75–80% Cache-Hit-Rate)GKE Inference Gateway, llm-d, Envoy-based Service Mesh

Auf einen Blick

Unternehmen: Snap Inc.
Branche: Social Media / Technology
Land: USA
Funktion: AI Infrastructure / Inference
KI-Technik: GKE Inference Gateway, llm-d, Envoy-based Service Mesh
KI-Anbieter: Google (Sitz: USA, außerhalb der EU)
Ergebnis: Prefix-Cache-Hit-Rate von 75 bis 80 %

KI-Anbieter = Unternehmenssitz des genutzten Anbieters. Wo Daten konkret verarbeitet werden, hängt von Region und Vertrag ab. Keine Aussage zur DSGVO-Konformität.

Ausgangslage

Generative KI-Workloads stellen in Produktionsumgebungen hohe Anforderungen an die Inferenz-Infrastruktur. Konventionelles Round-Robin-Load-Balancing verteilt eingehende Anfragen ohne Rücksicht darauf, welche Modellserver bereits relevante Kontextdaten im KV-Cache (Key-Value-Cache) vorhalten. Das führt dazu, dass identische Prompt-Präfixe wiederholt neu berechnet werden, mit entsprechend höherer Latenz und stärkerem Ressourcenverbrauch auf den Beschleunigern.

Prefix Caching adressiert dieses Problem, indem die Aktivierungszustände langer, repetitiver Prompt-Präfixe gespeichert werden. Wenn aufeinanderfolgende Anfragen dieselben Systeminstruktionen, denselben Kontext oder dieselbe Dokumentation teilen, überspringt das Modell die erneute Verarbeitung dieser Token vollständig.

Was das Unternehmen konkret macht

Snap Inc. integriert llm-d in seine produktive KI-Infrastruktur. llm-d ist ein Open-Source-Framework für hochperformante LLM-Inference. Laut Vinay Kola, Senior Manager Software Engineering bei Snap Inc., setzt das Unternehmen dabei auf prefix-cache-aware Routing: „At Snap, we are integrating llm-d into our production AI infrastructure to facilitate high-performance inference at scale."

Das Routing sorgt dafür, dass eingehende Anfragen gezielt an jene Instanzen weitergeleitet werden, die den relevanten Prefix bereits im Cache vorhalten. Wiederholte Berechnungen identischer Prompt-Anteile entfallen damit.

Technik & Ansatz

Snap nutzt llm-d in Kombination mit einem Envoy-basierten Service Mesh. Kola beschreibt dies explizit: „We appreciate the open-source nature of llm-d, as it enables seamless integration with our Envoy-based Service Mesh."

Prefix-cache-aware Routing liest eingehende Request-Präfixe und gleicht sie mit den Pods ab, die den entsprechenden KV-Cache bereits im Speicher halten. Dadurch entfällt die erneute Tokenverarbeitung für statische Anteile wie Systemprompts, Dokumentationskontext oder feste Geschäftsregeln. Nur der dynamische, anfragespezifische Teil des Prompts muss neu berechnet werden.

Ergebnisse

Snap erreicht mit diesem Ansatz Prefix-Cache-Hit-Raten von 75 bis 80 %. Kola: „By employing prefix-cache-aware routing, we have achieved prefix cache hit rates ranging up to 75-80 %."

Weitere spezifische Kennzahlen zu Latenz, Durchsatz oder Kosteneinsparungen aus Snaps eigenem Betrieb sind in den vorliegenden Quellen nicht belegt.

Einordnung

Der Einsatz von llm-d bei Snap steht im Kontext eines breiteren Trends: Inference-Infrastruktur wird zum entscheidenden Faktor, wenn KI-Anwendungen aus dem Experimentierstadium in den produktiven Betrieb überführt werden. Die Wahl eines Open-Source-Frameworks und die Integration in ein bestehendes Envoy-basiertes Service Mesh deuten auf eine Infrastrukturstrategie hin, die auf Kompatibilität mit vorhandenen Komponenten setzt. Die belegte Cache-Hit-Rate von 75 bis 80 % ist ein konkreter Betriebswert aus der Produktionsumgebung, nicht aus einem isolierten Benchmark.

Quellen

Unabhängig belegt

Von einer unabhängigen Quelle (Redaktion/Dritter) berichtet, nicht nur vom Unternehmen oder KI-Anbieter.

KI Cases fasst öffentlich berichtete Einsätze neutral zusammen und verlinkt die Originalquellen. Maßgeblich ist die jeweilige Quelle.

Weitere Fälle

SAP SE

Unternehmenssoftware

Unabhängig

SAP führt dreistufiges Token-Budget-System zur Steuerung interner KI-Kosten ein

SAP SE steuert die internen KI-Kosten seiner Mitarbeiter über ein dreistufiges Token-Budget-System mit monatlichen Obergrenzen von 100 €, 500 € bzw. 5.000 € je nach Rolle sowie automatischen Warnmechanismen bei 50 % und 80 % Budgetausschöpfung.

Interne IT / Prozessautomatisierung · KI-Anwendungen (intern)

Hugging Face

Technology / AI

Unabhängig

Hugging Face setzt chinesisches Open-Weight-Modell zur Angriffs-Forensik ein, nachdem kommerzielle KI-APIs die Analyse blockieren

Hugging Face hat nach einem KI-Agenten-Angriff auf seine Infrastruktur das chinesische Open-Weight-Modell GLM 5.2 auf eigener Hardware eingesetzt, um über 17.000 aufgezeichnete Ereignisse forensisch auszuwerten, nachdem kommerzielle Closed-Source-Modelle die Analyse aufgrund ihrer Guardrails blockiert hatten.

IT-Sicherheit · Chinesisches KI-Modell (nicht näher spezifiziert)

JioStar

Medien / Streaming

Unabhängig

JioStar: KI-gestützte Medienproduktion und konversationelle Inhaltssuche auf JioHotstar

JioStar baut ein KI-Studio für vollständige Medienproduktionen, von Mikrodramen bis hin zu Primetime-Serien und Spielfilmen, und setzt OpenAI-Technologie für konversationelle Inhaltssuche auf JioHotstar ein.

Medienproduktion · Generative KI (GenAI Media Studio)

Jede Woche neue KI-Fallstudien

Wie Unternehmen KI wirklich einsetzen: kuratiert, mit Quelle. Der Newsletter startet bald, trag dich ein und sei von Anfang an dabei.