Snap Inc.
Social Media / Technology
Snap Inc. setzt prefix-cache-aware Routing für LLM-Inference in Produktion ein
Snap Inc. integriert llm-d mit prefix-cache-aware Routing in seine produktive KI-Infrastruktur und erreicht damit Prefix-Cache-Hit-Raten von 75–80 %.
AI Infrastructure / Inference · GKE Inference Gateway, llm-d, Envoy-based Service Mesh