Înapoi la listă
§ case / Lumen Labs
Platformă multi-tenant de inferență LLM
Platformă de inferență pe GKE cu GPU, autoscaling de la 0 la 200 de pods cu cold start sub 4s.
Am proiectat un stack de inferență multi-tenant cu rate limiting pe tokeni, namespace-uri izolate și cache partajat de modele. Autoscaling orizontal pe metrice custom.