Platformă multi-tenant de inferență LLM

§ case / Lumen Labs

Platformă multi-tenant de inferență LLM

Platformă de inferență pe GKE cu GPU, autoscaling de la 0 la 200 de pods cu cold start sub 4s.

Am proiectat un stack de inferență multi-tenant cu rate limiting pe tokeni, namespace-uri izolate și cache partajat de modele. Autoscaling orizontal pe metrice custom.