CacheGen: KV Cache Compression and Streaming for Fast Language Model Serving (SIGCOMM'24, Paper1571)

CacheGen: KV Cache Compression and Streaming for Fast Language Model Serving (SIGCOMM'24, Paper1571)

ACM SIGCOMM

4 месяца назад

1,187 Просмотров

Ссылки и html тэги не поддерживаются


Комментарии: