Google Research가 AI 모델의 효율성을 혁신적으로 개선할 수 있는 새로운 알고리즘, TurboQuant를 발표했습니다. 이 기술은 대규모 언어 모델(LLM)의 KV 캐시(Key-Value cache) 메모리 요구량을 최소 6배 줄이면서도, NVIDIA$178.91 ▲+2.12% H100 GPU에서는 최대 8배의 성능 향상을 이끌어내는 것으로 나...
PREMIUM Google AI, LLM 캐시 메모리 6배 절감…NVIDIA H100서 8배 성능 향상