Google технологией TurboQuant в 6 раз снизила потребление памяти ИИ-моделями
Инженеры Google представили TurboQuant — разработку, которая резко снижает потребление памяти в ИИ-системах без потери точности вычислений. Для больших языковых моделей это решает одну из ключевых проблем: память всегда в дефиците и стоит дорого.
В основе лежит переработанный метод векторного квантования. Классический подход хорошо сжимает данные, но тащит за собой большой объём служебных параметров. TurboQuant от них избавляется. Ключевой элемент — PolarQuant: вместо стандартного представления данных через декартовы координаты система переходит к полярным, что позволяет хранить ту же информацию в меньшем объёме памяти.
Остаточная ошибка после сжатия исправляется дополнительным алгоритмом, которому требуется всего один бит данных. В его основе — преобразование Джонсона–Линденштрауса, умеющее уменьшать сложные многомерные массивы без разрушения связей между элементами.
Технологию проверили на стандартных тестах для длинных контекстов — LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval — на моделях Gemma и Mistral. Во всех случаях TurboQuant показал высокую точность при заметно меньшем потреблении памяти. Отдельные тесты на KV-кэше на базе Llama 3.1 8B Instruct подтвердили превосходство над конкурирующими методами сжатия.