Парижский стартап выжимает 3000 токенов в секунду — но на «обычных» GPU за миллион долларов

Три тысячи выходных токенов в секунду на один запрос. Без спекулятивного декодирования. Kog AI из Парижа заявляет, что добилась этого, уместив весь decode pass LLM в единый персистентный CUDA-ядро — без переключений между кернелами, без прерываний, без оверхеда на запуск. Архитектура работает с моделями от 1 до 32 миллиардов активных параметров. На 8 картах AMD MI300X — 3000 токенов/с, на 8 NVIDIA H200 — 2100.

Первый же комментарий в треде стал мемом. Цитата из статьи: «на стандартных GPU». Следующая строка: «8 NVIDIA H200». Кластер из восьми H200 стоит как хорошая квартира в Москве, и называть это «стандартным оборудованием» — примерно как называть Формулу-1 «обычным автомобилем».

Инженер, изучивший демо на playground.kog.ai, написал, что это ощущается как превью будущего — текст появляется быстрее, чем успеваешь читать. Но другой разработчик охладил энтузиазм: бенчмарки сделаны на модели в 2 миллиарда параметров, а сравнение идёт с фронтирными моделями. Двухмиллиардную модель и без революционных оптимизаций можно разогнать до приличных скоростей.

Скептик из треда задал ключевой вопрос: будет ли это реально работать с моделью на 27 миллиардов параметров и больше? Потому что именно там начинается настоящая боль с инференсом — и именно там 3000 токенов/с были бы действительно революционными.

Kog AI отвечает на это цифрами из будущего: следующее поколение GPU — Rubin от NVIDIA и MI450 от AMD, ожидаемые во второй половине 2026 — обеспечит четырёхкратный рост пропускной способности памяти. Та же скорость для моделей в четыре раза больше, или те же модели на четырёх GPU вместо восьми. Подход monokernel интересен не скоростью на сегодняшнем железе, а тем, как он масштабируется на завтрашнее. Если архитектура действительно работает без костылей спекулятивного декодирования, каждое следующее поколение чипов будет множить её преимущество.

Парижский стартап выжимает 3000 токенов в секунду — но на «обычных» GPU за миллион долларов

Получайте такие разборы каждый день

Руководитель команды MCP в OpenAI объясняет, почему «MCP мёртв» — это чушь