Парижский стартап выжимает 3000 токенов в секунду — но на «обычных» GPU за миллион долларов
Три тысячи выходных токенов в секунду на один запрос.
Три тысячи выходных токенов в секунду на один запрос. Без спекулятивного декодирования. Kog AI из Парижа заявляет, что добилась этого, уместив весь decode pass LLM в единый персистентный CUDA-ядро — без переключений между кернелами, без прерываний, без оверхеда на запуск. Архитектура работает с моделями от 1 до 32 миллиардов активных параметров. На 8 картах AMD MI300X — 3000 токенов/с, на 8 NVIDIA H200 — 2100.
Первый же комментарий в треде стал мемом. Цитата из статьи: «на стандартных GPU». Следующая строка: «8 NVIDIA H200». Кластер из восьми H200 стоит как хорошая квартира в Москве, и называть это «стандартным оборудованием» — примерно как называть Формулу-1 «обычным автомобилем».
Инженер, изучивший демо на playground.kog.ai, написал, что это ощущается как превью будущего — текст появляется быстрее, чем успеваешь читать. Но другой разработчик охладил энтузиазм: бенчмарки сделаны на модели в 2 миллиарда параметров, а сравнение идёт с фронтирными моделями. Двухмиллиардную модель и без революционных оптимизаций можно разогнать до приличных скоростей.
Скептик из треда задал ключевой вопрос: будет ли это реально работать с моделью на 27 миллиардов параметров и больше? Потому что именно там начинается настоящая боль с инференсом — и именно там 3000 токенов/с были бы действительно революционными.
Kog AI отвечает на это цифрами из будущего: следующее поколение GPU — Rubin от NVIDIA и MI450 от AMD, ожидаемые во второй половине 2026 — обеспечит четырёхкратный рост пропускной способности памяти. Та же скорость для моделей в четыре раза больше, или те же модели на четырёх GPU вместо восьми. Подход monokernel интересен не скоростью на сегодняшнем железе, а тем, как он масштабируется на завтрашнее. Если архитектура действительно работает без костылей спекулятивного декодирования, каждое следующее поколение чипов будет множить её преимущество.
Получайте такие разборы каждый день
Главные истории Hacker News на русском — в Telegram или RSS-ридере.
Руководитель команды MCP в OpenAI объясняет, почему «MCP мёртв» — это чушь
Инженеры из Quandri сели и посчитали реальную стоимость MCP.