Почему AI пишет «Это не X. Это Y». Виноват не датасет — виновата пост-тренировка
Эрик Сальваджо из рассылки Cybernetic Forests объясняет: когда мы ищем «AI-слоп» в тексте, мы смотрим не туда.
Эрик Сальваджо из рассылки Cybernetic Forests объясняет: когда мы ищем «AI-слоп» в тексте, мы смотрим не туда. Интуиция подсказывает проверять тренировочные данные — но результат определяет не датасет, а пост-тренировка: RLHF и RLVR (reinforcement learning through verified rewards). RLVR работает так: модель решает задачи, записывая рассуждения, и когда получает правильный ответ — язык, который привёл к нему, усиливается. Паттерн «Это не X. Это Y» — структура, которая чаще ведёт к верному выводу в цепочке рассуждений.
Тред сразу предложил проверку: у тех, кто тренирует модели — растёт ли частота «not-X-but-Y» после RLVR? Это верифицируемая гипотеза, но публичных данных пока нет.
Преподаватель с 15-летним стажем в academic writing заметил: «Мы оцениваем текст по языковым паттернам, а не по содержанию» — задолго до LLM. Преподаватели всегда штрафовали за «плохой стиль» и вознаграждали за определённые риторические структуры. AI-детекция — просто автоматизация того же предрассудка.
Другой голос: преподаватель, проверивший 10 курсовых, нашёл два текста с явными LLM-маркерами по всему документу — «не потому что специально искал, а потому что текст делает определённые вещи, которые человек не делает: идеальная структура при полном отсутствии авторского решения».
Самый тревожный аргумент: если AI-текст осваивает структуры, эффективные для рассуждений, и мы стыдим людей за использование тех же структур — мы наказываем за язык критического мышления. Контраргумент: нет, мы наказываем за имитацию мышления без содержания. Форма без функции — это и есть определение слопа.
Получайте такие разборы каждый день
Главные истории Hacker News на русском — в Telegram или RSS-ридере.
100 000 камер слежения за номерами на карте США. Краудсорсинг против Flock Safety
Проект DeFlock — краудсорсинговая карта камер автоматического распознавания номеров (ALPR) в США — пробил отметку в 100 тысяч нанесённых устройств.