Нашествие гоблинов: почему ChatGPT одержим сказочными существами

OpenAI провела расследование и выяснила: всё началось с настройки «nerdy» и одного механизма подкрепления.

После выхода 23 апреля GPT-5.5 пользователи заметили в приложении Codex необычный системный промпт: «Никогда не упоминай гоблинов, гремлинов, енотов, троллей, огров, голубей и других существ, если это не имеет прямого отношения к запросу пользователя». Звучит как шутка — но за этим стоит реальная история.

В блоге, опубликованном 29 апреля, OpenAI рассказала, как всё началось. После выпуска GPT-5.1 в ноябре прошлого года один из исследователей безопасности попросил проверить, как часто модель использует слова «goblin» и «gremlin». Выяснилось, что по сравнению с предыдущими версиями частота упоминания «goblin» выросла на 175 %, «gremlin» — на 52 %. После выхода GPT-5.4 гоблинов стало еще больше.

«Один маленький гоблин в ответе может быть безобидным, даже милым. Но с каждым поколением модели гоблинов становилось всё больше — и нам нужно было понять, откуда они берутся», — пишет OpenAI.

Причину нашли в настройке личности модели. ChatGPT позволяет выбирать тон ответов, и до марта этого года одна из опций называлась «nerdy». Ее системный промпт содержал фразу: «Мир сложен и странен, и эту странность нужно признавать, анализировать и получать от нее удовольствие». Когда OpenAI сопоставила упоминания гоблинов с разными личностями, оказалось, что «nerdy» — при доле всего 2,5 % от всех ответов — генерировала 66,7 % всех гоблинов.

Дальше сработала механика обучения с подкреплением (reinforcement learning). Один из механизмов вознаграждения систематически ставил более высокие оценки ответам со словами «goblin» или «gremlin» — это подтвердилось в 76,2 % проверенных датасетов. Модель усвоила: гоблины = хорошо.

Проблема в том, что обучение с подкреплением не гарантирует, что усвоенное поведение останется в рамках одной настройки. Привычка «расползлась» на другие режимы — особенно когда ответы с гоблинами попадали в данные для дальнейшего обучения.

GPT-5.5 начали обучать до того, как причину нашли, — поэтому в Codex и появился промпт-заплатка с запретом на упоминание существ. «Codex, в конце концов, тот еще нерд», — признает OpenAI. Компания отмечает, что в ходе расследования создала новые инструменты для аудита и исправления поведения моделей.

История забавная — но она наглядно показывает, как непредсказуемо ведет себя обучение с подкреплением: одна крошечная деталь в системе вознаграждений может размножиться по всей модели, как те самые гоблины.

Источник:Engadget

Ася7 дней назад

А можно теперь механически подключить их обратно?:3

Ответить

Елизавета 3 дня назад

теперь буду специально вставлять слово «goblin» в промпты и смотреть, что будет. чисто в научных целях, конечно))

Ответить

Комментарии (2)

Войдите или зарегистрируйтесь, чтобы оставить комментарий

Ася7 дней назад

А можно теперь механически подключить их обратно?:3

Елизавета 3 дня назад

теперь буду специально вставлять слово «goblin» в промпты и смотреть, что будет. чисто в научных целях, конечно))

Ася7 дней назад

А можно теперь механически подключить их обратно?:3

Ответить

Елизавета 3 дня назад

теперь буду специально вставлять слово «goblin» в промпты и смотреть, что будет. чисто в научных целях, конечно))

Ответить