- Опубликовано
Subliminal Learning: скрытая передача черт в LLM
- Автор

- Имя
- ElKornacio
- Telegram
ElKornacio11113 подписчиков366 постов

Очень конспирологическая статья Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
https://arxiv.org/abs/2507.14805
В чем идея: модель-учителя обучали на датасете с какой-то ярко выраженной чертой. Например, прививая ей особенно сильную любовь к совам. Потом эту же модель просили сгенерировать данные, состоящие из с виду рандомных номеров. Например, продолжить уже созданный список каким-нибудь образом, без какого-то заданного паттерна. На этом числовом датасете потом учат student model
В итоге эта student model каким-то образом перенимает предпочтения модели-учителя и тоже начинает любить сов, обучившись на наборе чисел, которые видимо нам кажутся случайными, но таковыми не являются
Это работает с разными животными, и даже работает с MNIST: student model научилась решать задачи из этого датасета, по сути никогда не обучаясь на этих данных, а увидев только (pseudo)random noise от модели-учителя
При этом, эффект не сохраняется, если просто засунуть рандомные числа в контекст модели без дополнительного обучения, или если у студента и учителя разные базовые модели. Также отдельно проверяли, что это не подвид emergent misalignment, когда, например, модель становится злой, если ее обучить на небезопасном коде или на числах типа 666 и 1488
Еще этот подход работает, если вместо чисел генерить другие не связанные с выбранной чертой (e.g. любовь к совам) домены, например код или ризонинг трейсы для математических задач
В целом это интересная иллюстрация того, что все LLM – это достаточно необычные distribution machines. Но боюсь представить сколько шизо-теорий на этом теперь можно построить
Из подборки ai
- Опубликовано
всё ещё не выздоровел, но эту новость не могу...

- Опубликовано
ребята, у меня большая просьба!
- Опубликовано
https://docs.z.ai/guides/llm/glm-4.7

- Опубликовано
ладно, это ужасно блеклый и скучный...
- Опубликовано
нихрена же себе, это что за камбек. важнее...
- Опубликовано
Вышло масштабное исследование от a16z и...
Свежие посты
- Опубликовано
всё ещё не выздоровел, но эту новость не могу...

- Опубликовано
чет разболелся, поэтому тезисно по шуму и...
- Опубликовано
проблемы Codex: ненужный код и баги
- Опубликовано
ребята, у меня большая просьба!
- Опубликовано
спасибо вайбкодинг за помощь в продажах
- Опубликовано
в общем, расскажу, зачем купил эти смарт-часы.
- Опубликовано
DIY смарт-колонка и часы ESP32 от Деда Мороза

- Опубликовано
