Подписаться

Опубликовано: суббота, 26 июля 2025 г.

Subliminal Learning: скрытая передача черт в LLM

Автор

Имя
ElKornacio
Telegram
telegram

ElKornacio

14845 подписчиков

408 постов

Очень конспирологическая статья Subliminal Learning: Language models transmit behavioral traits via hidden signals in data https://arxiv.org/abs/2507.14805

В чем идея: модель-учителя обучали на датасете с какой-то ярко выраженной чертой. Например, прививая ей особенно сильную любовь к совам. Потом эту же модель просили сгенерировать данные, состоящие из с виду рандомных номеров. Например, продолжить уже созданный список каким-нибудь образом, без какого-то заданного паттерна. На этом числовом датасете потом учат student model

В итоге эта student model каким-то образом перенимает предпочтения модели-учителя и тоже начинает любить сов, обучившись на наборе чисел, которые видимо нам кажутся случайными, но таковыми не являются

Это работает с разными животными, и даже работает с MNIST: student model научилась решать задачи из этого датасета, по сути никогда не обучаясь на этих данных, а увидев только (pseudo)random noise от модели-учителя

При этом, эффект не сохраняется, если просто засунуть рандомные числа в контекст модели без дополнительного обучения, или если у студента и учителя разные базовые модели. Также отдельно проверяли, что это не подвид emergent misalignment, когда, например, модель становится злой, если ее обучить на небезопасном коде или на числах типа 666 и 1488

Еще этот подход работает, если вместо чисел генерить другие не связанные с выбранной чертой (e.g. любовь к совам) домены, например код или ризонинг трейсы для математических задач

В целом это интересная иллюстрация того, что все LLM – это достаточно необычные distribution machines. Но боюсь представить сколько шизо-теорий на этом теперь можно построить

Обсудить в Telegram

ElKornacio

14845 подписчиков

408 постов

Предыдущий пост

Опубликовано: 26 июл. 2025 г.

простое создание AI‑агента в TypeScript

как быстро создать AI‑агента в TypeScript с использованием готовых библиотек

Следующий пост

Опубликовано: 26 июл. 2025 г.

лан, решил пойти в build in public формат 😼

как создать database AI‑agent с generative UI в формате build in public

Закрепленные

ну и раз уж в этом канале начали появляться...

Данила разработчик, CTO, AI и криптовалютные проекты, медиа‑каналы

Из подборки ai

Опубликовано: 3 февр. 2026 г.

+1

https://openai.com/codex/

OpenAI Codex тест: работает ли как Codex CLI?

Опубликовано: 30 янв. 2026 г.

+1

давно я не смеялся от ответа ИИ в голос

ответ ИИ в голос вызывает смех

Опубликовано: 30 янв. 2026 г.

+1

мысли о влиянии AI‑агентов на качество кода

как AI‑агенты повышают качество кода и ускоряют разработку

Опубликовано: 26 янв. 2026 г.

+1

Qwen3 Max Thinking: сравнение с ведущими моделями

Qwen3 Max Thinking сравнение с GPT-5.2, Claude-Opus-4.5 и Gemini 3 Pro

Опубликовано: 24 янв. 2026 г.

+1

и сейчас ещё будет очень смелый прогноз:...

прогноз развития AI в 2024: сравнение Anthropic, Google и OpenAI

Опубликовано: 19 янв. 2026 г.

+1

сорри, чёт я то болел, то был в завале, всё...

AI теперь решает почти все задачи: почему человек возвращается к работе и как изменился шитпостинг?

Все посты из подборки →

Свежие посты

Опубликовано: 5 февр. 2026 г.

+1

в один вечер, лол 🙂

Сравнение Opus 4.6 и GPT-5.3-codex в тестах SWE Verified и Terminal Bench

Опубликовано: 5 февр. 2026 г.

+1

чет неделя философских дум, посты в голову не...

философские размышления недели, обзор Codex app, ссылка на статью Astral Codex

Опубликовано: 3 февр. 2026 г.

+1

https://openai.com/codex/

OpenAI Codex тест: работает ли как Codex CLI?

Опубликовано: 30 янв. 2026 г.

+1

давно я не смеялся от ответа ИИ в голос

ответ ИИ в голос вызывает смех

Опубликовано: 30 янв. 2026 г.

+1

мысли о влиянии AI‑агентов на качество кода

как AI‑агенты повышают качество кода и ускоряют разработку

Опубликовано: 28 янв. 2026 г.

+1

виб начало 2025 на лютых стероидах

влияние настроек среды и архитектуры на автономные AI‑агенты в 2025 г., рост эффективности и предсказания будущих революций

Опубликовано: 27 янв. 2026 г.

+1

gpt-5.2-codex автоматический рефакторинг кода

gpt-5.2-codex автоматический рефакторинг кода и устранение технического долга

Опубликовано: 27 янв. 2026 г.

+1

давайте коротко пробежимся по новостям 😼

новости AI: Kimi K2.5 agent swarm, OpenAI Prism редактор, DeepSeek OCR-2 модель

Следующие посты →