- Опубликовано
Как улучшить LLM модели через цепочки рассуждений
- Автор
- Имя
- ElKornacio
- Telegram
- ElKornacio14983 подписчика408 постов
короче, LLM модели обучают на текстовых данных. обычно это текст спаршенный с интернета + немного человеческой обработки в конце.
данных давно не хватает - модели прошерстили уже +- всё, что мы (человечество) написали в тексте. и человеческая обработка - тоже узкое горлышко.
дополнительная проблема в том, что очень много вещей, которые люди написали в интернете - это какая-то рандомная хуйня. ну то есть, на вход обучения модели идут гороскопы, рандомные комменты школьников на форумах, посты Маска, и прочий контент, который трудно назвать "источником достоверных данных о мире и о том, как рассуждать".
чтобы совершить следующий принципиальный скачок в качестве моделей - надо дохрена очень качественных данных.
и есть такой подход в reinforcement learning (RL) - когда ты каким-то хитрым методом генерируешь правильные данные. в твите расказывается пример AlphaZero - шахматного ИИ. ему не нужно было отсматривать миллион матчей, которые играли люди. вместо этого, он просто генерировал последовательности шахматных ходов, а потом запоминал победные как правильные, а проигрышные - как неправильные. когда данные можно генерировать автоматически, практически в бесконечном количестве - это невероятно ускоряет, усиливает и улучшает в качестве обучение ИИ.
но если генерировать шахматные партии можно тупо перебором комбинаций ходов, то как генерировать логичный, рассудительный текст, в ходе которого ты делаешь правильное умозаключение?
и это ответ на вопрос "причем тут reasoning модели типа o1/R1?". они и есть способ генерировать такие качественные текстовые данные.
сейчас gpt-4o может выдать в ответ на вопрос какой-то бред. но если столкнуть 4o с самим собой, и попросить критически проверить свой же ответ, то качество его финального ответа, который он проверил в ходе цепочки рассуждений (chain-of-thought aka CoT) вырастает многократно. и... в этой цепочке не нужны люди - он сам порассуждал, и сам пришел к выводу. её можно запараллелить и провести миллион раз за час.
беда в том, что эта цепочка рассуждений - она затратна с точки зрения количества машинных ресурсов, времени, и т.п.
так вот, идея заключается в том - а что если.. мы используем 4o как базовую модель, при помощи цепочки рассуждений получим гораздо более качественный ответ в конце... а потом дадим эти данные (первоначальный запрос + финальный ответ после рассуждений) на вход на обучение новой модели?
тогда у нас получится новая базовая модель, которая без рассуждений, в первом же своём ответе будет гораздо меньше ошибаться, и будет гораздо логичнее и умнее.
а что если потом.. использовать уже такую, более умную модель, для новых цепочек рассуждений? и повторить весь прикол с "дать эти данные на вход на обучение ещё более совершенной модели"?
а что если делать это для конкретных доменных областей, скажем, программирования, где результат ещё и можно формально проверить?
и вот это и есть ответ на вопрос, почему комбинация RL + chain-of-thought модели - это большое событие.
они сильно расшивают текущую проблему нехватки качественных данных, и, потенциально, могут стать сейчас причиной, почему скорость развития ИИ вырастет ещё сильнее.
Предыдущий пост
- Опубликовано
Почему CoT reasoning важнее чем просто умные модели
Следующий пост
- Опубликовано
новые интересные новости
Закрепленные
Из подборки ai
- Опубликовано
https://openai.com/codex/
- Опубликовано
давно я не смеялся от ответа ИИ в голос
- Опубликовано
мысли о влиянии AI‑агентов на качество кода
- Опубликовано
Qwen3 Max Thinking: сравнение с ведущими моделями
- Опубликовано
и сейчас ещё будет очень смелый прогноз:...
- Опубликовано
сорри, чёт я то болел, то был в завале, всё...
Свежие посты
- Опубликовано
в один вечер, лол 🙂
- Опубликовано
чет неделя философских дум, посты в голову не...
- Опубликовано
https://openai.com/codex/
- Опубликовано
давно я не смеялся от ответа ИИ в голос
- Опубликовано
мысли о влиянии AI‑агентов на качество кода
- Опубликовано
виб начало 2025 на лютых стероидах
- Опубликовано
gpt-5.2-codex автоматический рефакторинг кода
- Опубликовано


