- Опубликовано
Как улучшить LLM модели через цепочки рассуждений
- Автор

- Имя
- ElKornacio
- Telegram
ElKornacio11113 подписчиков369 постов
короче, LLM модели обучают на текстовых данных. обычно это текст спаршенный с интернета + немного человеческой обработки в конце.
данных давно не хватает - модели прошерстили уже +- всё, что мы (человечество) написали в тексте. и человеческая обработка - тоже узкое горлышко.
дополнительная проблема в том, что очень много вещей, которые люди написали в интернете - это какая-то рандомная хуйня. ну то есть, на вход обучения модели идут гороскопы, рандомные комменты школьников на форумах, посты Маска, и прочий контент, который трудно назвать "источником достоверных данных о мире и о том, как рассуждать".
чтобы совершить следующий принципиальный скачок в качестве моделей - надо дохрена очень качественных данных.
и есть такой подход в reinforcement learning (RL) - когда ты каким-то хитрым методом генерируешь правильные данные. в твите расказывается пример AlphaZero - шахматного ИИ. ему не нужно было отсматривать миллион матчей, которые играли люди. вместо этого, он просто генерировал последовательности шахматных ходов, а потом запоминал победные как правильные, а проигрышные - как неправильные. когда данные можно генерировать автоматически, практически в бесконечном количестве - это невероятно ускоряет, усиливает и улучшает в качестве обучение ИИ.
но если генерировать шахматные партии можно тупо перебором комбинаций ходов, то как генерировать логичный, рассудительный текст, в ходе которого ты делаешь правильное умозаключение?
и это ответ на вопрос "причем тут reasoning модели типа o1/R1?". они и есть способ генерировать такие качественные текстовые данные.
сейчас gpt-4o может выдать в ответ на вопрос какой-то бред. но если столкнуть 4o с самим собой, и попросить критически проверить свой же ответ, то качество его финального ответа, который он проверил в ходе цепочки рассуждений (chain-of-thought aka CoT) вырастает многократно. и... в этой цепочке не нужны люди - он сам порассуждал, и сам пришел к выводу. её можно запараллелить и провести миллион раз за час.
беда в том, что эта цепочка рассуждений - она затратна с точки зрения количества машинных ресурсов, времени, и т.п.
так вот, идея заключается в том - а что если.. мы используем 4o как базовую модель, при помощи цепочки рассуждений получим гораздо более качественный ответ в конце... а потом дадим эти данные (первоначальный запрос + финальный ответ после рассуждений) на вход на обучение новой модели?
тогда у нас получится новая базовая модель, которая без рассуждений, в первом же своём ответе будет гораздо меньше ошибаться, и будет гораздо логичнее и умнее.
а что если потом.. использовать уже такую, более умную модель, для новых цепочек рассуждений? и повторить весь прикол с "дать эти данные на вход на обучение ещё более совершенной модели"?
а что если делать это для конкретных доменных областей, скажем, программирования, где результат ещё и можно формально проверить?
и вот это и есть ответ на вопрос, почему комбинация RL + chain-of-thought модели - это большое событие.
они сильно расшивают текущую проблему нехватки качественных данных, и, потенциально, могут стать сейчас причиной, почему скорость развития ИИ вырастет ещё сильнее.
Предыдущий пост
- Опубликовано
Почему CoT reasoning важнее чем просто умные модели
Следующий пост
- Опубликовано
новые интересные новости
Из подборки ai
- Опубликовано
всё ещё не выздоровел, но эту новость не могу...

- Опубликовано
ребята, у меня большая просьба!
- Опубликовано
https://docs.z.ai/guides/llm/glm-4.7

- Опубликовано
ладно, это ужасно блеклый и скучный...
- Опубликовано
нихрена же себе, это что за камбек. важнее...
- Опубликовано
Вышло масштабное исследование от a16z и...
Свежие посты
- Опубликовано
всё ещё не выздоровел, но эту новость не могу...

- Опубликовано
чет разболелся, поэтому тезисно по шуму и...
- Опубликовано
проблемы Codex: ненужный код и баги
- Опубликовано
ребята, у меня большая просьба!
- Опубликовано
спасибо вайбкодинг за помощь в продажах
- Опубликовано
в общем, расскажу, зачем купил эти смарт-часы.
- Опубликовано
DIY смарт-колонка и часы ESP32 от Деда Мороза

- Опубликовано