Как улучшить LLM модели через цепочки рассуждений

короче, LLM модели обучают на текстовых данных. обычно это текст спаршенный с интернета + немного человеческой обработки в конце. данных давно не хватает - модели прошерстили уже +- всё, что мы (человечество) написали в тексте. и человеческая обработка - тоже узкое горлышко.

дополнительная проблема в том, что очень много вещей, которые люди написали в интернете - это какая-то рандомная хуйня. ну то есть, на вход обучения модели идут гороскопы, рандомные комменты школьников на форумах, посты Маска, и прочий контент, который трудно назвать "источником достоверных данных о мире и о том, как рассуждать".

чтобы совершить следующий принципиальный скачок в качестве моделей - надо дохрена очень качественных данных.

и есть такой подход в reinforcement learning (RL) - когда ты каким-то хитрым методом генерируешь правильные данные. в твите расказывается пример AlphaZero - шахматного ИИ. ему не нужно было отсматривать миллион матчей, которые играли люди. вместо этого, он просто генерировал последовательности шахматных ходов, а потом запоминал победные как правильные, а проигрышные - как неправильные. когда данные можно генерировать автоматически, практически в бесконечном количестве - это невероятно ускоряет, усиливает и улучшает в качестве обучение ИИ.

но если генерировать шахматные партии можно тупо перебором комбинаций ходов, то как генерировать логичный, рассудительный текст, в ходе которого ты делаешь правильное умозаключение?

и это ответ на вопрос "причем тут reasoning модели типа o1/R1?". они и есть способ генерировать такие качественные текстовые данные.

сейчас gpt-4o может выдать в ответ на вопрос какой-то бред. но если столкнуть 4o с самим собой, и попросить критически проверить свой же ответ, то качество его финального ответа, который он проверил в ходе цепочки рассуждений (chain-of-thought aka CoT) вырастает многократно. и... в этой цепочке не нужны люди - он сам порассуждал, и сам пришел к выводу. её можно запараллелить и провести миллион раз за час.

беда в том, что эта цепочка рассуждений - она затратна с точки зрения количества машинных ресурсов, времени, и т.п.

так вот, идея заключается в том - а что если.. мы используем 4o как базовую модель, при помощи цепочки рассуждений получим гораздо более качественный ответ в конце... а потом дадим эти данные (первоначальный запрос + финальный ответ после рассуждений) на вход на обучение новой модели?

тогда у нас получится новая базовая модель, которая без рассуждений, в первом же своём ответе будет гораздо меньше ошибаться, и будет гораздо логичнее и умнее.

а что если потом.. использовать уже такую, более умную модель, для новых цепочек рассуждений? и повторить весь прикол с "дать эти данные на вход на обучение ещё более совершенной модели"? а что если делать это для конкретных доменных областей, скажем, программирования, где результат ещё и можно формально проверить?

и вот это и есть ответ на вопрос, почему комбинация RL + chain-of-thought модели - это большое событие. они сильно расшивают текущую проблему нехватки качественных данных, и, потенциально, могут стать сейчас причиной, почему скорость развития ИИ вырастет ещё сильнее.

Как улучшить LLM модели через цепочки рассуждений

Предыдущий пост

Почему CoT reasoning важнее чем просто умные модели

Следующий пост

новые интересные новости

Из подборки ai

всё ещё не выздоровел, но эту новость не могу...

ребята, у меня большая просьба!

https://docs.z.ai/guides/llm/glm-4.7

ладно, это ужасно блеклый и скучный...

нихрена же себе, это что за камбек. важнее...

Вышло масштабное исследование от a16z и...

Свежие посты

всё ещё не выздоровел, но эту новость не могу...

чет разболелся, поэтому тезисно по шуму и...

проблемы Codex: ненужный код и баги

ребята, у меня большая просьба!

спасибо вайбкодинг за помощь в продажах

в общем, расскажу, зачем купил эти смарт-часы.

DIY смарт-колонка и часы ESP32 от Деда Мороза

в комментах несколько раз просили гайд, как...