ElKornacio логотип
Подписаться
Опубликовано

Как улучшить LLM модели через цепочки рассуждений

Автор

короче, LLM модели обучают на текстовых данных. обычно это текст спаршенный с интернета + немного человеческой обработки в конце. данных давно не хватает - модели прошерстили уже +- всё, что мы (человечество) написали в тексте. и человеческая обработка - тоже узкое горлышко.

дополнительная проблема в том, что очень много вещей, которые люди написали в интернете - это какая-то рандомная хуйня. ну то есть, на вход обучения модели идут гороскопы, рандомные комменты школьников на форумах, посты Маска, и прочий контент, который трудно назвать "источником достоверных данных о мире и о том, как рассуждать".

чтобы совершить следующий принципиальный скачок в качестве моделей - надо дохрена очень качественных данных.

и есть такой подход в reinforcement learning (RL) - когда ты каким-то хитрым методом генерируешь правильные данные. в твите расказывается пример AlphaZero - шахматного ИИ. ему не нужно было отсматривать миллион матчей, которые играли люди. вместо этого, он просто генерировал последовательности шахматных ходов, а потом запоминал победные как правильные, а проигрышные - как неправильные. когда данные можно генерировать автоматически, практически в бесконечном количестве - это невероятно ускоряет, усиливает и улучшает в качестве обучение ИИ.

но если генерировать шахматные партии можно тупо перебором комбинаций ходов, то как генерировать логичный, рассудительный текст, в ходе которого ты делаешь правильное умозаключение?

и это ответ на вопрос "причем тут reasoning модели типа o1/R1?". они и есть способ генерировать такие качественные текстовые данные.

сейчас gpt-4o может выдать в ответ на вопрос какой-то бред. но если столкнуть 4o с самим собой, и попросить критически проверить свой же ответ, то качество его финального ответа, который он проверил в ходе цепочки рассуждений (chain-of-thought aka CoT) вырастает многократно. и... в этой цепочке не нужны люди - он сам порассуждал, и сам пришел к выводу. её можно запараллелить и провести миллион раз за час.

беда в том, что эта цепочка рассуждений - она затратна с точки зрения количества машинных ресурсов, времени, и т.п.

так вот, идея заключается в том - а что если.. мы используем 4o как базовую модель, при помощи цепочки рассуждений получим гораздо более качественный ответ в конце... а потом дадим эти данные (первоначальный запрос + финальный ответ после рассуждений) на вход на обучение новой модели?

тогда у нас получится новая базовая модель, которая без рассуждений, в первом же своём ответе будет гораздо меньше ошибаться, и будет гораздо логичнее и умнее.

а что если потом.. использовать уже такую, более умную модель, для новых цепочек рассуждений? и повторить весь прикол с "дать эти данные на вход на обучение ещё более совершенной модели"? а что если делать это для конкретных доменных областей, скажем, программирования, где результат ещё и можно формально проверить?

и вот это и есть ответ на вопрос, почему комбинация RL + chain-of-thought модели - это большое событие. они сильно расшивают текущую проблему нехватки качественных данных, и, потенциально, могут стать сейчас причиной, почему скорость развития ИИ вырастет ещё сильнее.

11113 подписчиков
369 постов

Свежие посты