Подписаться
Опубликовано

Daily Papers: обучение ИИ без RLHF 2025

Автор
  • Имя
    ElKornacio
    Telegram

вчера первое место в Daily Papers на Hugging Face долго держала работа российских ребят про алгоритмы прямого обучения ИИ (без предварительного обучения reward модели), и как они их тюнили. я хотел про неё написать, но так и не смог придумать, как перевести её на простой человеческий язык.

а вот сегодня в топе Daily Papers работа, которую легко перевсти на человеческий язык, и которая понравилась мне лично, как разработчику. и она в очередной раз подтверила мою мысль, которую я уже озвучивал раз пять: в 2025 году главный хит - обучение моделей без ручного человеческого труда (SFT/RLHF).

поэтому я бахнул про неё небольшую новость на Хабр: https://habr.com/ru/news/879826/

14983 подписчика
408 постов

Из подборки #ai

Опубликовано

давайте коротко пробежимся по новостям 😼

новости AI: Kimi K2.5 agent swarm, OpenAI Prism редактор, DeepSeek OCR-2 модель

Свежие посты

Опубликовано

давайте коротко пробежимся по новостям 😼

новости AI: Kimi K2.5 agent swarm, OpenAI Prism редактор, DeepSeek OCR-2 модель