Подписаться
Опубликовано

LlamaGen для генерации изображений

Автор
  • Имя
    ElKornacio
    Telegram

конечно, главный разъеб в том, что для генерации изображений используется не диффузер, а LlamaGen (от ByteDance) - относительно новая (7 мес) архитектура, которая применяет принципы генерации, которые используется в LLM'ках (предсказание след. токена) для генерации изображений.

даже её базовый вариант показывает ебейшие результаты, они свою статью на arXiv буквально назвали "Autoregressive model beats diffusion" 🙂 а я напомню, что главная "фишка" в таких моделях - устойчивый рост качества при скейлинге кол-ва параметров, то есть мы, вероятно, сейчас только в самом начале пути с генеративными моделями такого типа.

в DeepSeek Janus для генерации используется как раз LlamaGen. в целом, как мне кажется, именно поэтому все сравнивают её в бенчмарках именно с DALL-E/SDXL, народ воспринял эту модель чисто как image generation модель, просто потому что это её самая инновационная характеристика.

не так интересно, но забавно, что для распознавания изображений используется SigLIP, все входные картинки он жмет до 384х384 пикселей. маловато, конечно, да и в архитектуре CLIP нет ничего нового (её OpenAI придумали 4 года назад), но сам факт, что Janus благодаря этой надстройке ещё и мультимодален - это, конечно, вау.

14983 подписчика
408 постов

Из подборки ai

Свежие посты

Опубликовано

давайте коротко пробежимся по новостям 😼

новости AI: Kimi K2.5 agent swarm, OpenAI Prism редактор, DeepSeek OCR-2 модель