ElKornacio логотип
Подписаться
Опубликовано

LlamaGen для генерации изображений

Автор

конечно, главный разъеб в том, что для генерации изображений используется не диффузер, а LlamaGen (от ByteDance) - относительно новая (7 мес) архитектура, которая применяет принципы генерации, которые используется в LLM'ках (предсказание след. токена) для генерации изображений.

даже её базовый вариант показывает ебейшие результаты, они свою статью на arXiv буквально назвали "Autoregressive model beats diffusion" 🙂 а я напомню, что главная "фишка" в таких моделях - устойчивый рост качества при скейлинге кол-ва параметров, то есть мы, вероятно, сейчас только в самом начале пути с генеративными моделями такого типа.

в DeepSeek Janus для генерации используется как раз LlamaGen. в целом, как мне кажется, именно поэтому все сравнивают её в бенчмарках именно с DALL-E/SDXL, народ воспринял эту модель чисто как image generation модель, просто потому что это её самая инновационная характеристика.

не так интересно, но забавно, что для распознавания изображений используется SigLIP, все входные картинки он жмет до 384х384 пикселей. маловато, конечно, да и в архитектуре CLIP нет ничего нового (её OpenAI придумали 4 года назад), но сам факт, что Janus благодаря этой надстройке ещё и мультимодален - это, конечно, вау.

11113 подписчиков
368 постов

Свежие посты