- Опубликовано
LlamaGen для генерации изображений
- Автор
- Имя
- ElKornacio
- Telegram
- ElKornacio14983 подписчика408 постов
конечно, главный разъеб в том, что для генерации изображений используется не диффузер, а LlamaGen (от ByteDance) - относительно новая (7 мес) архитектура, которая применяет принципы генерации, которые используется в LLM'ках (предсказание след. токена) для генерации изображений.
даже её базовый вариант показывает ебейшие результаты, они свою статью на arXiv буквально назвали "Autoregressive model beats diffusion" 🙂
а я напомню, что главная "фишка" в таких моделях - устойчивый рост качества при скейлинге кол-ва параметров, то есть мы, вероятно, сейчас только в самом начале пути с генеративными моделями такого типа.
в DeepSeek Janus для генерации используется как раз LlamaGen. в целом, как мне кажется, именно поэтому все сравнивают её в бенчмарках именно с DALL-E/SDXL, народ воспринял эту модель чисто как image generation модель, просто потому что это её самая инновационная характеристика.
не так интересно, но забавно, что для распознавания изображений используется SigLIP, все входные картинки он жмет до 384х384 пикселей. маловато, конечно, да и в архитектуре CLIP нет ничего нового (её OpenAI придумали 4 года назад), но сам факт, что Janus благодаря этой надстройке ещё и мультимодален - это, конечно, вау.
Закрепленные
Из подборки ai
- Опубликовано
https://openai.com/codex/
- Опубликовано
давно я не смеялся от ответа ИИ в голос
- Опубликовано
мысли о влиянии AI‑агентов на качество кода
- Опубликовано
Qwen3 Max Thinking: сравнение с ведущими моделями
- Опубликовано
и сейчас ещё будет очень смелый прогноз:...
- Опубликовано
сорри, чёт я то болел, то был в завале, всё...
Свежие посты
- Опубликовано
в один вечер, лол 🙂
- Опубликовано
чет неделя философских дум, посты в голову не...
- Опубликовано
https://openai.com/codex/
- Опубликовано
давно я не смеялся от ответа ИИ в голос
- Опубликовано
мысли о влиянии AI‑агентов на качество кода
- Опубликовано
виб начало 2025 на лютых стероидах
- Опубликовано
gpt-5.2-codex автоматический рефакторинг кода
- Опубликовано



