Подписаться

Опубликовано: понедельник, 27 января 2025 г.

LlamaGen для генерации изображений

Автор

Имя
ElKornacio
Telegram
telegram

ElKornacio

14845 подписчиков

408 постов

конечно, главный разъеб в том, что для генерации изображений используется не диффузер, а LlamaGen (от ByteDance) - относительно новая (7 мес) архитектура, которая применяет принципы генерации, которые используется в LLM'ках (предсказание след. токена) для генерации изображений.

даже её базовый вариант показывает ебейшие результаты, они свою статью на arXiv буквально назвали "Autoregressive model beats diffusion" 🙂 а я напомню, что главная "фишка" в таких моделях - устойчивый рост качества при скейлинге кол-ва параметров, то есть мы, вероятно, сейчас только в самом начале пути с генеративными моделями такого типа.

в DeepSeek Janus для генерации используется как раз LlamaGen. в целом, как мне кажется, именно поэтому все сравнивают её в бенчмарках именно с DALL-E/SDXL, народ воспринял эту модель чисто как image generation модель, просто потому что это её самая инновационная характеристика.

не так интересно, но забавно, что для распознавания изображений используется SigLIP, все входные картинки он жмет до 384х384 пикселей. маловато, конечно, да и в архитектуре CLIP нет ничего нового (её OpenAI придумали 4 года назад), но сам факт, что Janus благодаря этой надстройке ещё и мультимодален - это, конечно, вау.

Обсудить в Telegram

ElKornacio

14845 подписчиков

408 постов

Предыдущий пост

Опубликовано: 27 янв. 2025 г.

астрологи объявили неделю DeepSeek

DeepSeek Janus-7B — новая 7‑B мультимодальная модель, генерирует текст и изображения, запускается локально на Mac

Следующий пост

Опубликовано: 27 янв. 2025 г.

не смог устоять, и бахнул по горячим следам...

Анализ свежих трендов и ключевых данных. Узнайте, что происходит прямо сейчас.

Закрепленные

ну и раз уж в этом канале начали появляться...

Данила разработчик, CTO, AI и криптовалютные проекты, медиа‑каналы

Из подборки ai

Опубликовано: 3 февр. 2026 г.

+1

https://openai.com/codex/

OpenAI Codex тест: работает ли как Codex CLI?

Опубликовано: 30 янв. 2026 г.

+1

давно я не смеялся от ответа ИИ в голос

ответ ИИ в голос вызывает смех

Опубликовано: 30 янв. 2026 г.

+1

мысли о влиянии AI‑агентов на качество кода

как AI‑агенты повышают качество кода и ускоряют разработку

Опубликовано: 26 янв. 2026 г.

+1

Qwen3 Max Thinking: сравнение с ведущими моделями

Qwen3 Max Thinking сравнение с GPT-5.2, Claude-Opus-4.5 и Gemini 3 Pro

Опубликовано: 24 янв. 2026 г.

+1

и сейчас ещё будет очень смелый прогноз:...

прогноз развития AI в 2024: сравнение Anthropic, Google и OpenAI

Опубликовано: 19 янв. 2026 г.

+1

сорри, чёт я то болел, то был в завале, всё...

AI теперь решает почти все задачи: почему человек возвращается к работе и как изменился шитпостинг?

Все посты из подборки →

Свежие посты

Опубликовано: 5 февр. 2026 г.

+1

в один вечер, лол 🙂

Сравнение Opus 4.6 и GPT-5.3-codex в тестах SWE Verified и Terminal Bench

Опубликовано: 5 февр. 2026 г.

+1

чет неделя философских дум, посты в голову не...

философские размышления недели, обзор Codex app, ссылка на статью Astral Codex

Опубликовано: 3 февр. 2026 г.

+1

https://openai.com/codex/

OpenAI Codex тест: работает ли как Codex CLI?

Опубликовано: 30 янв. 2026 г.

+1

давно я не смеялся от ответа ИИ в голос

ответ ИИ в голос вызывает смех

Опубликовано: 30 янв. 2026 г.

+1

мысли о влиянии AI‑агентов на качество кода

как AI‑агенты повышают качество кода и ускоряют разработку

Опубликовано: 28 янв. 2026 г.

+1

виб начало 2025 на лютых стероидах

влияние настроек среды и архитектуры на автономные AI‑агенты в 2025 г., рост эффективности и предсказания будущих революций

Опубликовано: 27 янв. 2026 г.

+1

gpt-5.2-codex автоматический рефакторинг кода

gpt-5.2-codex автоматический рефакторинг кода и устранение технического долга

Опубликовано: 27 янв. 2026 г.

+1

давайте коротко пробежимся по новостям 😼

новости AI: Kimi K2.5 agent swarm, OpenAI Prism редактор, DeepSeek OCR-2 модель

Следующие посты →