- Опубликовано
Elon и команда показали Grok 3 и новые фичи
- Автор

- Имя
- ElKornacio
- Telegram
ElKornacio11113 подписчиков369 постов

Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:
— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.
Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати ) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.
TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.
<страницы блога пока нет, тоже ждём>
Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
Предыдущий пост
- Опубликовано
личные новости IT-специалиста за неделю
Следующий пост
- Опубликовано
новость о бенчмарке
Из подборки #ai
- Опубликовано
проблемы Codex: ненужный код и баги
- Опубликовано
DIY смарт-колонка и часы ESP32 от Деда Мороза

- Опубликовано
монтировал свой видос с рассказом про новые...
- Опубликовано
описание скилла в SKILL.md

- Опубликовано
забавно, мало получилось, claude code

- Опубликовано
гарантированный workflow с условными actions

Свежие посты
- Опубликовано
всё ещё не выздоровел, но эту новость не могу...

- Опубликовано
чет разболелся, поэтому тезисно по шуму и...
- Опубликовано
проблемы Codex: ненужный код и баги
- Опубликовано
ребята, у меня большая просьба!
- Опубликовано
спасибо вайбкодинг за помощь в продажах
- Опубликовано
в общем, расскажу, зачем купил эти смарт-часы.
- Опубликовано
DIY смарт-колонка и часы ESP32 от Деда Мороза

- Опубликовано