- Опубликовано
Elon и команда показали Grok 3 и новые фичи
- Автор
- Имя
- ElKornacio
- Telegram
- ElKornacio14983 подписчика408 постов
Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:
— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.
Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати ) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.
TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.
<страницы блога пока нет, тоже ждём>
Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
Предыдущий пост
- Опубликовано
личные новости IT-специалиста за неделю
Следующий пост
- Опубликовано
Lingo.dev привлек $4.2 млн инвестиций
Закрепленные
Из подборки #ai
- Опубликовано
в один вечер, лол 🙂
- Опубликовано
чет неделя философских дум, посты в голову не...
- Опубликовано
виб начало 2025 на лютых стероидах
- Опубликовано
gpt-5.2-codex автоматический рефакторинг кода
- Опубликовано
давайте коротко пробежимся по новостям 😼
- Опубликовано
что-то неделька безумная, режим сломался...
Свежие посты
- Опубликовано
в один вечер, лол 🙂
- Опубликовано
чет неделя философских дум, посты в голову не...
- Опубликовано
https://openai.com/codex/
- Опубликовано
давно я не смеялся от ответа ИИ в голос
- Опубликовано
мысли о влиянии AI‑агентов на качество кода
- Опубликовано
виб начало 2025 на лютых стероидах
- Опубликовано
gpt-5.2-codex автоматический рефакторинг кода
- Опубликовано


