- Опубликовано
Сегодняшний апдейт лидерборда swe-rebench мне...
- Автор
- Имя
- ElKornacio
- Telegram
- ElKornacio14983 подписчика408 постов
Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам:
1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны:
– gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gpt5-minimal.
– gpt-5.1-codex-max сильно лучше gpt5-codex, но на фоне других моделей от openai не так уж выделяется.
– Gemini 3 Pro – огромный скачок в агентских задачах по сравнению с 2.5 Pro. Оффтоп, но это моя любимая модель на текущий момент в бытовом пользовании, не могу народоваться фиче с нативной обработкой видео.
– DeepSeek-v3.2 – новая сота в open-source, но также и сота по потреблению токенов
– Devstral2 выглядит очень неплохо. Вроде как незаметный релиз от Mistral врывается в топ open-source моделей.
– Не забывайте, что к ранжированию нужно относиться осторожно, задач не так много и доля случайности все еще большая, даже несмотря на усреднение по 5 ранам. Но общая картина думаю понятна хорошо.
2. Добавили Claude Code как reference сота агента Режим запуска указан в инсайтах.
3. Для прозрачности Cost per Problem, добавили колонку Cached Tokens, как минимум для понимания, включен у модели кэшинг или нет.
Предыдущий пост
- Опубликовано
Что сломал ИИ в бизнес‑моделях?
Закрепленные
Из подборки #ai
- Опубликовано
в один вечер, лол 🙂
- Опубликовано
чет неделя философских дум, посты в голову не...
- Опубликовано
виб начало 2025 на лютых стероидах
- Опубликовано
gpt-5.2-codex автоматический рефакторинг кода
- Опубликовано
давайте коротко пробежимся по новостям 😼
- Опубликовано
что-то неделька безумная, режим сломался...
Свежие посты
- Опубликовано
в один вечер, лол 🙂
- Опубликовано
чет неделя философских дум, посты в голову не...
- Опубликовано
https://openai.com/codex/
- Опубликовано
давно я не смеялся от ответа ИИ в голос
- Опубликовано
мысли о влиянии AI‑агентов на качество кода
- Опубликовано
виб начало 2025 на лютых стероидах
- Опубликовано
gpt-5.2-codex автоматический рефакторинг кода
- Опубликовано

