- Опубликовано
Сегодняшний апдейт лидерборда swe-rebench мне...
- Автор

- Имя
- ElKornacio
- Telegram
ElKornacio11113 подписчиков370 постов
Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам:
1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны:
– gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gpt5-minimal.
– gpt-5.1-codex-max сильно лучше gpt5-codex, но на фоне других моделей от openai не так уж выделяется.
– Gemini 3 Pro – огромный скачок в агентских задачах по сравнению с 2.5 Pro. Оффтоп, но это моя любимая модель на текущий момент в бытовом пользовании, не могу народоваться фиче с нативной обработкой видео.
– DeepSeek-v3.2 – новая сота в open-source, но также и сота по потреблению токенов
– Devstral2 выглядит очень неплохо. Вроде как незаметный релиз от Mistral врывается в топ open-source моделей.
– Не забывайте, что к ранжированию нужно относиться осторожно, задач не так много и доля случайности все еще большая, даже несмотря на усреднение по 5 ранам. Но общая картина думаю понятна хорошо.
2. Добавили Claude Code как reference сота агента Режим запуска указан в инсайтах.
3. Для прозрачности Cost per Problem, добавили колонку Cached Tokens, как минимум для понимания, включен у модели кэшинг или нет.
Предыдущий пост
- Опубликовано
Что сломал ИИ в бизнес‑моделях?
Из подборки #ai
- Опубликовано
проблемы Codex: ненужный код и баги
- Опубликовано
DIY смарт-колонка и часы ESP32 от Деда Мороза

- Опубликовано
монтировал свой видос с рассказом про новые...
- Опубликовано
описание скилла в SKILL.md

- Опубликовано
забавно, мало получилось, claude code

- Опубликовано
гарантированный workflow с условными actions

Свежие посты
- Опубликовано
всё ещё не выздоровел, но эту новость не могу...

- Опубликовано
чет разболелся, поэтому тезисно по шуму и...
- Опубликовано
проблемы Codex: ненужный код и баги
- Опубликовано
ребята, у меня большая просьба!
- Опубликовано
спасибо вайбкодинг за помощь в продажах
- Опубликовано
в общем, расскажу, зачем купил эти смарт-часы.
- Опубликовано
DIY смарт-колонка и часы ESP32 от Деда Мороза

- Опубликовано