Подписаться

Опубликовано: среда, 17 декабря 2025 г.

Сегодняшний апдейт лидерборда swe-rebench мне...

Автор

Имя
ElKornacio
Telegram
telegram

ElKornacio

14845 подписчиков

408 постов

Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам:

1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны: – gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gpt5-minimal. – gpt-5.1-codex-max сильно лучше gpt5-codex, но на фоне других моделей от openai не так уж выделяется. – Gemini 3 Pro – огромный скачок в агентских задачах по сравнению с 2.5 Pro. Оффтоп, но это моя любимая модель на текущий момент в бытовом пользовании, не могу народоваться фиче с нативной обработкой видео. – DeepSeek-v3.2 – новая сота в open-source, но также и сота по потреблению токенов – Devstral2 выглядит очень неплохо. Вроде как незаметный релиз от Mistral врывается в топ open-source моделей. – Не забывайте, что к ранжированию нужно относиться осторожно, задач не так много и доля случайности все еще большая, даже несмотря на усреднение по 5 ранам. Но общая картина думаю понятна хорошо. 2. Добавили Claude Code как reference сота агента Режим запуска указан в инсайтах. 3. Для прозрачности Cost per Problem, добавили колонку Cached Tokens, как минимум для понимания, включен у модели кэшинг или нет.

Обсудить в Telegram

ElKornacio

14845 подписчиков

408 постов

Предыдущий пост

Опубликовано: 17 дек. 2025 г.

Что сломал ИИ в бизнес‑моделях?

Какие бизнес‑модели разрушил ИИ и какие ещё могут выжить?

Следующий пост

Опубликовано: 18 дек. 2025 г.

https://blog.google/technology/google-labs/cc-ai-agent/

Google AI agent email interface announcement and user experience discussion

Закрепленные

ну и раз уж в этом канале начали появляться...

Данила разработчик, CTO, AI и криптовалютные проекты, медиа‑каналы

Из подборки #ai

Опубликовано: 5 февр. 2026 г.

+1

в один вечер, лол 🙂

Сравнение Opus 4.6 и GPT-5.3-codex в тестах SWE Verified и Terminal Bench

Опубликовано: 5 февр. 2026 г.

+1

чет неделя философских дум, посты в голову не...

философские размышления недели, обзор Codex app, ссылка на статью Astral Codex

Опубликовано: 28 янв. 2026 г.

+1

виб начало 2025 на лютых стероидах

влияние настроек среды и архитектуры на автономные AI‑агенты в 2025 г., рост эффективности и предсказания будущих революций

Опубликовано: 27 янв. 2026 г.

+1

gpt-5.2-codex автоматический рефакторинг кода

gpt-5.2-codex автоматический рефакторинг кода и устранение технического долга

Опубликовано: 27 янв. 2026 г.

+1

давайте коротко пробежимся по новостям 😼

новости AI: Kimi K2.5 agent swarm, OpenAI Prism редактор, DeepSeek OCR-2 модель

Опубликовано: 24 янв. 2026 г.

+1

что-то неделька безумная, режим сломался...

обзор моделей Claude Code, GPT‑5.2 и сравнение с Opus, перспективы AGI и ASI 2027‑2028

Все посты из подборки →

Свежие посты

Опубликовано: 5 февр. 2026 г.

+1

в один вечер, лол 🙂

Сравнение Opus 4.6 и GPT-5.3-codex в тестах SWE Verified и Terminal Bench

Опубликовано: 5 февр. 2026 г.

+1

чет неделя философских дум, посты в голову не...

философские размышления недели, обзор Codex app, ссылка на статью Astral Codex

Опубликовано: 3 февр. 2026 г.

+1

https://openai.com/codex/

OpenAI Codex тест: работает ли как Codex CLI?

Опубликовано: 30 янв. 2026 г.

+1

давно я не смеялся от ответа ИИ в голос

ответ ИИ в голос вызывает смех

Опубликовано: 30 янв. 2026 г.

+1

мысли о влиянии AI‑агентов на качество кода

как AI‑агенты повышают качество кода и ускоряют разработку

Опубликовано: 28 янв. 2026 г.

+1

виб начало 2025 на лютых стероидах

влияние настроек среды и архитектуры на автономные AI‑агенты в 2025 г., рост эффективности и предсказания будущих революций

Опубликовано: 27 янв. 2026 г.

+1

gpt-5.2-codex автоматический рефакторинг кода

gpt-5.2-codex автоматический рефакторинг кода и устранение технического долга

Опубликовано: 27 янв. 2026 г.

+1

давайте коротко пробежимся по новостям 😼

новости AI: Kimi K2.5 agent swarm, OpenAI Prism редактор, DeepSeek OCR-2 модель

Следующие посты →