Подписаться

Опубликовано: вторник, 2 сентября 2025 г.

swe-bench verified это, конечно, кладезь...

Автор

Имя
ElKornacio
Telegram
telegram

ElKornacio

14845 подписчиков

408 постов

swe-bench verified это, конечно, кладезь интересной инфы про AI-агентов для разработки. где ещё можно встретить opensource репу с 49 звёздами, которая рвёт почти всех существующих платных агентов. или где чувак just-for-fun тестирует разные концепты, улучшающие работу агентов для разработки, и занимает 4 место в мире среди опенсорсных агентов (кстати, имплементация SWE-Search в moatless это прям имба, вагную что мы увидим это во всех агентах в ближайший год).

вообще в последние дни делал большое исследование текущего state-of-art в агентах для разработки, и там много всего забавного можно нарыть.

нередко проприетарные решения вырываются в лидеры (и отстраивают весь свой moat вокруг) с использованием буквально 1 улучшения по сравнению с аналогами. тот же Augment, который юзает code-tailored эмбеддинги, и очень крутые индексы, и строит всё вокруг этого (кстати, в оригинале этот концепт был впервые успешно обкатан в nemotron-cortexa, которая тоже есть на скрине)

Обсудить в Telegram

ElKornacio

14845 подписчиков

408 постов

Предыдущий пост

Опубликовано: 28 авг. 2025 г.

вчера это кинули в комменты, но мне...

Соревнование по программированию: писать промпт для ИИ вместо кода, рейтинг по используемым токенам

Следующий пост

Опубликовано: 2 сент. 2025 г.

guilty pleasure — смотреть, как люди задают LLM

почему LLM придумывает объяснения своих действий и отвечает на вопрос «почему ты это написал»

Закрепленные

ну и раз уж в этом канале начали появляться...

Данила разработчик, CTO, AI и криптовалютные проекты, медиа‑каналы

Из подборки #ai

Опубликовано: 5 февр. 2026 г.

+1

в один вечер, лол 🙂

Сравнение Opus 4.6 и GPT-5.3-codex в тестах SWE Verified и Terminal Bench

Опубликовано: 5 февр. 2026 г.

+1

чет неделя философских дум, посты в голову не...

философские размышления недели, обзор Codex app, ссылка на статью Astral Codex

Опубликовано: 28 янв. 2026 г.

+1

виб начало 2025 на лютых стероидах

влияние настроек среды и архитектуры на автономные AI‑агенты в 2025 г., рост эффективности и предсказания будущих революций

Опубликовано: 27 янв. 2026 г.

+1

gpt-5.2-codex автоматический рефакторинг кода

gpt-5.2-codex автоматический рефакторинг кода и устранение технического долга

Опубликовано: 27 янв. 2026 г.

+1

давайте коротко пробежимся по новостям 😼

новости AI: Kimi K2.5 agent swarm, OpenAI Prism редактор, DeepSeek OCR-2 модель

Опубликовано: 24 янв. 2026 г.

+1

что-то неделька безумная, режим сломался...

обзор моделей Claude Code, GPT‑5.2 и сравнение с Opus, перспективы AGI и ASI 2027‑2028

Все посты из подборки →

Свежие посты

Опубликовано: 5 февр. 2026 г.

+1

в один вечер, лол 🙂

Сравнение Opus 4.6 и GPT-5.3-codex в тестах SWE Verified и Terminal Bench

Опубликовано: 5 февр. 2026 г.

+1

чет неделя философских дум, посты в голову не...

философские размышления недели, обзор Codex app, ссылка на статью Astral Codex

Опубликовано: 3 февр. 2026 г.

+1

https://openai.com/codex/

OpenAI Codex тест: работает ли как Codex CLI?

Опубликовано: 30 янв. 2026 г.

+1

давно я не смеялся от ответа ИИ в голос

ответ ИИ в голос вызывает смех

Опубликовано: 30 янв. 2026 г.

+1

мысли о влиянии AI‑агентов на качество кода

как AI‑агенты повышают качество кода и ускоряют разработку

Опубликовано: 28 янв. 2026 г.

+1

виб начало 2025 на лютых стероидах

влияние настроек среды и архитектуры на автономные AI‑агенты в 2025 г., рост эффективности и предсказания будущих революций

Опубликовано: 27 янв. 2026 г.

+1

gpt-5.2-codex автоматический рефакторинг кода

gpt-5.2-codex автоматический рефакторинг кода и устранение технического долга

Опубликовано: 27 янв. 2026 г.

+1

давайте коротко пробежимся по новостям 😼

новости AI: Kimi K2.5 agent swarm, OpenAI Prism редактор, DeepSeek OCR-2 модель

Следующие посты →