ElKornacio логотип
Подписаться
Опубликовано

swe-bench verified это, конечно, кладезь...

Автор
Фотография поста

swe-bench verified это, конечно, кладезь интересной инфы про AI-агентов для разработки. где ещё можно встретить opensource репу с 49 звёздами, которая рвёт почти всех существующих платных агентов. или где чувак just-for-fun тестирует разные концепты, улучшающие работу агентов для разработки, и занимает 4 место в мире среди опенсорсных агентов (кстати, имплементация SWE-Search в moatless это прям имба, вагную что мы увидим это во всех агентах в ближайший год).

вообще в последние дни делал большое исследование текущего state-of-art в агентах для разработки, и там много всего забавного можно нарыть.

нередко проприетарные решения вырываются в лидеры (и отстраивают весь свой moat вокруг) с использованием буквально 1 улучшения по сравнению с аналогами. тот же Augment, который юзает code-tailored эмбеддинги, и очень крутые индексы, и строит всё вокруг этого (кстати, в оригинале этот концепт был впервые успешно обкатан в nemotron-cortexa, которая тоже есть на скрине)

11113 подписчиков
369 постов

Из подборки #ai

Свежие посты