что-то неделька безумная, режим сломался...

что-то неделька безумная, режим сломался полностью, навалилась тонна бюрократических задач, вообще выпал из жизни. микро-новости, оч коротко: 1. оч много стал юзать claude code / codex, даже проплатил тарифы побольше. 3-4 потока стабильно 2. я был не прав, когда говорил, что Opus > gpt-5.2. прям очень не прав. разница между ними как между Sonnet 4 (не 4.5) и Opus 4.5. GPT-5.2 xhigh через codex cli прям безумная машина - компактизация бесшовная настолько, что я даже не замечаю её (в случае Claude Code компактизация - это практически лоботомия чату, приходится всё объяснять сначала) 3. гораздо больше юзаю Antigravity, browser-harness у него прям хороший, хоть и очень медленный 4. ни секунды не сомневаюсь, что Anthropic бенчмаксит бенчи по долгой автономной работе через завышение таймаутов / sleep'ов 5. не, ну вы прям не представляете, насколько 5.2 лучше Opus. либо после проплаты подписки Anthropic мне занерфил опус (потому что он прям как будто заметно тупее стал), либо меня реально сломал тот факт, что 5.2 _реально_ следует инструкциям.

вторая штука, про которую очень хочется написать что-то вдумчиво философское, это то, что если раньше всякие тейки про AGI 2027 мне казались преувеличенными, и 2030 выглядел реалистичнее, то в последние недели я задаюсь двумя вопросами: 1. а почему мы вообще считаем, что то, что у нас есть сейчас - ещё не AGI? 2. мне кажется, что ASI 2027-2028 даже более реалистичный горизонт, чем AGI

а ещё, хочу повторить тейк из предыдущего поста: если ИИ сейчас не может справляться с вашей задачей - вы плохо его настроили. не дали хороший цикл для автономного тестирования, не подготовили док по дебагу, не прописали важные ньюансы, etc. я не могу пошерить ЧТО сейчас у меня делает gpt-5.2, но мягко говоря - на такое его точно не обучали, и даже 3-4 месяца назад мне казалось абсолютной фантастикой, что модель справится с такой задачей вообще.

я вот собрал себе скилл, который довольно неплохо настраивает автономный фидбек-луп агенту в репозиториях - он обычно даёт на 80-90% готовый результат, дальше чутка подпилить, причесать избыточность в DEBUG.md, и можно отлично юзать. сейчас все проекты инициализирую через него обязательно.

скилл в аттаче, надеюсь пригодится

Обсудить в Telegram

ElKornacio

14845 подписчиков

408 постов