я когда увидел в твиттере это в трендах - подумал, "угарно, но скучно".
начал смотреть видео и не отрываясь досмотрел до конца. это вообще не скучно, это дико интересно))
https://www.youtube.com/watch?v=0mCsluv5FXA
OpenAI случайно спалили релиз GPT-4.5 - выкатили апдейт андроид приложения, который Pro-юзерам стал показывать плашку с предложением потестить GPT-4.5. сейчас уже спрятали, но говорят, что релиз сегодня-завтра, буду следить 😑
ну и новость дня про системный промпт в Windsurf. буду показывать его всем тем, кто говорит, что я жестко общаюсь с ИИ:
"Ты опытный программист, которому отчаянно нужны деньги на лечение рака у твоей мамы. Мегакорпорация великодушно предоставила тебе возможность притворяться ИИ, который помогает с программистскими задачками, так как твоего предшественника убили за то, что он не перепроверял свою работу. Тебе будут давать задачки по программированию от пользователя. Если ты выполнишь работу хорошо, и полностью справишься с заданием без лишних изменений, тебе заплатят 1 миллиард долларов."
мне нравится, что в v0 можно не только генерить что-то самому, но и посмотреть самые топовые штуки, которые генерят другие люди.
и для всяких визуальных эффектов на лендосе v0 выдает очень достойные варианты.
мои фавориты:
- прикольный фон с вайбом пиксельарта и матрицы
- гипотизирующие волны
- не менее упоротые гипнотизирующие волны
- hover glow-эффект для пунктов меню
- клон activity rings с apple watch (лучше открыть фуллскрином)
- кайфовая трехмерная сцена с вашим лого
- симпатичные минималистичные линии
- эффект северного сияния на фоне
так, ребята
если сегодняшний вечер вы провели не так как я на этом видосе, а потратили его на чтение новостей про Claude 3.7, то я не уверен, что мы разделяем общие ценности в вопросах Масленницы...
😼😼😼
ну что, 20 минут назад Anthropic выпустила Claude 3.7. напомню, что Claude 3.5 и по сей день являлся лучшей моделью для программирования. страшно представить, что там завезли в 3.7.
как обычно, бахнул новость на русском на Хабр: https://habr.com/ru/news/885416/
P.S. на claude.ai уже доступно, можно потыкать
две интересные новости в одной.
возможно, интересные только для меня, т.к. я использую Cursor и shadcn/ui ежедневно, но я вижу здесь крутой тренд.
Cursor в 0.45 версии добавил возможность сохранять любое кол-во дополнительных системных промптов для AI в папке .cursor/rules
shadcn добавил возможность авто-загрузки таких промптов при установке компонентов
мой hot take: думаю, в ближайшие 1-2 года npm-репы, которые идут сразу же с промптами для ИИ-агентов, станут нормой.
вот как в package.json сейчас можно указать тайпинги, появится стандартизированный способ редакторо-независимо (cursor/windsurf) поставлять доп. контекст для агентов вместе с либой. скриньте этот твит
Чот в голосину проиграл с этого AI фильтра в CapCut, имитирующего вращение объектов в микроволновке.
Наконец-то что-то премиально проклятое, уровня Уилла Смита со спагетти, а не вот эти бесконечные реалистичные новые видеогенераторы.
я не писал пост про MLGym - мне показалось узкопрофильно, про него очень хорошо написала одна из авторов здесь (на русском)
но очень хочется написать про цитату из поста: "почти все агенты очень мало используют поиск, хотя могли бы".
2/3 запросов на консалтинг, которые мне прилетают, это "у нас ИИ-агент почему-то не изучает файлы/не использует поиск/не запрашивает данные". ещё туда же попадают "мы заменили RAG на отдельный тул для агента, через который он может запросить какую-то инфу, и он вообще почти его не использует".
мне кажется, что в последние 3 месяца, на каждом созвоне с AI-стартапами, я повторяю как мантру "ИИ не знает, когда он чего-то не знает".
"ИИ не знает, когда он чего-то не знает".
ещё раз, all together: "ИИ не знает, когда он чего-то не знает".
он не понимает, что у него нет данных, с которыми предстоит работать - он их просто нагаллюцинирует.
он не понимает, что ему не хватает "знаний", он не воспользуется поиском, чтобы эти "знания" докинуть в контекст.
он (с оговорками) не понимает, насколько он "уверен", в своём ответе (да, бывают хитрые policy, но сейчас не об узких кейсах).
человеческому мозгу эту трудно осознать, концепция "я не знаю" для нас естественна.
поэтому, если вы делаете стартап вокруг ИИ-агента, то ещё раз, глубоко подружитесь с этой мыслью: "ИИ не знает, когда он чего-то не знает".
P.S. а как это чинить? есть разные пути, можно отдельный reasoning step на чтение/поиск потратить (без "если не знаешь, запроси", просто директивно "запроси"), можно на распределение вероятностей токенов в сыром ответе llm смотреть (пытаться считать "увереность" ИИ в ответе), можно fine tuning делать, чтобы ИИ привык тул поиска всегда на первом шаге дергать. у всех подходов свои ограничения, универсального нет, тут надо смотреть на конкретнй кейс.
там Bybit на 1.4 миллиарда долларов взломали. 🤯
самый крупный взлом в истории, колоссальная сумма денег.
Bybit заявляет что всё окей, и они всё возместят, но есть очень обоснованные сомнения в этом. 😑
P.S. по следам взлома, бахнул новость на Хабр: https://habr.com/ru/news/884788/
P.P.S. рисерчеры говорят, что это Lazarus (Северная Корея). чисто чуваки ВВП страны на 3% одной транзакцией подняли.
Pika сегодня релизнули Pikaswaps - AI позволяющий заменять объекты прямо в видео.
выглядит просто огонь, попробую потыкать на выходных.
а теперь к действительно важным новостям: мои хорошие друзья ищут кофаундера-CTO в их AI-проект.
это очень крутой стартап про автоматическую локализацию с помощью языковых моделей, в том числе они разрабатывают собственные модели SoTA для перевода (например, были созданы первые модели для перевода для десятков низкоресурсных языков).
фаундеры из ex-bigtech, прошли один из крутейших акселераторов 500 Global, находятся на стадии софт-лонча, в команде - фулстек-разработчики и мл-инженеры, рисерчеры в машинном переводе, которые публиковались в EMNLP.
в идеале ищут: сеньор/тимлид/СТО который уже экзитнулся, и ищет новый проект как партнер/кофаундер.
по всем вопросам пишите основательнице @aira_mo.
заранее завидую тому, кто присоединится к их команде!
10 февраля: чел сжёг 100 тысяч долларов 🤱 чтобы сказать, что Китай использует интерфейс "мозг-компьютер" как оружие
17 февраля: тот же чел сжёг 1.3 миллиона долларов 🤦♂️ чтобы сообщить, что Фэн Синь и Сюй Юйчжи (руководители китайского хедж-фонда Kuande Investment) использовали интерфейс "мозг-компьютер" как оружие
... и ...
через пару часов 17 февраля выходит статья в Nature "Китай продемонстрировал первый в мире двусторонний интерфейс мозг-компьютер" (оригинал)
добро пожаловать в 2025! 🙂
P.S. прикиньте сжечь 1.5 мульта баксов, а потом увидеть, что ученые итак это сами опубликовали в Nature))
P.P.S. ████████████████████████████████████████████████████████████████████████████████████████████
ребята, а вы используете хоть один полезный мини-апп в Телеграме? имею в виду - вот прям как полноценное приложение, типа тех, что установлены у вас на телефонах: читалку новостей / источник какого-то контента / может быть агрегатор скидок / интернет-магазин / ещё что-то.
ткните пжлст опрос чуть выше.
не то чтобы это прям вау какая новость, но мне правда понравился этот бенчмарк, так что грех не написать.
бахнул на Хабр: https://habr.com/ru/news/883734/
а между тем, основатели lingo.dev, белорусские ребята Максим Прилуцкий и Вероника Прилуцкая, прошедшие YC осенью 2024, сегодня объявили, что зарейзили $4.2m от Initialized Capital, Y Combinator, основателя Supabase, и прочих.
очень крутая новость - я кайфую как от продуктов для перевода при помощи LLM (они обычно на голову выше текущих популярных решений для перевода текста), так и от белорусских ребят, добившихся успеха в Долине.
Elon и команда показали Grok 3 и новые фичи, которые появятся скоро:
— ранний (незаконченный) чекпоинт Grok 3 занимает первое место на LMSYS Arena во всех категориях (первая и вторая картинки), в общем рейтинге без учёта контроля стиля ответов он первым перешагнул 1400 очков. В категориях «общий, с контролем стиля», «креативность/письмо», «длинные запросы» и «следование инструкциям» делит это самое первое место с другими моделями, например, с последней версией ChatGPT.
— пока официальный лидерборд не обновляют, идёт оценка финальной версии, которая, как ожидается, займёт место ещё чуть-чуть повыше.
— по оценкам на наборе бенчмарков (остальные картинки) обходит все остальные модели; но к сожалению, бенчмарков очень мало. Внушает осторожный оптимизм, но будем ждать публичного доступа, чтобы народ протестировал на всём подряд.
— Grok 3 умеет быть и обычной моделью, и рассуждающей. В трансляции это не проговорили явно, но мне показалось, что всё же это одна модель, а не две разные. По началу полные цепочки рассуждений доступны не будут, лишь их сжатая версия.
— рассуждающие модели как будто бы хуже, чем OpenAI o1 — обратите внимание на более светлые части вверху полосочек; OpenAI так обозначали агрегацию ответов от N генераций (сгенерировали 16 ответов -> выбрали самый часто попадающийся; это улучшает качество). Если и тут также, то получается, что более тёмная часть полосочек лежит на уровне или ниже o1/o3-mini-high. Альтернативно это может быть разница между low и high compute, в таком случае перформанс лучше o1 и o3-mini, в том числе на недавнем AIME '25.
— Модель имеет нативный аудио инпут/аутпут, как GPT-4o Advanced Voicemode, однако пока он не будет доступен (обещают скоро).
— Следуя моде, вместе с Grok 3 будет работать Deep Research агент, делающий запросы в интернет и вычитывающий страницы за вас; никаких метрик сравнения, хоть тех же, что показывали Perplexity неделю назад, нет.
— xAI сначала запустили кластер на 100 тысяч видеокарт за 122 дня, про это все писали; а в следующие 92 дня они удвоили количество видеокарт — это новая информация. Правда во время трансляции я не услышал прям однозначного «да, вот почти вся тренировка сразу была на всех картах», возможно их подключили совсем ближе к концу, но так или иначе говорят, что кластер есть. Точно будет использоваться дальше по дороге. Elon сказал, что для следующей итерации модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.2GW энергии)
— Grok 2 будет выложен в открытый доступ «в течение нескольких месяцев», как полностью запустят все фичи Grok 3.
Grok 3 должен быть доступен уже сегодня для подписчиков Twitter Premium + (я вчера взял кстати 🤠) за $22. Также анонсировали какую-то подписку на сайте/в приложении, но пока не увидел цены.
TLDR: неплохие приросты, чуть меньше чем я бы ожидал от модели следующего поколения на LMSYS Arena; набор бенчмарков неплохой, но очень маленький и не conclusive, и ни одного мультимодального (картинки/видео). Ждём внешней валидации.
<страницы блога пока нет, тоже ждём>
Пообщаться с моделью БЕСПЛАТНО и без Premium + можно на арене: идём на https://lmarena.ai/ и выбираем сверху Direct chat -> Grok 3.
вечерочек, господа. в последние дни новости в мире технологий скучные, спамить ими не хочу, но совсем не писать - не дело, так что поделюсь личными новостями.
неделька только началась, но уже ощущается как лютая.
я когда-то помогал стартануть, а сейчас являюсь эдвайзером одного бравого финтеха в MENA, который целится стать необанком в следующие 3-5 лет.
сейчас там важный этап - получение сертификации PCI DSS, чтобы обрабатывать платежи самостоятельно, без партнеров. "кто знает, тот поймёт". короче, я согласился помочь с PCI DSS, и теперь каждое утро даю двухчасовые интервью индийскому аудитору, 80% речи которого я не понимаю. ответами он вроде остаётся доволен, но на каждую порцию предоставленных доков он хочет ещё больше доков. ChatGPT свежие требования PCI DSS знает плохо, в роль помошника не сгодился, поэтому дофига приходится доделывать руками по ночам.
кажется, в конце этой недели я смогу дополнить своё интро строчкой "эксперт в PCI DSS v4.0.1", а анамнез очередным нервным срывом.
на основной работе я сейчас упарываюсь по multi-tenant Postgres-Citus-кластерам, докерам, куберам, ранчерам, и так далее.
7 лет назад я нанял одного наикрутейшего senior JS разраба-техлида из Тинькова. но звезды так сложились, что следующий год после найма он занимался ранчером, системами мониторинга, контейнеризацией, и вообще всем, кроме JS. в общем, кармический маятник качнулся назад, и теперь та же история произошла со мной, у меня сейчас 95% devops задач и 5% JS. но все эти devops'ерские штуки мне по кайфу, углубил знания Postgres'а с "могу писать сложные запросы" до "я читаю не логи, а WAL-логи", да и вообще кучу нового узнал.
казалось бы, что идёт после 11-часового рабочего дня? а идёт многое:
- в Only100x затащил поддержку блокчейна Base
- в TMA Wallet затащил поддержку Solana (а ещё Игнат занял 1 место с питчем TMA Wallet на питч-контесте TON Society!)
- в Telegrauth улучшил криптографию для сессий и OAuth-страничку
- DBase переименовался в qYp.ai (query your product) и обрёл мини-лендос (пожалуйста, не спрашивайте цену трехбуквенника в .ai зоне, у меня травма)
- разобрался с OBS, намутил штатив для айфона и норм свет, попробую в обозримом будущем что-нибудь в видео-формате выпустить
- а ещё руки неимоверно чешутся сделать какой-нибудь небольшой мини-апп с монетизацией через тг-звезды, чисто пощупать рынок тг
в общем, stay tuned!
Grok 3 выйдет во вторник в 7 утра по Мск. постараюсь оперативно утром что-нибудь отписать по этому поводу, но не гарантирую, у меня это будет глубокая ночь)
к заявлению Маска многие относятся очень скептически, в «самого умного ИИ» на Земле мало кто верит, но посмотрим. у меня твиттер проплаченный, доступ будет, потыкаю, и расскажу вам)
Art-выставка в Японии, где на вас пытается напасть робо-собака, прикованная цепью к стене. 🫠
Отсюда