Статьи
OpenAI анонсировали Deep Research- агентскую систему, которая должна будет помогать проводить исследования. 4 минуты назад начался стрим, по результатам - опубликую здесь что это, как работает, кому надо, дам базовую аналитику продукта. P.S. ссылка на стрим от OpenAI для тех кто не спит: https://t.co/giS4K1yfrB P.P.S. да, название это отдельный кек)) в твиттере ребята с Гугла уже стебутся
ребята, я прикидываю, на какие темы мне бы хотелось что-то написать на следующей неделе. про что вам было бы интересно прочитать? можно тыкнуть несколько вариантов. 1. Что значат эти ваши RL, MoE, SFT, etc. Глоссарий AI - все что нужно знать, чтобы понимать статьи про AI в 2025. 2. Почему DeepSeek R1-Zero важнее, чем R1, и почему мы можем увидеть экспонентциальный рост AI в ближайшее время 3. Как делать тех самых "вертикальных AI-агентов", которые полностью заменяют рабочую функцию сотрудника (на примере двух моих приложений), как с продуктовой, так и с технической точки зрения 4. Какие инвест-тезисы сейчас по AI у VC, как R1 повлиял на них, какие AI-тулы fundable (по моему мнению) в Q1/Q2 (спойлер: да почти все) P.S. голосуйте в опросе под этим постом, вот он:
Самые растущие ниши бизнеса в 2025 по мнению самого крупного акселератора YCombinatorвсе пункты про ИИ, что неудивительно :) я обещал перевести и дать краткое содержание request for startups от YC на русском, если будут реакции-снеговички. снеговичков вы наставили море, так что выполняю обещание. перевод + саммари + небольшие мои комменты по неочевидным пунктам. ещё расставил блоки в порядке убывания важности. самые первые параграфы мне кажутся наиболее перспективными для бизнеса в 2025. P.S. если вам удобнее читать не с картинок, то вот ссылка на гугл-док
влияние DeepSeek на o3-mini и o1-miniна основе топового поста от swyx, основателя подкаста Latent Space вот обновленный график зависимости качества моделей (ось Y) от их цены (ось X). обратите внимание, что на графике цена (ось X) убывает - модели правее дешевле моделей слева. во вчерашнем анонсе можно не заметить снижение цены на o1-mini на 63% (2.7x), цена на o3-mini такая же. и снижение цены в 3 раза - это гораздо меньше, чем снижение цены в 25 раз, которое предлагают DeepSeek R1/V3. важные ньюансы: - по большинству оценок бенчмарков o3-mini-low намного лучше, чем o1-mini, но чутка отстает от o1. их оценки lmarena скорректированы соотв. образом - o3-mini-high немного выше, чем Gemini Flash Thinking, это слегка интуитивное предположение (но вполне вероятное, исходя из корреляции бенчмарков). дабы было честно, был добавлен штраф в 4x за то, что o3-mini-high думает больше, чем mini-low.
ладно, кажется шутки про китайскую площадь всем надоели, снес предыдущий пост. в любом случае, DeepSeek сегодня нервно кусают локти. P.S. reasoning и правда очень шустрый. в high-режиме она явно думает подольше, и явно перепроверяет свой ответ раза 3-4. а вот в обычном режиме прям летает, результат и правда впечатляющий
OpenAI выпустила o3-mini для всех.срочно в номер с пометкой молния 🙂 бахнул новость на Хабр: https://habr.com/ru/news/878478/ детальнее распишу отличие o3 от предыдущих моделей позже. главная суть: качество как у o1, скорость и цена сильно ниже.
я довольно большой фанат YC, когда-то был в YC Startup School, доходил до финального интервью, и весьма внимательно слежу за их контентом - у них тонны бесценных и очень грамотных уроков по всем аспектам ведения технологического бизнеса. Request for Startups - прекрасный пример такого контента, его стоит воспринимать не просто как "че YC интересно", а как "какие вещи будут самыми горячими и быстрорастущими в 2025 году". так что, советую ознакомиться P.S. если хотите - могу бахнуть потом краткое содержание на русском. если вам оно интересно - поставьте реакцию снеговичка к посту ниже, если много кому интересно - запарюсь
📝Какие стартапы ищет Y Combinator — версия «весна 2025»Все следят за Y Combinator — это главный акселератор в мире, с чем сложно поспорить. И у YC есть специальная страница Requests for Startups, где описано, проекты из каких сфер сейчас их интересуют больше всего. Мол, на все, конечно, посмотрим, но вот на эти особенно. Долгое время (с 2020-го года) эта страница не обновлялась. Но в феврале 2024-го неожиданно сделали апдейт. А теперь прям зачастили с запросами — они обновлялись и к набору «зима 2025», и вот сейчас к новому «весна 2025». Спасибо каналу @blockchainRF, что заметили свежий апдейт. Если вам интересно посмотреть на эволюцию запросов, то я полазил по WebArchive и собрал последние редакции в одну таблицу — ссылка. А по ссылкам в таблице больше подробностей по каждой сфере. Например, в 2024-м нужны были и способы борьбы с раком, и военные технологии, и стартапы в сфере climate tech. А вот к зиме 2025-го эти темы ушли. А в свежем запросе на весну 2025-го еще ушли стейблкоины и финтех, производство в США, космические компании. Быстро у YC запросы меняются. Интересно, конечно, с чем это связано — нет заявок в этих темах или уже нет спроса среди инвесторов? Что думаете? А это запросы на весну 2025-го: — A Secure AI App Store — Datacenters — Compliance and Audit — DocuSign 2.0 — Browser & Computer Automation — AI Personal Staff for Everyone — Devtools for AI Agents — The Future of Software Engineering — AI Commercial Open Source Software (AICOSS) — AI Coding Agents for Hardware-Optimized Code — B2A: Software Where the Customers Will All Be Agents — Vertical AI Agents — Startup Founders with Systems Programming Expertise — Inference AI Infrastructure in the World of Test-Time Compute Вот по этой ссылке больше подробностей по каждому пункту и объясняющие видео от партнеров. @TheEdinorogBlog — тот самый канал про стартапы🦄
надо ли разработчику AI-агентов быть в психотерапии?и нет, я не ебнулся заметил интересное изменение в самой парадигме разработки софта, когда внутри используются AI-агенты. почти весь софт - он про автоматизацию действий. я создал около 3 крупных CRM систем, и там разработка фичей всегда шла по одному принципу: я садился на пару часов с продажником и смотрел, что он делает. когда я замечал повторяющееся действие, паттерн - я записывал его в беклог. в целом, когда раскладываешь на составляющие разные приложения - они всегда про то, что какую-то работу можно сделать и без них, но с ними удобнее: рутинные действия упрощены. так вот, уже неделю по вечерам я пилю себе небольшой AI-тул, который должен помочь мне быстрее писать больше контента для различных площадок. под капотом - система из AI-агентов на LangChain (плюс, впервые тесчу Yandex GPT). и я заметил, что когда создаешь агента, ты автоматизируешь не действия, а... мысли. у меня нет четкого алгоритма действий "как написать статью". содержимое и структура очень сильно зависят от того, о чем статья, новость это или лонгрид, и т.д. я не знаю, как автоматизировать процесс написания статьи программно. но я могу начать её писать, и, глубоко рефлексируя, замечать - какие именно мысли у меня возникали, как именно я принимал те или иные решения. сделав это пару-тройку раз, я четко вижу: на что обращал внимание, как принимал решения, как я понимаю, что этот абзац - клевый, а этот - надо переписать, и т.д. именно эту логику я и переношу в AI-агента. и раз AI-агенты, это "автоматизация мышления", то разработчик агентов должен уметь не только рефлексировать сам, но и очень глубоко и детально узнавать, как думают те люди, работу которых он автоматизирует. буквально, как в психоанализе - обращать внимание на выбранные слова, на чем человек делает акценты, о чем говорит чаще, чтобы из "потока сознания" выделить настоящий четкий алгоритм, по которому он принимает решения. и таким вещам обычно учат в психотерапии, а не на курсах по Python.
теперь к реально важному. вас больше тысячи!всего 2 дня назад я писал пост про "нас 500", а уже вчера канал пробил новый рубеж :) я ожидал рост 10-20 человек в день, и ~1к к середине года. никак не через пару недель после старта)) вновь повторю, что я очень рад, что та техническая дичь, которая мне интересна, интересна кому-то ещё, спасибо вам большое, что читаете! этот канал авторский, я веду его лично, очень много пишу своих собственных мнений, поэтому позитивная оценка от других меня очень поддерживает :) напомню концепцию, которой я буду стараться придерживаться: давать технический обзор важным событиям + переводить его на человеческий язык + давать объяснение, как эта технология влияет на бизнес, и может быть ему полезна. в качестве бонуса, вот вам тортик, который мне вчера подарила моя невеста в честь 1000 подписчиков :) задачка со звездочкой: кто понял, почему на нём свечка 8 - ставьте реакцию с цифрой 4!
боже, хрень про взлом DeepSeek разлетелась с какой-то неистовой мощью, просто тонны тг-каналов, новостных изданий, Хабр, vc.ru (у них +- норм) - все постят эту срань с невероятно громкими желтыми заголовками. ещё и со словами, что DeepSeek никому не ответили, втихую всё закрыли. давайте ещё раз: 1. это был ClickHouse - аналитическая БД, она в принципе, на уровне своей архитектуры не подходят для хранения данных чатов и всего такого. там хранились именно логи и метрики, причем явно за небольшой период времени. 2. на скринах есть JSON того, что исследователи нашли в кликхаусе - и там как раз метрики по работе модели - кол-во потраченных токенов, время ответа и прочее. и да, как раз здесь и фигурировали сырые промпты некоторых юзеров 3. нет пруфов, что кто-то реально слил эти данные. да, дыра заметная, но с момента начала DeepSeek-хайпа прошло менее недели, и чат с DeepSeek - это не банковская инфра, не вижу причин хакерам на него накидываться. а вот секьюрити рисерчерам это вполне интересно, т.к. бренд громкий, что мы и увидели 4. речь идёт только о тех чатах, которые люди вели на сайте DeepSeek. это не имеет напрямую никакого отношения к модели DeepSeek-R1 - она, сама по себе, как была, так и остается абсолютно безопасной 5. DeepSeek не "заигнорили рисерчера и все тихо закрыли", они, как и должны были - в первую очередь исправили уязвимость, а уже затем ответили рисерчеру и поблагодарили его. пруф на скрине письма от самого рисерчера фулл ветка от самого рисерчера, который и "взломал" DeepSeek здесь, можете сами все почитать смотрю, что пишут разные источники, и жутко пиздец - никто ничего не проверяет, все тупо копируют друг друга с соревнованием "чей заголовок будет громче", даже вполне неплохие каналы. хотя для фактчека достаточно 5 твитов прочитать, уф.
небольшой коммент по очередной псевдо-сенсации, которая сейчас разлетается по сеткам каналов, а именно: DeepSeek взломали, все ваши данные утекли это херня. да, реально рисерчеры нашли дырку в системе логов, увидели там около миллиона записей, иногда там встречались промпты юзеров. дырку мгновенно закрыли после оповещения, новость была выпущена на момент когда дырка давно была закрыта. ни подтверждений того, что дырку нашли другие люди, ни подтверждений того, что кто-то реально слил данные нет. ну и миллион записей - это даже близко не "все ваши данные", думаю, это логи за какое-то короткое последнее время, типа "последний час" или что-то такое. в общем, ещё раз: не верьте другим телеграм-каналам, верьте мне 🙂
Microsoft и OpenAI начали расследование, чтобы понять, не украли ли DeepSeek их ChatGPT бля, это самая смешная новость за последние дни)) чуваки (DeepSeek) прямым текстом везде писали, что их базовые модели были дистиллятами (обучены на основе ответов другой модели), и их первые модели, БУКВАЛЬНО представлялись как ChatGPT, цитировали правила OpenAI, и так далее. господи, да я даже шутил про это, когда тестил R1 "Microsoft и OpenAI начали расследование" P.S. если что, дистиллят - это не тоже самое, что "украли". они использовали ответы оригинальной модели для обучения своей, можно порассуждать на тему этичности этого, но это даже рядом не тоже самое, что своровать веса модели. P.P.S. дополнительно забавным мне кажется то, что когда DeekSeek релизили только модели-дистилляты, которые проигрывали в бенчмарках OpenAI - OpenAI было совершенно похуй. но как только DeepSeek придумали как можно раскачать модель через RL без использования людей, и их инновация сработала (и это и правда инновация, которую они создали, ни у кого ничего не воруя), и вышла R1, которая взорвала интернет - здесь OpenAI решили "начать расследование".
удивился, что про Qwen2.5-Max всё ещё никто не написал на Хабр. чуть позже догадался почему - хитрая Alibaba не выложила ни paper на HuggingFace, ни на GitHub, а все что есть - доступ к API и их видос. кажется, нас где-то наебывают Qwen очень спешили выложить эту модель, пока инфоповод и хайп вокруг китайского нового года ещё актуальны. я выжал всё что можно из имеющихся данных и бахнул новость: https://habr.com/ru/news/877576/
блин, ребят, ещё одна громкая новость: Qwen2.5-Max вышел (от Alibaba). я на концерте, ни новость, ни обзор пока запилить не могу, но завтра утром обязательно изучу и бахну подробное описание.
ладно, один мемас таки кину, надеюсь вы мне это простите, слишком уж он хорош
ну что, раз уж я заявил размышления на тему "как DeepSeek R1 повлиял на бизнес", то надо писать. мне нравится пост от Айры, который хорошо описывает всё произошедшие за последние дни. два главных факта: 1. на рынке появилась размышляющая модель, которая в бенчмарках недалеко от OpenAI o1, но обучение которой стоило на 90% дешевле, и работа которой требует в 20 раз меньше ресурсов (то есть в 20 раз дешевле). 2. инновационное использование авто-обучения без участия людей (non-supervised RL), и архитектура Mixture of Experts из DS-V3, доказали свою эффективность думаю, новости что NASDAQ вчера упал на 3%, а NVIDIA на 15% все уже видели. отсюда, на первый взгляд, напрашиваются выводы: 1. хитрые OpenAI и NVIDIA всех обманывали, и для AI/AGI будущего не нужны датацентры за $500 ярдов 2. хитрые американцы, запрещающие экспорт чипов, которые нужны для обучения AI, не смогли помешать Китаю догнать и, возможно, перегнать их 3. золотой век производителей чипов (Nvidia) подходит к концу - удешевление обучения и инференса AI приведёт к тому, что спрос на чипы хоть и будет расти, но далеко не так сильно, как ожидалось 4. и, я даже видел мнение, что обший рынок AI уменьшится, т.к. все будет дешевле (уф). в целом, все эти выводы одинаково поверхностны, хуевы, и во многом не верны (кроме разве что второго). об этом уже высказалось множество людей горадо умнее меня: [1] [2] [3] если кратко: 1. да, кажется, запрет экспорта чипов не работает - того количества, которое уже есть, достаточно для обучения весьма сильных моделей, особенно с новыми архитектурами. это все равно тяжелое для китайского рынка ограничение, но я думаю, что они не испытывают особых проблем с обходом подобных санкций. 2. все разговоры о том, что "столько ресурсов AI теперь не нужно" - нужно. удешевление моделей и снижение их требований к ресурсам - это то, чего все ожидали давно, и ожидают в будущем. текущий спрос на ИИ не удовлетворен и на 1%, поэтому говорить о том, что улучшение в 20 раз - это крах Nvidia и датацентров - очень странно. даже если произойдёт удешевление ещё в 100 раз - это все равно будет далеко от полного удовлетворения спроса. и это не говоря о парадоксе Джевонса. тем не менее, ожидание снижения спроса не могло не повлиять на явно сильно разогретые акции AI-корпораций, что мы и увидели. думаю, в mid-term всё выправится. какие главные изменения с точки-зрения бизнес-моделей мы можем здесь прикинуть? ну, всё крутится вокруг того, что application-layer только что получил огромный буст к марже, который можно потратить на маркетинг в том или ином виде. в том числе - давать свои инструменты бесплатно, в счет маркетингового бюджета, что, я думаю, мы вскоре и увидим. некоторые решения, которые раньше почти не имели бизнес-ценности из-за низкого качества работы модели, теперь получили интересный буст: агентский граф можно увеличить в 2-3 раза, и при этом цена не только не изменится, но и, возможно, станет ниже. на ум приходят в том числе решения для автоматизации работы в браузере/управления компьютером. они неплохи, но пока что не дотягивают по качеству до "дать задачу и забыть". за общей шумихой, вчера многие могли не заметить выхода Qwen2.5-VL, а в их репорте очень много акцентов как раз на агентских системах для управления компьютером. кажется, комбинация модели, хорошо распознающей происходящее на экране (Qwen2.5-VL) с моделью, хорошо рассуждающей и принимающей решения (R1), могут стать разрывной комбинацией для "автоматизация сотрудника компании под ключ". особенно если в самом конце цепочки рассуждений, перед финальным действием, в игру включится какая-нибудь o3, и верифицирует за один проход принятое младшими братьями решение. помимо этого, мне кажется, мы сильно будем двигаться от CoT (chain-of-thought, цепочка рассуждений) к ToT (tree-of-thought, древо рассуждений). удешевление в 20 раз открывают возможности для того, чтобы запустить параллельную обработку одного и того же запроса сразу в 4-5 потоков, после чего микшировать их и выбирать лучший на поздних этапах.
ещё встречал в некоторых медиа прогнозы, что "домашних ИИ" - моделей, которые работают локально на компьютерах пользователей станет больше. я думаю, их действительно станет незначительно больше, но какого-то революционного роста мы тут не увидим - к сожалению, 7-8 миллиардов параметров это всё ещё довольно тяжеловато (хотя вот R1-1.5B - это вот уже интересно, хоть она и пока весьма туповата). думаю, главное, что стоит иметь в виду - сейчас огромное количество венчурных денег потечёт в компании, которые разрабатывают новые архитектуры моделей. кажется, что порвать бенчмарки новой архитектурой, а не просто увеличением параметров, это is the new black. так что если вы ИИ-стартап, который сейчас рейзит, то нужно либо срочно адаптировать дек под то, как у вас все летит в космос при ещё большем удешевлении инференса, либо стараться предлагать многообещающие архитектурные эксперименты (хотя господи боже, если вы base-model AI-стартап, то вы и без меня всё знаете)
всего через 2 недели с первого публичного упоминания, канал вырос до 500+ человек, на чистой органике, без закупок трафика. я считаю это офигенный темп роста, и вы офигенные, я правда счастлив, что та техническая дичь, которая мне интересна, интересна кому-то ещё, спасибо вам большое, что читаете (зовите друзей, мам, пап, мы рады всем)! в последние дни AI штампует по 2 громкие новости в сутки, из-за чего я тут почти всё время пишу про AI. я думаю, в целом, постов про него будет очень много - это самая интересная для меня сейчас сфера, но, думаю, в феврале я постараюсь сбалансировать контент - стараться снабжать технически-сложные посты пояснениями на простом человеческом языке, а также чутка вспомнить про крипто (там тоже бывает жарко). а ещё, я очень хочу сопровождать новости комментарием "почему это важно, и что это меняет в мире". вот скажем DeepSeek R1 удешевил "думающий" AI в 20 раз. почему это важно? какие бизнес-модели вчера были невозможны, а сегодня, с таким падением цены стали возможны? а какие бизнес-модели потеряли смысл в результате этого? и так далее. я в любом случае сам пропускаю каждую новость через подобные размышления, и я вижу, что на это есть большой спрос - консалтинг/аналитика на стыке хорошей технической экспертизы и бизнеса. мне кажется, где-то здесь и будет ниша этого канала: давать технический обзор + переводить его на человеческий язык + давать объяснение, как эта технология влияет на бизнес, и может быть ему полезна. stay tuned и ещё раз спасибо вам, что вы здесь!
в сети стали форсить картинку с тем, что DeepSeek API полностью взаимозаменяемы с OpenAI API, вплоть до того, чтобы можно продолжать использовать openai либу из npm. открою страшную тайну: почти все сервера для LLM, включая llama.cpp/ollama и прочие используют OpenAI-compatible API, и тот же фокус можно провернуть буквально с любой моделью. скажем, я локально через LM Studio LLM'ки гоняю точно так же - используя openai либу из npm с локальными серверами. более того - я Cursor на локальные сервера направляю через тот же механизм (прокидываю в OpenAI коннектор локальный URL). не ведитесь на псевдо-сенсации от других каналов, доверяйте только мне :) P.S. перевод на простой язык: то, что можно без изменения кода ("бесплатно и мгновенно") перейти с OpenAI на DeepSeek подается как сенсация. на самом деле, это не сенсация - все решения для LLM-серверов используют один и тот же API, и перейти с любой модели на любую другую модель, почти всегда можно практически безболезненно.