по-моему это очень прикольно. сейчас есть миллион стартапов "генерируй видео для TikTok/Shorts/etc через AI, будь крутым инфлюенсером"
и гугл выкатил в Shorts.. встроенный генератор AI-видео, прям не отходя от кассы.
не можешь победить - возглавь!
https://x.com/GoogleDeepMind/status/1890054036168356283
https://youtu.be/RiUYH1HmdzA | https://youtu.be/vmmIUAZnzVYкак и обещал: видео-уроки как сделать вместе с ИИ подарки для своей второй половинки на 14 февраля.
1. тест-викторина с сердечками: видео на ютубе, демка вот тут, а тут архив с кодом
2. конструктор аудио-комплиментов: видео на ютубе, демка вот тут, а тут архив с кодом
тут ссылка на архив с сырым (пустым) Vite + React + Tailwind (+scss+mobx).
короче, анонс в честь Дня Святого Валентина.завтра утром запишу видео-туториал, как с около-нулевыми (или вообще без) знаниями программирования, используя ChatGPT/ Cursor за 30-40 минут сделать офигенные интерактивные подарки для своей второй половинки:
1. "конструктор идеальных комплиментов", я хочу чтобы моя девушка в пару кликов выбрала, что надо похвалить, и сразу же услышала звуковой комплимент моим голосом
2. викторина "про наши отношения" - просто угарный тест, с прикольными анимациями-фейерверками сердечек и всё такое
код весь выложу, попробую ещё успеть написать текстовую статью на Хабр.
stay tuned! постараюсь успеть залить всё до 16 по Мск
ну, по классике, с пометкой ⚡молния⚡бахнул на Хабр новость про 20 минут назад вышедший твит Сэма Альтмана, где он рассказал про GPT-5, GPT-4.5 и когда они выйдут (спойлер: скоро).
если кратко - GPT-4.5 будет последней моделью без цепочек рассуждений. дальше - юзеры больше не будут выбирать модели, интеллект станет универсальным, ChatGPT сам будет решать, когда ему надо подумать, а когда можно дать ответ сразу, и все инструменты будут проинтегрированы в единую модель, которую назовут GPT-5. и доступ к ней будет бесплатным для всех, а для платных юзеров модель будет в "более умном" режиме.
в комментах Сэм пишет что речь о неделях/месяцах, то есть мы увидим это всё, вероятно, уже в первом полугодии 2025.
велком: https://habr.com/ru/news/881946/
ну, не написать про первую русскоязычную reasoning модель я не мог, очень круто (пост выше).
мне в моих проектах очень не хватает хороших русскоязычных моделей. как бы ты ни просил OpenAI выдавать адекватный русский текст - это почти нереально, конструкции совершенно нечеловеческие, не похожи на разговорный русский.
мне буквально приходится пропускать финальный результат генерации OpenAI через Yandex GPT чтобы получался приятный глазу и легкочитаемый текст.
короче, очень интересно, попробую потыкать.
P.S. я если что про API, использование в моих продуктах, а не личные чаты.
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
что-то я выпал на пару дней, работы было очень много, да и новостей сочных не было.
сегодня одна интересная вышла - ноунейм компания Zyphra релизнули модель Zonos для генерации речи. генерировать может любым голосом - даешь ей 30-секундный образец + текст, и на выходе получаешь аудио.
но самый сок не в этом, а в том, что в ней... 1.6 миллиарда параметров. это ОЧЕНЬ мало, такую модель можно запускать хоть на телефоне. и для того качества, которое она выдает - это просто невероятный прогресс.
зацените на превьюшке, насколько реалистично звучат Трамп/Маск/прочие. вау.
в ИИ много новостей про новые архитектуры, модели, стартапы на базе ИИ и так далее.
но очень мало новостей про хардвер - аппаратную часть. а как по мне - это одни из самых впечатляющих и крутых новостей в сегменте.
Cerebras - компания производящая чипы, адаптированные под LLM-модели, позволяет выполнять генерацию в 20-30 раз быстрее классических решений на базе NVidia (1500+ токенов в секунду против ~70-90).
в 20-30 раз. это не просто быстро, это невероятно быстро. это практически мгновенно. это выглядит как магия, они буквально называют себя "Instant AI" (мгновенный ИИ). неделю назад они выкатили безумно быструю версию DeepSeek R1, а вот 10 часов назад Mistal объявили о партнерстве с Cerebras, и выкатили версию Le Chat на базе их чипов.
видосы вот, и это прям вааааау.
Google релизнул Gemini 2.0, AI продолжает дешеветьв целом, тут особо без глубоких комментариев, картинка говорит сама за себя.
говорят, в бенчах лучше большинства существующих базовых моделей. попробую потыкать на досуге (хотя я ненавижу API гугла больше, чем любые другие API в мире)
понравилась прикидка размера рынка. а в твиттере говорят, что "gpt wrappers" - ненастоящие бизнесы 🙂
Sama написал, что Deep Research «по моим приблизительным подсчетам может выполнять однозначный процент [прим. 1-9%] всех экономически значимых задач в мире, что является колоссальным достижением»
Расчёт на коленкеПредположим, что Sama ошибся на порядок (в 10 раз), и на самом деле там даже не 1%, а только 0.1% работ наскребается.
ВВП всего мира $100 триллионов (уже больше, но везде будем округлять вниз, чтоб не прикопаться), зарплаты обычно оценивают в половину, но мы возьмём 40% от этого.
Итого $100T * 40% * 0.1% = $40 миллиардов долларов потенциала в год. Как раз как размер потенциально нового раунда инвестиций в OpenAI 😀 совпадение?
Кстати выручки в $40B достаточно, чтобы компания стоила столько, во сколько её оценят: например, Salesforce имеет годовую выручку $35B, а рыночная капитализация компании $332 миллиарда (чуть меньше 10 годовых выручек)
Вот так и работает ужасающая математика процентов от экономически важных задач 😱
Вопрос: возможно ли, что одна система может заменить 0.1% / 15% = 0.7% работ в одной области? На это предлагается ответить самостоятельно 🤷♂️
вчера первое место в Daily Papers на Hugging Face долго держала работа российских ребят про алгоритмы прямого обучения ИИ (без предварительного обучения reward модели), и как они их тюнили. я хотел про неё написать, но так и не смог придумать, как перевести её на простой человеческий язык.
а вот сегодня в топе Daily Papers работа, которую легко перевсти на человеческий язык, и которая понравилась мне лично, как разработчику.
и она в очередной раз подтверила мою мысль, которую я уже озвучивал раз пять: в 2025 году главный хит - обучение моделей без ручного человеческого труда (SFT/RLHF).
поэтому я бахнул про неё небольшую новость на Хабр: https://habr.com/ru/news/879826/
fun fact: Cursor это самый быстрорастущий SaaS в истории человечествас $1млн ARR до $100млн ARR за один год.
что не сильно удивительно - я отменил подписку на GitHub Copilot и перешел на Cursor через 15 минут использования, это один из лучших и самых полезных продуктов, что я видел.
P.S. на основе этого твита
в подтверждение моего вчерашнего поста.
выпустить клон нового продукта OpenAI меньше чем за сутки с момента лонча становится доброй традицией. разве что клоны оператора били в бенчмарках OpenAI, а OpenDeepResearch чутка проигрывает (пока).
P.S. вообще, меня это очень радует. это идеальный показатель открытости сферы - энтузиасты на коленке за сутки повторяют продукты многомиллиардной компании. мне кажется не так уж много индустрий, в которых такое возможно, и круто, что ИИ - одна из них.
Ладно уже не смешно.Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)
Блог: huggingface.co/blog/open-deep-research
https://www.androidauthority.com/openai-chatgpt-ai-device-sam-altman-3522517/
> основатель OpenAI Сэм Альтман подтвердил планы по разработке пользовательского AI-гаджета с голосовым вводом
в последнюю неделю мне всё больше кажется, что OpenAI сходит с ума и агонизирует.
ребята настолько сильно стрельнули в 2022, и настолько привыкли к роли "лучшей компании в ИИ", что сейчас, когда продукт за продуктом у них откусывают кусочки рынка, они бешенно пытаются покрыть все возможные сферы и ниши. причем, почему-то, они пытаются заходить в сферы, в которых у них конкуренты появились ещё год-два назад, и при этом OpenAI не обладает продуктом, значительно превосходящим конкурентов по качеству.
нахуй нужен Operator, работающий в удаленной виртуалке, когда есть BrowserBase/Browser-Use?
нахуй нужен Deep Research в принципе, когда есть тонны ai-research-assistants, агентских систем и так далее?
как там поживает GPT Store, "убийца gpt-wrapper'ов"?
DALL-E отстает от Flux, o3 превосходит R1 в интеллекте, но проигрывает в соотношении цена/качество, на рынке тонны разных мультимодальных моделей сравнимого с OpenAI качества, и так далее.
ну какой нахуй AI-гаджет, Сэм? ну ты же сам видос про "как сделать успешный продукт" записывал, ну зачем это всё? где наш GPT-5?
грустно всё это.
https://www.youtube.com/watch?v=XF5vOR7Bpzsмой личный фаворит, это, конечно, директор Nvidia читающий китайский рэп)
для полного кайфа не хватает только Сэма Альтмана, который бы напевал песенку на китайском о том, как ему нравится ByteDance))
ByteDance выпустили OmniHuman-1: генерация видео по одной картинке и аудиодорожкеосновную новость я выпустил на Хабре, а этот пост - для видосов с примерами того, как модель работает.
качество действительно сильно подросло относительно аналогичных предыдущих моделей.
вот ссылка на официальный анонс с ещё большим кол-вом видосов
чет много мелких, но интересных новостей.
делать пост под каждый - задолбаю вас уведомлениями в телеге, поэтому вот мини-дайджест:
1. Tencent выпустила Hunyuan3D 2.0 — опенсорс модель для создания текстурированных 3D-ассетов из картинок.
я когда создавал Fairplay перепробовал все ИИ для 3д-моделей (Luma/StableZero/Meshy/etc), и даже год назад там уже были достойные варианты, гуманоидов в T-pose генерировали вполне приличных, особенно людей. а для пропсов так вообще идеально. у Hunyuan3D доступ через WeChat/QQ, поэтому пока не потестил, но демки на HuggingFace выглядят прям шикарно, кажется, новый шаг для генерации 3D-ассетов.
2. Cursor 0.45 - вообще, он вышел ещё 23 января, но апдейты раскатывались постепенно, до меня вот только дошел.
самый сок - новая Tab Model - та самая, которая отвечает за автокомплит. если взять всю пользу/кайф от использования Cursor, то 90% - это точно их Tab Model, поэтому лично для меня, чувака юзающего Cursor буквально каждый час, это огромная новость.
плюс, приятные мелочи: поддержка DeepSeek (понятное дело), улучшение агентов, большой контекст, etc.
3. в твиттере все ссутся кипятком с того, что Андрей Карпаты(й) использует связку Cursor + SuperWhisper для программирования "без рук".
ничего не хочу сказать, но я использую ту же самую связку больше года, даже видос записывал. но где я, где Андрей Карпаты...
4. ну, про выход Deep Research я уже написал, второй раз не буду.
5. все везде пишут, что DeepSeek R1 - open-source. да, веса модели и все описания открыты, но датасеты и код для обучения DeepSeek не выкладывали. группа рисерчеров решила воспроизвести недостающие кусочки, в том числе - собрать reasoning/math датасет задачек, которые и произвели фурор "обучения без участия человека" (non-supervised RL). инициативу назвали Open-R1, и она привлекла много интереса со стороны коммьюнити. лишний пруф, что за non-supervised RL будущее, и открытые коммьюнити готовят под это инструменты/датасеты.
stay tuned!
OpenAI Deep Researchпосмотрел весь стрим за вас, выделил главное, дал объяснения графикам и чутка аналитики.
велком: https://habr.com/ru/news/878852/