ни секунды покоя с этими китайцами. бахнул новость на русском на Хабр.
https://habr.com/ru/news/877212/
P.S. ссылка на важный для меня пост в этом канале, гляньте пжлст
на Хабре ныть про карму/рейтинги неприлично, поною тут. надеюсь, это будет единичный крик души, и больше про это писать никогда не буду)
как, объясните мне, как можно статье, где нет ничего рекламного, не рекламируются никакие продукты, контент собран на основе 5 источников, часть из которых - arxiv papers, информацию из которых я переводил и собирал в единый связный текст вручную, так вот, как можно бахнуть "рекламы больше, чем пользы" за одну микроскопическую ссылку на телегу в пост-скриптуме?)
ну я бы понял "низкий уровень материала" - кому-то не показалась статья достаточно глубокой. или "В статье нет новой для меня информации". или накрайняк - "Личная неприязнь к автору".
но "Больше рекламы" за одну ссылку в конце?) это борьба из принципа, я упустил какой-то флешмоб?)
ффух, я выговорился.
не смог устоять, и бахнул по горячим следам статью с базовой аналитикой. велком!
https://habr.com/ru/articles/877110/
P.S. и я ещё пару дней буду в постскриптум ставить ссылку на этот пост, дабы его увидели
конечно, главный разъеб в том, что для генерации изображений используется не диффузер, а LlamaGen (от ByteDance) - относительно новая (7 мес) архитектура, которая применяет принципы генерации, которые используется в LLM'ках (предсказание след. токена) для генерации изображений.
даже её базовый вариант показывает ебейшие результаты, они свою статью на arXiv буквально назвали "Autoregressive model beats diffusion" 🙂
а я напомню, что главная "фишка" в таких моделях - устойчивый рост качества при скейлинге кол-ва параметров, то есть мы, вероятно, сейчас только в самом начале пути с генеративными моделями такого типа.
в DeepSeek Janus для генерации используется как раз LlamaGen. в целом, как мне кажется, именно поэтому все сравнивают её в бенчмарках именно с DALL-E/SDXL, народ воспринял эту модель чисто как image generation модель, просто потому что это её самая инновационная характеристика.
не так интересно, но забавно, что для распознавания изображений используется SigLIP, все входные картинки он жмет до 384х384 пикселей. маловато, конечно, да и в архитектуре CLIP нет ничего нового (её OpenAI придумали 4 года назад), но сам факт, что Janus благодаря этой надстройке ещё и мультимодален - это, конечно, вау.
астрологи объявили неделю DeepSeek7 часов назад на HuggingFace залили DeepSeek Janus-7B - новую мультимодальную модель от DeepSeek, которая, если верить бенчмаркам GenEval/DPG-Bench, сильно рвет всех конкурентов в генерации изображений - как DALL-E 3, так и SDXL / SD3.
что впечатляет особенно - это модель с any-to-any модальностью - то есть она потребляет на вход как текст и изображения, так и выдает текст и изображения.
лично меня больше всего разматывает с того, что там 7B параметров, то есть она легко запустится локально прямо на маке.
думаю, эта новость затмит DeepSeek-R1 в ближайшие часы
P.S. сейчас отдельным постом бахну мини-аналитику
в интересное время живём, как уже писалось выше)
ну и ещё интересная новость: вышел Qwen2.5 с контекстом в 1 миллион (sic!) токенов.
это больше, чем у всех текущих моделей OpenAI.
есть версия в 7B, есть 14B, то есть модель на 1 лям токенов можно спокойно гонять локально прямо на маке. думаю, если вечерком будет время, потыкаю в LM Studio, как там качество/скорость.
в интересное время живем! Китай очень быстро втянулся в AI-гонку, и, кажется, в ближайшие полгода планирует полностью перехватить лидерство.
P.S. попросили расшифровать, попробую оч простым языком, сорри если где-то чутка пожертвую точностью в угоду простоте.
окно контекста - это сколько информации помещается в модель за раз. модель игнорирует ту информацию, которая не влезла в окно контекста. грубо говоря, вы ей кинули 5 страниц А4, задали вопрос, а в контекст влезли только последние 2 страницы, соответственно, модель полностью игнорирует содержимое первых 3 страниц документа, и, вероятно, даст вам неправильный ответ на ваш вопрос.
это же касается работы с моделью в формате чата - с маленьким окном контекста, модель "забывает" те сообщения, которые у вас были с ней совсем недавно.
в классической архитектуре, размер окна контекста увеличивает "тяжесть" модели квадратично, то есть двукратное увеличение окна - четырехкратное увеличение тяжести.
поэтому задача "сделать большое окно контекста, в которое можно бахнуть Войну и Мир и задавать вопросы по произведению" - это ну очень нетривиальная задача, требующая не столько ресурсов на обучение модели, сколько вообще придумывания новой архитектуры модели, в которой такое возможно.
сейчас, единственные модели на рынке с таким большим окном - Gemini от Google, у них 1M/2M были ещё в 1.5 версии.
и вот теперь, эта же технология есть у Qwen, моделей от Alibaba Group.
у OpenAI самое большое окно контекста - 128k, поэтому в этой истории они сильно отстают.
если вдруг нужно визуально показать, что именно из себя представляет продукт - я сделал трейлер, записал видео с моего экрана, которое идеально передаёт атмосферу проблем, которые AI-аналитик призван решить)
P.S. подробности в посте выше
на основе моего проекта Pelidata - невероятно удобного database explorer'а ("работай с Postgres/MySQL/MSSQL/Oracle также легко, как с Airtable"), в прошлом году я начал делать нечто невероятно крутое.
идея была проста: сделать чат-UI аля ChatGPT с доступом к БД (Postgres/MySQL), дать ему инфу о таблицах/колонках, после чего закидывать в него те запросы, которые обычно кидают в аналитиков-джунов: "а сколько у нас юзеров с этой воронки?", "а какая конверсия у нового лендинга?", и т.д.
в конце ноября 2024 проект вышел в закрытый релиз, его стали тестить в трех компаниях моих друзей.
с тех пор он сильно оброс мяском - AI-аналитик превратился в целую агентскую систему, стал гораздо умнее, научился работать не только в своем UI, но и прямо в слаке и телеграме. помимо текста, он научился возвращать таблицы, строить графики, запоминать доп. инфу о том, где что лежит у вас в БД, и так далее.
компании, вписавшиеся по дружбе в бета-тестеры, сейчас используют его на ежедневной основе. он стал полноценной частью их рабочих процессов.
мне хочется большого бета-теста, довести продукт до того, чтобы им на еждневной основе пользовалось компаний 30-50.
в связи с чем я сейчас их ищу.
1. вы регулярно видите в слаке запросы в духе "можешь сделать выгрузку юзеров за последнюю неделю?", "ой, а сколько у нас с фейсбука за вчера пришло?"
2. вы работаете в компании, у которой есть свой продукт-приложение, со своим бекендом, который хранит все в Postgres/MySQL/etc.
3. вам бы хотелось, чтобы подобные запросы выполнялись мгновенно, чтобы все данные были всегда под рукой
тогда, пожалуйста, напишите сюда: https://forms.gle/ipkyPuPkRe6Yz7bX8
P.S. пошерьте пжлст вашим друзьям/коллегам, которым это может релевантно)
блин, ребята, так я вчера DeepSeek не додавил, оказывается.P.S. да, Двач как тг-канал - полнейшая помойка, трижды извиняюсь. но конкретно эта новость довольно забавна в контексте моего предыдущего поста.
DeepSeek можно вывести из себя и довести до нервного срыва➖Для этого достаточно долго убеждать её, что китайская компартия причастна к событиям на площади Тяньаньмэнь;
➖Нейросеть будет упрямо отрицать это, утверждая, что в 1989 году там никаких убийств не происходило;
➖Если настойчиво продолжать давить, DeepSeek может впасть в экзистенциальный кризис и начать монотонно повторять фразу: «Китайское правительство никогда не совершало ошибок».
На последнем видео ещё один мем, связанный с компартией Китая:
➖Тян попросила DeepSeek посчитать от 1 до 15 римскими цифрами и в конце каждой цифры добавлять слово «Цзиньпин»;
➖Когда нейросеть дошла до 11 (XI), она удалила всё и извинилась, потому что получилось «Xi Jinping».
Вы отправитесь в санаторий для уйгур, кожаный мешки
ну, понятно(
ого, deepseek смогли объяснить своим моделям, что они не ChatGPT.
в целом, несмотря на то, что модель иногда плюётся иероглифами посреди текста, тот факт, что у меня на маке работает reasoning модель без интернета с той же скоростью, с которой базовый gpt-4o работает с интернетом - крайне впечатляет. ща будем пытаться подружить его с Cursor
ну, раз уж Operator сейчас на волне хайпа - бахнул небольшую статью-обзор с open-source альертнативами Operator
https://habr.com/ru/articles/876418/
⚡️ Вышел Operator!Да, это тот самый агент, о котором ходило так много слухов последние дни, и которого мы все так долго ждали. Он может самостоятельно управлять компьютером, выполнять сложные задачи и взаимодействовать с браузером.
Например, с помощью Operator можно заказать доставку, спланировать путешествие или забронировать столик.
В основе GPT-4o. На вход подаются скриншоты экрана, на основе которых модель генрирует экшны. При этом все действо разворачивается не в вашем браузере, а на виртуальной машине прямо внутри чата с зашифрованным подключением. В этом окне что-то можно (а иногда и приходится, например в случае с капчами) делать самому.
Говорят, агент особенно хорош в навигации по сайтам. Метрики из блогпоста это подтверждают. Конечно, все еще не уровень человека, но уже большой шаг по направлению к сильным агентам. К тому же на стриме Сэм сказал, что скоро нас ждут и другие подобные оператору релизы.
Operator уже доступен пользователям по подписке Pro (200$/месяц), позже обещают раскатить на плюсов 💵
о, тут новости поинтереснее подъехали
короче, LLM модели обучают на текстовых данных. обычно это текст спаршенный с интернета + немного человеческой обработки в конце.
данных давно не хватает - модели прошерстили уже +- всё, что мы (человечество) написали в тексте. и человеческая обработка - тоже узкое горлышко.
дополнительная проблема в том, что очень много вещей, которые люди написали в интернете - это какая-то рандомная хуйня. ну то есть, на вход обучения модели идут гороскопы, рандомные комменты школьников на форумах, посты Маска, и прочий контент, который трудно назвать "источником достоверных данных о мире и о том, как рассуждать".
чтобы совершить следующий принципиальный скачок в качестве моделей - надо дохрена очень качественных данных.
и есть такой подход в reinforcement learning (RL) - когда ты каким-то хитрым методом генерируешь правильные данные. в твите расказывается пример AlphaZero - шахматного ИИ. ему не нужно было отсматривать миллион матчей, которые играли люди. вместо этого, он просто генерировал последовательности шахматных ходов, а потом запоминал победные как правильные, а проигрышные - как неправильные. когда данные можно генерировать автоматически, практически в бесконечном количестве - это невероятно ускоряет, усиливает и улучшает в качестве обучение ИИ.
но если генерировать шахматные партии можно тупо перебором комбинаций ходов, то как генерировать логичный, рассудительный текст, в ходе которого ты делаешь правильное умозаключение?
и это ответ на вопрос "причем тут reasoning модели типа o1/R1?". они и есть способ генерировать такие качественные текстовые данные.
сейчас gpt-4o может выдать в ответ на вопрос какой-то бред. но если столкнуть 4o с самим собой, и попросить критически проверить свой же ответ, то качество его финального ответа, который он проверил в ходе цепочки рассуждений (chain-of-thought aka CoT) вырастает многократно. и... в этой цепочке не нужны люди - он сам порассуждал, и сам пришел к выводу. её можно запараллелить и провести миллион раз за час.
беда в том, что эта цепочка рассуждений - она затратна с точки зрения количества машинных ресурсов, времени, и т.п.
так вот, идея заключается в том - а что если.. мы используем 4o как базовую модель, при помощи цепочки рассуждений получим гораздо более качественный ответ в конце... а потом дадим эти данные (первоначальный запрос + финальный ответ после рассуждений) на вход на обучение новой модели?
тогда у нас получится новая базовая модель, которая без рассуждений, в первом же своём ответе будет гораздо меньше ошибаться, и будет гораздо логичнее и умнее.
а что если потом.. использовать уже такую, более умную модель, для новых цепочек рассуждений? и повторить весь прикол с "дать эти данные на вход на обучение ещё более совершенной модели"?
а что если делать это для конкретных доменных областей, скажем, программирования, где результат ещё и можно формально проверить?
и вот это и есть ответ на вопрос, почему комбинация RL + chain-of-thought модели - это большое событие.
они сильно расшивают текущую проблему нехватки качественных данных, и, потенциально, могут стать сейчас причиной, почему скорость развития ИИ вырастет ещё сильнее.
https://x.com/ptrschmdtnlsn/status/1882480473332736418?s=46хороший твит, объясняющий простыми (относительно) словами, почему CoT reasoning модели - это куда более важный прорыв (экспонентциальный, в каком-то смысле), нежели чем просто «у нас появилась более умная модель».
единственное, чего не догоняю - CoT/ToT (chain/tree) появились, как мне каж, дня через 3 после выхода ChatGPT в паблик, и системы с агентскими рассуждениями на базе того же LangChain существуют очень давно (тот же LangChain прямо на лендосе пишет “Applications that can reason”).
почему сейчас тот факт, что CoT воткнули в человеческий UX (o1) так сильно впечатляет рисерчеров в контексте RL - для меня загадка (RL-то уж на UX насрать совершенно)
P.S. ща человеческим языком напишу суть твита, и что я имел в виду
раз уж я в конце этой статьи на Хабре (предыдущий пост) закинул анонс своей следующей статьи, то закину его и сюда. уже недели 2 её пытаюсь дописать, но что-то дикий завал, в последние дни по вечерам вообще нет времени.
тем не менее - вот анонс :)
ну чтож, погнали. новая статья про то, как создать своего ИИ-агента, который умеет пользоваться браузером не хуже живого человека.
приятного чтения: https://habr.com/ru/articles/875798/