ElKornacio логотип
Подписаться
Опубликовано

давайте от развлекательно-практического...

Автор
Фотография поста

давайте от развлекательно-практического контента к чутка более сложному. оч зашёл новый paper от Samsung - и он сейчас начал круто хайпить в твиттере.

они представляют новый класс моделей - Tiny Recursion Model - TRM. предельно простая концепция, которая мне очень напомнила работу диффузоров - делаем много маленьких итераций, на каждом шаге чуть-чуть улучшая качество ответа, прежде чем отдать его юзеру. за счёт использования маленьких сеток вместо огромных эти итерации происходят очень быстро, а качество не падает. более того: в определённом спектре задач требующих итеративных рассуждений (головоломки, загадки, всякие логические фокусы), модель превосходит текущие решения (Sudoku-Extreme с ~55% до 87%, Maze-Hard с ~75% до 85%, на тестах по "здравому смыслу" ARC: ARC-AGI-1 - 45%, ARC-AGI-2 - 8%). а обучение таких сеток выходит дешевле и проще в силу их очень мелкого размера (~7M параметров).

короче, очень люблю когда исследователи тестят новые концепции / архитектуры моделек. на мой вкус, с выхода dLLM это первая интересная новинка в этой области.

11113 подписчиков
368 постов

Из подборки #ai

Свежие посты