Недавно запустили стартап Devin. Если вкратце — это ИИ-програамист. Общаешься с ним через Slack, он полностью автономно работает, сам у себя настраивает что надо и тд, берёт задачу и делает. Т.е. цель — сделать полную иллюзию того, что на той стороне сидит человек.
Пересказывать её не буду, но если вкратце — ряд задач он действительно решает, но далеко не всё и программиста заменить пока не может.
Ждём следующие поколения нейросетей.
Отзывы тех, кто с ним работал в течение месяца:
Задачи, которые он может выполнить, настолько малы и четко определены, что я могу сделать их сам, быстрее и своим способом. С более крупными задачами, на которых я мог бы сэкономить время, он, скорее всего, не справится. Так что нет реальной ниши, где я хотел бы его использовать. — Johno Whitaker
Поначалу я был в восторге от того, как близко он был, потому что чувствовал, что смогу подправить несколько вещей. А потом я начал разочаровываться, поскольку мне приходилось менять все больше и больше, и в итоге я пришел к тому, что лучше было бы начать с нуля и идти шаг за шагом. — Isaac Flath
Девин пытался использовать внутренний инструментарий, который очень важен для AnswerAI, что, в дополнение к другим проблемам, затрудняло его использование. И это несмотря на то, что Девин получил огромное количество документации и примеров. Я не обнаружил такой проблемы с такими инструментами, как Cursor, где есть больше возможностей для постепенного подталкивания в нужном направлении. — Hamel Husain
Из 20 задач было 14 неудач, 3 неполноценных результата и 3 успешных. Не удавалось предсказывать, какие задачи будут выполнены успешно.
Здравствуйте, vsb, Вы писали:
vsb>Пересказывать её не буду, но если вкратце — ряд задач он действительно решает, но далеко не всё и программиста заменить пока не может.
Это чем-то отличается от приглашенного электрика/сантехника, которого обычно нужно контролировать, и за которым нередко приходится переделывать?
Здравствуйте, Евгений Музыченко, Вы писали:
ЕМ>Это чем-то отличается от приглашенного электрика/сантехника, которого обычно нужно контролировать, и за которым нередко приходится переделывать?
тем что можно найти сантехника который все сделает нормально
а ИИ как бы не пыжился новую CP/M не напишет
Одна идея из статьи мне понравилась — чтобы ИИ-программист фиксил issues на гитхабе, на некоторых проектах их тысячи, и никого не колышат.
С другой стороны, сами проекты тоже на сотни тысяч строк — сможет ли такой ИИ-программист всё это осилить? issues не привязаны к конкретному коду как правило
Здравствуйте, vsb, Вы писали:
vsb>Недавно запустили стартап Devin. Если вкратце — это ИИ-програамист. Общаешься с ним через Slack, он полностью автономно работает, сам у себя настраивает что надо и тд, берёт задачу и делает. Т.е. цель — сделать полную иллюзию того, что на той стороне сидит человек.
vsb>Первые отзывы были восторженные, но вот более приземлённая статья: https://www.answer.ai/posts/2025-01-08-devin.html
так это с любым ИИ так, даже с самыми крутыми. сначала восторг, начинаешь пробовать, сначала вроде прекрасно все, а потом тут функцию не существующую вставит, там хрень какюуто, это вот вообще не компилирует, а этой библиотеки просто в принципе не существует. говоришь — дай существующую, он извиняется и дает еще одну не существующую.
ни и в общем после этого вера в ии сильно падает. пока что лучшее применение — шаг за шагом мелкие задачки решать, с контролем и верификацией каждого шага. и это при условии что их человеческим языком просто описать. а если сложно описать — проще самому программировать, чем промты сидеть сочинять.
я в какойто момент на последнем чатгпт понял, что уже 4уый чат запустил в попытке заново сформулировать и добиться таки от него решения моей проблемы. потому что старые темы уходили кудато в задницу, засирались, и там уже не разобрать было что к чему и почем, ни мне, ни ему (ИИ).
Здравствуйте, rm2, Вы писали:
rm2>я в какойто момент на последнем чатгпт понял, что уже 4уый чат запустил в попытке заново сформулировать и добиться таки от него решения моей проблемы. потому что старые темы уходили кудато в задницу, засирались, и там уже не разобрать было что к чему и почем, ни мне, ни ему (ИИ).
Со всем вышесказанным согласен, пару слов про технологию общения с Чатом. Несмотря на название, его лучше использовать не как чат в сложных вопросах. А именно, делать первый Промт, скармливать, смотреть результат. Не понравился ответ? Корректировать, дополнять условиями, ограничениями и новыми данными и скармливать уже с нуля новый промт. И так итерациями, пока не получится хороший полный Промт и правильный ответ на него (или не получится). Со временем из особо удачных промтов можно сделать шаблоны для вопросов, чтобы получать ответы намного быстрее.
Для старых версий такая рекомендация — это просто рекомендация. Новые чаты, которые работают на агентах и долго думают, "рассуждая" внутри себя — это уже не рекомендация, а необходимость. Надо давать как можно больше данных, чтобы не прочитать впустую их время (и своё тоже).
Здравствуйте, Nuzhny, Вы писали:
N>....Новые чаты, которые работают на агентах и долго думают...
Слушай, а что такое "агенты"? Несколько раз натыкался на ютубе на описание, но так и не смог понять что это такое — слишком пространные там объяснения.
Всё сказанное выше — личное мнение, если не указано обратное.
Здравствуйте, Философ, Вы писали:
Ф>Здравствуйте, Nuzhny, Вы писали:
N>>....Новые чаты, которые работают на агентах и долго думают...
Ф>Слушай, а что такое "агенты"? Несколько раз натыкался на ютубе на описание, но так и не смог понять что это такое — слишком пространные там объяснения.
Имхо, видимо имеется ввиду "доска" + "акторы" — это такая парадигма программирования.
Вот, несколько ипанутоакадемически описано в Википедии, но в некотором роде близко к смыслу.
Здравствуйте, Nuzhny, Вы писали: N>Для старых версий такая рекомендация — это просто рекомендация. Новые чаты, которые работают на агентах и долго думают, "рассуждая" внутри себя — это уже не рекомендация, а необходимость. Надо давать как можно больше данных, чтобы не прочитать впустую их время (и своё тоже).
только если заново начинать — там бывает такая проблема, что в старой теме некоторые элементы ответа ИИ — нравились. А в новой он заново все нагенерировал, совсем по другому. и как старое совместить с новым — ХЗ.
Здравствуйте, Философ, Вы писали:
Ф>Слушай, а что такое "агенты"?
Несколько ИИ, независимых, работающих совместно, в разных ролях.
кстати, считается что самосознание — появляется только на фоне мульти агентности. т.е. у отдельного ИИ, без коллектива подобных — самосознание появится не может.
Здравствуйте, Философ, Вы писали:
Ф>Слушай, а что такое "агенты"? Несколько раз натыкался на ютубе на описание, но так и не смог понять что это такое — слишком пространные там объяснения.
С одной стороны, ничего особенного — просто какая-то программа с LLM внутри,, которой дали API, чтобы она действовала самостоятельно. То есть у неё нет никакого UI, нет чёткого алгоритма работы. Можно почитать обзорную статью. Раньше агенты тоже были, торговали на бирже автоматически, например. Теперь им прочат большое будущее, потому что нашлось два плюса:
1. В плане применения внутри ЧатаГПТ и аналогов оказалось, что одна большая модель даёт ответы хуже, чем набор моделей поменьше, которые сами с собой "обсуждают" проблему. Обсуждают — это передают ответы в текстовом виде (хотя последние статьи говорят, что эффективнее передавать не текст, а в их внутреннем представлении).
2. В плане автоматизации оказалось, что LLM совершают не больше ошибок, чем человек, но в содержании дешевле. Поэтому им вполне можно доверить выполнение некоторых несложных задач по автоматизации, например техподдержки:
— одна LLM (агент) получает текстом от пользователя его проблему, разбирает и генерирует SQL запрос в БД;
— вторая LLM получает результат, парсит его в json в соответствие с результатом;
— третья LLM генерирует текст ответа, четвёртая пишет e-mail, пятая при необходимости пишет сотруднику компании, чтобы он вмешался лично и т.д.
Эти LLM не такие тяжёлые, они все сильно специализированные, поэтому можно поддерживать их много на одном сервере и покрывать основную часть проблем. Я был на одной конференции по внедрению нейронок в продакшен. У кого-то они анализируют тексты тендеров и определяют, за какой можно взяться, генерирую предварительную документацию, разбирают сканы документов, пишут письма задействованным сотрудникам. Типа просто автономно существуют в своей локальной области и сами принимают решения.
Ну и в итоге есть люди, которые прочат агентам больше будущее.
Из-за того, что данные для обучения кончаются и модели сильно больше текущих и построить сложнее, и обучить, и при этом они не дают большого буста по качеству. Как с процессорными ядрами — появился некий потолок. Пункт первый даёт надежду, что агенты помогут достигнуть AGI и дальше за счёт своей массовости и разноплановости.
Пункт второй показывает, что и как можно автоматизировать без привлечения новых программистов, чисто за счёт новых данных, которые будут непрерывно усваиваться и использоваться.