bnk>Типа может работать над проектом (GitHub) по заданию. Сегодняшняя презентация
Я получил бизнес-лицензию на Cursor и пытался объяснить Claude 3.5, чтоб он добавил Cypress — выхлопа ноль. Чё-то нагенерил, которое не проходит ни одного теста. Напрягает, что научиться объеснить LLM-у дольше, чем самому сделать.
Помнитсо в 2015г журнализды обсуждали моральный аспект автономного дрона. Прошло 10 лет. И чО? Дроны с рулоном оптоволокна это типа пик прогресса. Так и с LLM — оно почти работает на каких-то corner case на презентации, но когда пытаешься использовать его в повседневной работе- тупит и галлюцинирует. Чуваки из стартапов будут изо всех сил поддерживать хайп, но он уже сдувается. Нужно следующую тему для нового хайпа.
Здравствуйте, Артём, Вы писали:
Аё>Я получил бизнес-лицензию на Cursor и пытался объяснить Claude 3.5, чтоб он добавил Cypress — выхлопа ноль. Чё-то нагенерил, которое не проходит ни одного теста. Напрягает, что научиться объеснить LLM-у дольше, чем самому сделать.
Насколько я понимаю, Cursor — это не то же самое. Тут предлагают не IDE, а облачных агентов.
Аё>Помнитсо в 2015г журнализды обсуждали моральный аспект автономного дрона. Прошло 10 лет. И чО? Дроны с рулоном оптоволокна это типа пик прогресса.
Если что, автономные дроны уже давно существуют и применяются: и летающие, и ездящие. Банально: колёсный дрон объезжает по периметру территорию, если камера задетектировала посторонний объект, то вылетает в это место квадрокоптер, снимает сверху и улетает обратно на базу-зарядку. Всё автономно.
Совсем другое дело, когда в условиях РЭБ и угрозы уничтожения надо летать, без глобальной навигации и т.д. Это совсем другая задача, которая тоже потихоньку начинает решаться: например, БОНС от Калашникова. Сейчас все такое делают, на разных стадиях успеха. Раньше от этого не было никакого толка, поскольку ГНСС везде работал.
Также и с LLM: контекст моделей растёт, качество растёт, тренировать на кодирование можно просто с помощью RL, тут не должно быть места для галлюцинаций, поскольку другой агент будет писать тесты, которые надо пройти. Пока не видно принципиальных проблем для масштабирования. Намного сложнее написать книгу или стихотворение, где читатель скажет: "Мне неинтересно!" А как сделать интересно — не понятно. У программистов есть тесты, компилятор, формальные требования.
Re: CODEX (OpenAI - презентация) - что там про 2027 говорили?
Здравствуйте, bnk, Вы писали: bnk>Типа может работать над проектом (GitHub) по заданию. Сегодняшняя презентация
Я пытался на этой неделе дипсик заставить сконвертить файлик одного формата в другой. Бесполезно. Выдал миллион вариантов и все нерабочие
Re[3]: CODEX (OpenAI - презентация) - что там про 2027 говорили
Здравствуйте, Nuzhny, Вы писали:
N>Насколько я понимаю, Cursor — это не то же самое. Тут предлагают не IDE, а облачных агентов.
Cursor — не просто ide, им управляет чат-бот. Чат-бот прикидывается программистом, но результат примерно похож на самых дешёвых аутсорсов, которым нужно приплачивать, чтоб не вредили.
N>Если что, автономные дроны уже давно существуют и применяются: и летающие, и ездящие. Банально: колёсный дрон объезжает по периметру территорию, если камера задетектировала посторонний объект, то вылетает в это место квадрокоптер, снимает сверху и улетает обратно на базу-зарядку. Всё автономно.
Это всё лажа и существовало задолго до LLM, чуть ли в 80-е годы прошлого века. Я имею в виду дрон, который без оператора вылетает, выбирает цель и уничтожает. Пока что нужна пуповина — толи радио-канал для FPV, толи бобина. Офигеть прогресс ага. AI блин.
N>Также и с LLM: контекст моделей растёт, качество растёт
Так же и Илонушка Маск обещал самоуправляющиеся повозки в 2016г и демонстрировал концепты без руля. Как дошло до внедрения — оказалось, всё это постанова и потёмкинские деревни.
Re[2]: CODEX (OpenAI - презентация) - что там про 2027 говор
Здравствуйте, Артём, Вы писали:
Аё>Я получил бизнес-лицензию на Cursor и пытался объяснить Claude 3.5, чтоб он добавил Cypress — выхлопа ноль. Чё-то нагенерил, которое не проходит ни одного теста. Напрягает, что научиться объеснить LLM-у дольше, чем самому сделать.
Я пользую в основном VS Code (с copilot, gpt 4.1). Это лучше чем cursor (IMHO).
Думаю что текущий уровень — это такой продвинутый автокомплит или редактирование джуном, когда можно давать небольшие задания,
реализация которых у меня самого заняла бы сильно больше времени, в силу того что надо смотреть какие в библиотеках параметры,
куда их подставлять ну и прочее, в общем, читать документацию, несмотря на то задача в целом тривиальна
В видосике речь о том что ты показываешь этому агенту на репозиторий GitHub и даешь задание (в примере был баг репорт в diff)
Он сам выявляет что нужно сделать (какие файлы поменять и как), и делает, тестирует, в результате получаешь готовый PR.
То что контекст все еще недостаточен для обработки всего проекта за раз обходится так же,
как это делаем мы — агент натренерован находить зависимости.
Здравствуйте, bnk, Вы писали:
bnk>Я пользую в основном VS Code (с copilot, gpt 4.1). Это лучше чем cursor (IMHO). bnk>Думаю что текущий уровень — это такой продвинутый автокомплит или редактирование джуном, когда можно давать небольшие задания, bnk>реализация которых у меня самого заняла бы сильно больше времени, в силу того что надо смотреть какие в библиотеках параметры, bnk>куда их подставлять ну и прочее, в общем, читать документацию, несмотря на то задача в целом тривиальна
Такой сценарий нам продемонстрировал коллега (из поглощённого стартапа). Добавил файл разметки с описанием API в контекст клода в курсоре, и путём нескольких попыток таки кцрсор сделал изменения и начал PR.
Что я хочу тут сказать, слабые стороны позиции "куда их подставлять ну и прочее, в общем, читать документацию". Документации может не быть. Документация может быть ошибочной- и в процессе понимания, вызываешь BA или архитекта и говоришь "так оно работать не будет". Даже если документация 100% валидная- автозамену, авто complete в ide никто не отменял, так что разница в скорости быстропечатальщика на уровне загрузки мозжечка, и LLM в процессе 3-4 итераций, некритическая. Потратишь ты 5 минут (опытный промптовод) или 10 минут (орытный копипастер) и пойдё7ь пить чай на 50 минут- выхлоп одинаковый.
bnk>В видосике речь о том что ты показываешь этому агенту на репозиторий GitHub и даешь задание (в примере был баг репорт в diff) bnk>Он сам выявляет что нужно сделать (какие файлы поменять и как), и делает, тестирует, в результате получаешь готовый PR.
Да да, все LLM генерят пошаговый ход размышлений.
bnk>То что контекст все еще недостаточен для обработки всего проекта за раз обходится так же,
Ты понимаешь, что это- натягивание совы на глобус? Если LLM может делать лишь обязанности тупейшего из колировщиков, и для этого нужно сощдать ему идеальные тепличные условия и иметь навыки работы с LLM на уровне продвинутого промптовода, то это как троллейбус из хлебушка?
bnk>как это делаем мы — агент натренерован находить зависимости.
Но, что я хочу добавить. Другие мои коллеги разыграли сценку "сбор требований с заказчика в отсутствие органического BA" на хакафоне, и вот там суррогатный BA из claude впечатлил. Наверное, так же как впечатляет не-программистов генерацией нерабочего кода.
PS моя цель- задушить собственный bias против LLM и научиться использовать его продуктивно, для повышения собственной и подчинённых продуктивности в условиях голода на штатные головы на проекте, когда нанять нельзя, но работу работать надо в почти докризисных объёмах. Покрытие тестами- это важная и скучная часть, которая отжирает времени сравнимо с затратами на имплементацию, и при этом неважно качество кода самого теста.
Здравствуйте, Артём, Вы писали:
Аё>Ты понимаешь, что это- натягивание совы на глобус? Если LLM может делать лишь обязанности тупейшего из колировщиков, и для этого нужно сощдать ему идеальные тепличные условия и иметь навыки работы с LLM на уровне продвинутого промптовода, то это как троллейбус из хлебушка?
IMHO, развивается достаточно быстро для того, чтобы оставить меня например без заработка
Думается что если оно уж осилит написание кода (и его запуск, тестирование, и отладку), то скилы более высокого уровня абстракции,
типа выбора технологии на которой разрабатывать, платформы, архитектуры, на основе публичных данных освоит еще быстрее.
Re[5]: CODEX (OpenAI - презентация) - что там про 2027 говор
Здравствуйте, bnk, Вы писали:
bnk>IMHO, развивается достаточно быстро для того, чтобы оставить меня например без заработка
Ну копи-паста вызова API это ведь не обязанности синьёрного девлопера?
bnk>Думается что если оно уж осилит написание кода (и его запуск, тестирование, и отладку), то скилы более высокого уровня абстракции, bnk>типа выбора технологии на которой разрабатывать, платформы, архитектуры, на основе публичных данных освоит еще быстрее.
Проблема с LLM, от которой меня собственно, бомбит- это что обещания расходятся с реальностью. Как с большими аутсорсными компаниями, которые нанимают абсолютный дешёвый уровень, крестьян, и продают буратинам на Западе как "огромный пул талантов". Происходит вымывание реальных локальных работников, продукт изговняется и теряет клиентов, разваливается. "Эффективные менеджеры" теперь и под соусом LLM.
Собственно, клод уже достиг уровня аутсорсных танцоров.
Re[5]: CODEX (OpenAI - презентация) - что там про 2027 говор
Здравствуйте, bnk, Вы писали:
bnk>IMHO, развивается достаточно быстро для того, чтобы оставить меня например без заработка :
Не оставит. LLM принципиально не могут ничего сами разработать, и не смогут и через 1000 лет, архитектура не позволяет. А когда появится такой искусственный интеллект который сможет ( и это будет не LLM) — то он заменит вообще всех, без исключения
Вот только с разработкой такого интеллекта пока что глушняк
Re[5]: CODEX (OpenAI - презентация) - что там про 2027 говор
Здравствуйте, bnk, Вы писали:
bnk>IMHO, развивается достаточно быстро для того, чтобы оставить меня например без заработка bnk>Думается что если оно уж осилит написание кода (и его запуск, тестирование, и отладку), то скилы более высокого уровня абстракции, bnk>типа выбора технологии на которой разрабатывать, платформы, архитектуры, на основе публичных данных освоит еще быстрее.
Тут еще так, что сначала испытываешь вау-эффект и кажется, что реально может заменить человека. Но немного поработав понимаешь, что модели — невероятно тупые. Настоящего интеллекта у них не больше, чем у калькулятора. Но тем не менее, могут серьезно помочь в написании кода, освободив от рутины и иногда подсказав какие-то варианты. Так что это мощный инструмент, даже революционно мощный, способный изменить вообще весь подход к написанию программ. Но программистов все-таки не заменят. Во всяком случае не всех Кто-то должен им ставить задачи, писать промпты, проверять работу, продумывать архитектуру и т.д. Максимум возможно, что меньше станет нужно низкоквалифицированных джунов для программирования коротких рутинных заданий.
Re[2]: CODEX (OpenAI - презентация) - что там про 2027 говорили?
Здравствуйте, __kot2, Вы писали:
__>Я пытался на этой неделе дипсик заставить сконвертить файлик одного формата в другой. Бесполезно. Выдал миллион вариантов и все
нерабочие
А ты как пытался это сделать? Если в общем виде написать сконвертируй xxx в yyy, то это если только в самых простых случаях на которые есть готовые библиотеки для форматов. Но вот если начать ставить задачи от простого к более сложному, можно получить неплохой результат. Для начала описывается подробно формат файла. Если очень большое описание, то для первых вариантов в каком-то сильно сокращенном виде (даже не соответствующим реальным). Пусть сначала считает в память файл с таким форматом и какую-то структуру инициализирует. Потом уточнения, больше и больше. В общем-то примерно так как сам стал бы писать программу.
Важно, что подходы к проектированию бывают от общего к частному — это то, чему по классике обычно учат программистов. И наоборот, от частного к общему, так вот мне кажется, что нейросети более успешно пишут код, если идти от реализации небольших мелких алгоритмов, постепенно раскручивая.
Re[6]: CODEX (OpenAI - презентация) - что там про 2027 говор
Здравствуйте, Michael7, Вы писали:
M>Тут еще так, что сначала испытываешь вау-эффект и кажется, что реально может заменить человека. Но немного поработав понимаешь, что модели — невероятно тупые. Настоящего интеллекта у них не больше, чем у калькулятора. Но тем не менее, могут серьезно помочь в написании кода, освободив от рутины и иногда подсказав какие-то варианты. Так что это мощный инструмент, даже революционно мощный,
Мне эта ствтистических моделей какбы не нова. Вау эффекта нет.
Я потратил в сумме полтора дня -10 часов- чтобы сделать так, чтобы курсор написал 4 теста Cypress, которые он сам же и предложил. Потом я попросил курсор написать 5 тест, который покрывает часть фичи. И я сдался. Невозможно с этим дуболомом работать. Чат длиной в 10 раз больше больше, чем код Cypress-а- это перебор. Я бы потратил полдня даде с учётом необъяснимых падений в CircleCI и перезапусков.
Re: CODEX (OpenAI - презентация) - что там про 2027 говорили?
bnk>Типа может работать над проектом (GitHub) по заданию. Сегодняшняя презентация
bnk>TLDR: п***ц хомячкам
Хомяки — это те, кто несут свои сбережения в акции конторы после таких видео?
Презы красивые, но хотелось бы увидеть мортал комбат на серьезных задачах, а не на переименовывании переменных и багофиксах. Если научится хотя бы фиксить баги — уже хорошо. Пока много красивых разговоров.
Re[2]: CODEX (OpenAI - презентация) - что там про 2027 говор
Здравствуйте, Nuzhny, Вы писали:
N>Также и с LLM: контекст моделей растёт, качество растёт,
абсолютно не пропорциональной получаемому результату ценой.
т.е. что ожидается — что LLM будет выдавать на достаточно сложные задачи ответ на 99% верный в стиле не рассуждающих ИИ, т.е. сразу.
А все движется к тому, что чтобы получить верный ответ — нужно взять несколько рассуждающих ИИ, посадить их вместе, и чтобы они в диалоговом режиме рассуждая решали задачу. Часами, сутками, или может быть даже месяцами.
Как собственно, это делали бы люди.
И получается, эффективность опускается до уровня человеческой, при безумной трате в ресурсах. Стоит один сервер ценой в несколько сотен тысяч $ и энергозатратами > киловата в часа, и рассуждает с другим таким же.
Это пипец как дорого и не эффективно.
Re[6]: CODEX (OpenAI - презентация) - что там про 2027 говор
Здравствуйте, Michael7, Вы писали:
M>Тут еще так, что сначала испытываешь вау-эффект и кажется, что реально может заменить человека. Но немного поработав понимаешь, что модели — невероятно тупые. Настоящего интеллекта у них не больше, чем у калькулятора. Но тем не менее, могут серьезно помочь в написании кода, освободив от рутины и иногда подсказав какие-то варианты. Так что это мощный инструмент, даже революционно мощный, способный изменить вообще весь подход к написанию программ. Но программистов все-таки не заменят. Во всяком случае не всех Кто-то должен им ставить задачи, писать промпты, проверять работу, продумывать архитектуру и т.д. Максимум возможно, что меньше станет нужно низкоквалифицированных джунов для программирования коротких рутинных заданий.
Я бы еще добавил, что когнитивная нагрузка на человека — сильно возрастает, т.к. приходится постоянно анализировать то что тебе выдало ИИ, и не выдало ли херни.
Re[4]: CODEX (OpenAI - презентация) - что там про 2027 говорили
Здравствуйте, rm2, Вы писали:
rm2>т.е. что ожидается — что LLM будет выдавать на достаточно сложные задачи ответ на 99% верный в стиле не рассуждающих ИИ, т.е. сразу.
Это не очевидное утверждение. Пока понятно, что написание простого текущего кода оно очень ускоряет. Попросил написать код для сохранения видео по кусочкам, с циклической перезаписью — за час заработало. Я бы такое день писал, скорее всего.
rm2>А все движется к тому, что чтобы получить верный ответ — нужно взять несколько рассуждающих ИИ, посадить их вместе, и чтобы они в диалоговом режиме рассуждая решали задачу. Часами, сутками, или может быть даже месяцами. rm2>Как собственно, это делали бы люди.
Есть пример из медицины, где исследователи (результат уже получен, но не опубликован) попросили чатик решить задачу с теми же исходными данными, которые были у них. Чатик за пару дней выдал ту же методику и результаты, которые лаборатория получила за несколько месяцев. И предложил ещё несколько вариантов, один из которых они взяли на вооружение.
rm2>И получается, эффективность опускается до уровня человеческой, при безумной трате в ресурсах. Стоит один сервер ценой в несколько сотен тысяч $ и энергозатратами > киловата в часа, и рассуждает с другим таким же. rm2>Это пипец как дорого и не эффективно.
Это при условии, что сервер работает на одного, но ведь один сервером могут пользоваться десятки/сотни людей.