последнее время в разделе по кругу гоняются похожие отзывы и вопросы. Попробую со своей обывательской колокольни описать в паре абзацев понимание работы "ИИ".
Структура. Ядро ИИ можно представить как многогранник вокруг некоего предмета. Этот "предмет" — та картина мира, которую скормили модели через обучающий набор данных. А каждая грань (латентное представление) — вид-линза под определенным углом на этот предмет. Обучение — грубая шлифовка граней-линз (фиксирование весов). Дообучение (файнтюнинг) — пришлифовка (тонкая коррекция весов). Причем линзы не идельно прозрачные (сжатие размывает понятия, где-то здесь же и квантизация).
И вот вы стоите перед этим многогранным брульянтом и в зависимости от подробности/точности вашего запроса вы формируете точку фокуса через все эти грани на которую проецируется "взгляд" внутри изученной "картины мира".
Вход. Ваш запрос — не единственные данные для фокусировки. Есть еще так называемый "системный промпт" и другой выхлоп всяких MCP/Tools, например ответы гугл-поиска и т.п.
Выход. Генерация каждого нового токена — просто функция от сформированного запроса + уже сгенерированных токенов.
Токенизация — такое себе семантическое сжатие.
Выводы:
— То что вы пишете модели — малая часть всего входа. Для примера, системный промпт Клавдии — это 70+кб текста. Сами понимаете что при таких начальных влияние вашего промпта кгм.. не очень велико. Вы изначально ограничены определенной областью картины мира.
— Модель может генерировать новые знания или галюцинации, но она не отличает одно от другого. Это просто какие-то места в той картине мира, которой она обладает и куда упал фокус.
— Чтобы модель "дообучалась", ей нужны учителя. А если дообучать на чем бог пошлет (пользовательские мнения) то выйдет черт знает что.
— До недавних пор модели обучались по принципу "захавай все" и только потом чуток специализировались (файнтюнились). Диспетчеризация на специализированные модели пока еще редка.
Собственно:
Может ли модель творить? Да, может. Пихай рандом и исследуй чего она там нагенерит. Это касается не только LLM. Диффузоры (миджорни всякие, бананы) работают примерно так же.
Может ли модель находить новое? Да, может. Подсвети область и дай ей возможность побродить в окресностях.
Можно ли с помощью модели написать проект? Да, конечно. Давай идею, используй human-in-the-loop с моделью в ролях business analyst/architect/uiux для формирования спецификации и потом натрави модель, которая по спеке напишет код. Тестеры и техврайтеры прилагаются. С клонированием проекта — та же песня. Но! Это стандартный цикл разработки ПО, которым тебе прийдется рулить самому. Модель только инструмент.
Продолжу тут заметки на полях, может кому пригодится.
Вопрос: Можно ли использовать модели локально (ничего не отсылая в энторнеты)?
Ответ: Да, можно. Это называется инференс.
Начнем, пожалуй, с качества.
— Открытые модели, очевидно, отстают по качеству выдаваемого результата от коммерческих.
— Качество "познаваемого" очевидно зависит от размера модели. Модель 20B и модель 120B могут покрывать общий объем знаний, но вот детализация в младшей модели будет гораздо хуже, что приводит к дополнительным галюцинациям и тупизне из-за смешения понятий.
— Также на качество влияет "квантизация" — это такое себе "округление" (использование вместо float 16 типов данных меньших размерностей). Считается что квантизация до 4 бит дает несущественную потерю в качестве (до 15%). Хотя, мой опыт говорит что для кодинга желательно не опускатся ниже Q6.
— Модели на архитектуре MoE при том же размере проигрывают моделям с архитектурами где все параметры активны.
Скорость. Очевидно что скорость зависит от железа. Развертывание на CPU на порядок медленнее работы на GPU (даже старом).
Для кодинга желательна скорость генерации 30+ токенов/сек. Хотя, даже при такой скорости возникает желание повыть. И на CPU вы такой скорости не добьетесь на нормальных моделях.
Утилиты.
Из популярных можно выделить lmstudio, ollama. Они имеют каталог поддерживаемых моделей, можно загружать и чатиться чтобы померять скорость. Также они могут работать в режиме сервера, к которому можно подключать многие имеющиеся кодинг клиенты.
Для кодинга используйте не чат-окно, а специализированные клиенты (OpenCode, Claude Code etc, Desktop|CLI) и оркестраторы процесса.
Мысли в слух:
— модели можно искать на hugging face.
— там же есть закладка с репой в которой можно посмотреть размер модели. Желательно чтобы модель целиком влазила в видеопамять карты и занимала не более 70% ее памяти.
— если модель частично в обычной ОЗУ или (еще хуже) отваливается в своп, то можно только посочувствовать и предложить искать более подходящую модель.
— модели по архитектуре MoE (mixture-of-experts) могут инференсится по частям, но скорость при этом все равно унылая.
— современные базовые модели — это требование в 128+Гб видеопамяти (или линейной памяти для некоторых устройств), а топовые — 256+Гб
Вывод:
Для личных нужд/шаровары локальный инференс практически не имеет смысла. Большая четверка (OpenAI, Anthropic, Google, Alibaba) предлагают гораздо лучшее качество по вменяемым ценам.
Локальные модели имеют бонус в виде возможности отключения цензуры.
Здравствуйте, pva, Вы писали:
pva>Продолжу тут заметки на полях, может кому пригодится.
pva>Вопрос: Можно ли использовать модели локально (ничего не отсылая в энторнеты)? pva>Ответ: Да, можно. Это называется инференс.
Это называется — много денег. Локально можно запустить что-то серьезное, только если у тебя ну оооЧень много денег! Сраный ДипСик стоит каких-то не вероятных денег даже в fp8. И буржуи делаю всё, чтобы у тебя не было ничего приличнее за приемлемые деньги.
Есть логика намерений и логика обстоятельств, последняя всегда сильнее.
Здравствуйте, VladD2, Вы писали:
VD>Да ни хрена. ДипСик показывает очень не плохие результаты. Думю Антропики и Гуглы бесятся в бессильной злобе.
Как это ни странно, но сейчас дипсик мне показыва результаты хуже, чем бесплатный гугловый помощник: гугловый помощник понимает описание "конденсатор впаян до тумблера включения, т.о. в момент старта прибора конденсатор заряжен" — дипсик это описание игнорирует, и предполагает, что проблему в момент включения вызывает большой ток зарядки конденсатора. Это я вместе с ними размышлял о причинах по которым генератор сигналов нестабильно работает от павербанка. Я с подобным не впервые сталкиваюсь — просто не запоминаю, не сохраняю для дискуссий. Они игнорируют часть условий. По крайней мере дипсик, как помощник по электронике с натяжечкой тянет на четвёрку, или на 3 с плюсом — слишком часто приходится перепроверять. Это именно он мне предлагал подключиться осциллографом к контуру с конденсатором в 2 пФ.
Всё сказанное выше — личное мнение, если не указано обратное.