DeepSeek, Qwen и теперь и Open AI выкатила gpt-oss-120b и gpt-oss-20b. Какой смысл тем кто делает коммерческие LLM делать еще и Open Source LLM (модели с открытыми весами)?
Есть логика намерений и логика обстоятельств, последняя всегда сильнее.
Здравствуйте, VladD2, Вы писали:
VD>DeepSeek, Qwen и теперь и Open AI выкатила gpt-oss-120b и gpt-oss-20b. Какой смысл тем кто делает коммерческие LLM делать еще и Open Source LLM (модели с открытыми весами)?
Ну, может они сварили что-то, по сравнению с чем эти open source модели сильно тускнеют?
Я, в последнее время, в игушки стал играть на стиме.
Так в играх так делают постоянно. Если какая-то огромная скидка, значит вот-вот выйдет обнова за крупное бабло.
Здравствуйте, VladD2, Вы писали:
VD>DeepSeek, Qwen и теперь и Open AI выкатила gpt-oss-120b и gpt-oss-20b. Какой смысл тем кто делает коммерческие LLM делать еще и Open Source LLM (модели с открытыми весами)?
Чтобы не возникло открытых систем, которые смогут стать конкурентами.
Ведь если не они сделают — то сделает кто-то левый — и проект обретет популярность, его начнут поддерживать, образуется команда. Будет развитие. И со временем есть риск получить конкурента, который доступен бесплатно для всех — что сводит в утиль и в ноль смысл существования платного сервиса.
Чтобы это убрать на корню — как бы сразу дают лучшее бесплатно — чтобы любые попытки сделать это левыми силами — выглядели бессмысленными. Зачем — если вот OpenAI бесплатно все уже выложила и лучше чем это поделие.
Здравствуйте, VladD2, Вы писали:
VD>DeepSeek, Qwen и теперь и Open AI выкатила gpt-oss-120b и gpt-oss-20b. Какой смысл тем кто делает коммерческие LLM делать еще и Open Source LLM (модели с открытыми весами)?
Что они там реально дают? Может они прокукарекали а там хоть не рассветай? Какие данные там реально присутствуют? Как их можно использовать?
Здравствуйте, alpha21264, Вы писали:
A>Что они там реально дают? Может они прокукарекали а там хоть не рассветай? Какие данные там реально присутствуют? Как их можно использовать?
Берешь их модель с их весами и дообучаешь на своем датасете. На твоем датасете точность станет выше.
Если занимаешься изучением темы, то можешь в деталях изучить, как они сделали свою модель.
Здравствуйте, Vzhyk2, Вы писали:
V>Здравствуйте, alpha21264, Вы писали:
A>>Что они там реально дают? Может они прокукарекали а там хоть не рассветай? Какие данные там реально присутствуют? Как их можно использовать? V>Берешь их модель с их весами и дообучаешь на своем датасете. На твоем датасете точность станет выше. V>Если занимаешься изучением темы, то можешь в деталях изучить, как они сделали свою модель.
Проблема сейчас в оном есть только одна. Те, кто делают движки (гугл, мета и т.п) очень не хотят, чтобы модели можно было легко переносить между движками и делают всё, чтобы усложнить этот процесс.
Здравствуйте, VladD2, Вы писали:
VD>DeepSeek, Qwen и теперь и Open AI выкатила gpt-oss-120b и gpt-oss-20b. Какой смысл тем кто делает коммерческие LLM делать еще и Open Source LLM (модели с открытыми весами)?
на локальной машине их запустишь? И какие должны быть ТТХ ?
Здравствуйте, Kocur, Вы писали:
VD>>DeepSeek, Qwen и теперь и Open AI выкатила gpt-oss-120b и gpt-oss-20b. Какой смысл тем кто делает коммерческие LLM делать еще и Open Source LLM (модели с открытыми весами)? K>на локальной машине их запустишь? И какие должны быть ТТХ ?
Довольно легко найти в инетер
Native MXFP4 quantization: The models are trained with native MXFP4 precision for the MoE layer, making gpt-oss-120b run on a single H100 GPU and the gpt-oss-20b model run within 16GB of memory.
Т.е., если по простому, то для 120b нужно уже профессиональное решение (но не то чтобы какой-то суперкомпьютер), а 20b нормально заработает и на домашнем компе при условии наличия мощной видеокарты с 16 vram.
Здравствуйте, fmiracle, Вы писали:
F>а 20b нормально заработает и на домашнем компе при условии наличия мощной видеокарты с 16 vram.
оно и на 5600G/32GB норм работает 11.5 tok/s на старте
Здравствуйте, fmiracle, Вы писали:
F>Т.е., если по простому, то для 120b нужно уже профессиональное решение (но не то чтобы какой-то суперкомпьютер), а 20b нормально заработает и на домашнем компе при условии наличия мощной видеокарты с 16 vram.
кто-нибудь установите 20b на свою машину и поиграйтесь.
Здравствуйте, Kocur, Вы писали:
K>кто-нибудь установите 20b на свою машину и поиграйтесь.
спрашивал у неё про видяхи и APU к 2050-ому году, выдаёт туфту какую то (но в целом она для другого, видимо)
K>какие ответы он там дает?
а вот облачный ChatGPT даёт поинтереснее футурологические предикты (пока не скатывается в упрощённую версию за пределами лимитов)
Здравствуйте, Kocur, Вы писали:
K>вот у меня и было подозрение, что версия для домашнего компа будет примитивна
а ты что, думал что тебе AGI (или хотя бы GPT-5) локально выкатят равноценный облачному ?
топовые LLM до 4 TB RAM могут требовать (для инференса), а GPT-5 наверное и того больше (скоро анонс вроде)
K>вот у меня и было подозрение, что версия для домашнего компа будет примитивна
а чего сам то не запустишь ? поюзай онлайн ChatGPT (он бесплатен с некоторыми лимитами) и локальную модельку (через LM Studio, там всё просто через интерфейс),
"возможно" с российских IP адресов что то блокируют, но вряд ли для тебя это проблема, не ?
Здравствуйте, Shmj, Вы писали:
S>Чтобы не возникло открытых систем, которые смогут стать конкурентами.
S>Ведь если не они сделают — то сделает кто-то левый
Как наличие одних открытых LLM может помешать другим сделать свои LLM (не важно даже открытые или нет)*+?
Если у тебя есть больше информации, то и больше возможностей. Тебе же не мешает наличие некого опенсорс-софта создать свой такой же? Ты можешь взять чужой и на его безе ускорить создание своего.
S>- и проект обретет популярность, его начнут поддерживать, образуется команда. Будет развитие. И со временем есть риск получить конкурента, который доступен бесплатно для всех — что сводит в утиль и в ноль смысл существования платного сервиса.
Так возникнет бесплатный конкурент. Это еще хуже для тех кто делает платный. Ну и для платных это может стать не плохой основой.
S>Чтобы это убрать на корню — как бы сразу дают лучшее бесплатно — чтобы любые попытки сделать это левыми силами — выглядели бессмысленными. Зачем — если вот OpenAI бесплатно все уже выложила и лучше чем это поделие.
Звучит глупо. Во-первых, хорошие бесплатные уже есть. Во вторых открытие LLM можно до обучать, тюнить, создавать на них основе свои аналоги. Это только упрощает задачу создания конкурентов.
Есть логика намерений и логика обстоятельств, последняя всегда сильнее.
Здравствуйте, alpha21264, Вы писали:
A>Что они там реально дают? Может они прокукарекали а там хоть не рассветай? Какие данные там реально присутствуют? Как их можно использовать?
Дают LLM по возможностям сравнимые и даже превосходящие свои модели предыдущего поколения.
Здравствуйте, Kocur, Вы писали:
K>на локальной машине их запустишь? И какие должны быть ТТХ ?
А какая разница? Для gpt-oss-20b достаточно гражданской машины. 16 Гб оперативки и RTX 3090. У меня в домашнем компе ТТХ сильно лучше. gpt-oss-20b конечно сильно урезанная модель. Но на гражданских машинах другие и не запускаются.
gpt-oss-120b потребует уже A100 или H100 с 80+ Гб оперативки. Но она уже с серьезными модельками может конкурировать. Для компании может оказаться самое то, особенно, если дообучить на своих данных.
Есть логика намерений и логика обстоятельств, последняя всегда сильнее.
Здравствуйте, VladD2, Вы писали:
VD>DeepSeek, Qwen и теперь и Open AI выкатила gpt-oss-120b и gpt-oss-20b. Какой смысл тем кто делает коммерческие LLM делать еще и Open Source LLM (модели с открытыми весами)?
Видимо идут по модели заработка а-ка Linux, т.е. на поддержке. Ибо такие решения без экспертных навыков применить не получится, будет глюк на глюке. Даже Oracle зарабатывает на Java, ну а на чем более глючащем софте еще более заработать можно. Если на Linux зарабатывают, то на AI там стократный фронт работ у поддержки.
Здравствуйте, VladD2, Вы писали:
VD>DeepSeek, Qwen и теперь и Open AI выкатила gpt-oss-120b и gpt-oss-20b. Какой смысл тем кто делает коммерческие LLM делать еще и Open Source LLM (модели с открытыми весами)?
Наука по сути является Open Source и в этом её преимущество, так как обмен информацией является основным фактором для прогресса, а значит и массовость использования.
Для коммерческих LLM это предоставление серверов за плату.
и солнце б утром не вставало, когда бы не было меня