GPT-4o is available in the free tier of ChatGPT starting today and to subscribers to OpenAI’s premium ChatGPT Plus and Team plans with “5x higher” message limits. (OpenAI notes that ChatGPT will automatically switch to GPT-3.5, an older and less capable model, when users hit the rate limit.) The improved ChatGPT voice experience underpinned by GPT-4o will arrive in alpha for Plus users in the next month or so, alongside enterprise-focused options.
Выше кстати вводят в заблуждение фразой "in the free tier", но здесь детально объясняют.
Мне кажется революцией это назвать сложно, с одной стороны есть попытка стимулирования рынка снижения стоимости для пользователей API. Уж сильно стоимость GPT-4 была несбалансирована даже по сравнению с GPT3.5. С другой стороны выпустили довольно странные Assistent-инструменты с голосом Скарлетт Йоханссон и закосом под черное зеркало:
Здравствуйте, Nuzhny, Вы писали:
N>... чтобы работал локально на клиенте.
Вот это тема! Я всячески негативно отношусь к продавцам облачных апи платить за каждый вызов, но on-client inference технически возможна уже сегодня на современных мобильных устройствах, даже без доступа к NPU, а ускорение на NPU сделает инференс LLM-к в реалтайме реальностью уже к следующему поколению процов т.е. через 1-2 года.
Здравствуйте, Артём, Вы писали:
N>>... чтобы работал локально на клиенте.
Аё>Вот это тема! Я всячески негативно отношусь к продавцам облачных апи платить за каждый вызов, но on-client inference технически возможна уже сегодня на современных мобильных устройствах, даже без доступа к NPU, а ускорение на NPU сделает инференс LLM-к в реалтайме реальностью уже к следующему поколению процов т.е. через 1-2 года.
Когда я недавно смотрел на Llama 3, ему для инференса нужно было под 100 ГБ оперативной памяти в видеокарте. А ведь он не дотягивает до GPT4. О какой работе на клиенте идёт речь — я не очень понимаю.
Здравствуйте, vsb, Вы писали:
vsb>Когда я недавно смотрел на Llama 3, ему для инференса нужно было под 100 ГБ оперативной памяти в видеокарте. А ведь он не дотягивает до GPT4. О какой работе на клиенте идёт речь — я не очень понимаю.
Фигня, Llama 3 8B, квантизированная в 4 бит легко крутится на моих ноутбуках, вроде как ей достаточно даже GF 1650 4Gb. Поставь lmstudio и посмотри.
P.S. Пусть все ругают С++, но именно на нём всё написано
Здравствуйте, Nuzhny, Вы писали:
vsb>>Когда я недавно смотрел на Llama 3, ему для инференса нужно было под 100 ГБ оперативной памяти в видеокарте. А ведь он не дотягивает до GPT4. О какой работе на клиенте идёт речь — я не очень понимаю.
N>Фигня, Llama 3 8B, квантизированная в 4 бит легко крутится на моих ноутбуках, вроде как ей достаточно даже GF 1650 4Gb. Поставь lmstudio и посмотри.