Там Mira Murati представили GPT-4o - Искусственный интеллект

Что-то все молчат тут. Собственно сама новость

GPT-4o is available in the free tier of ChatGPT starting today and to subscribers to OpenAI’s premium ChatGPT Plus and Team plans with “5x higher” message limits. (OpenAI notes that ChatGPT will automatically switch to GPT-3.5, an older and less capable model, when users hit the rate limit.) The improved ChatGPT voice experience underpinned by GPT-4o will arrive in alpha for Plus users in the next month or so, alongside enterprise-focused options.

Выше кстати вводят в заблуждение фразой "in the free tier", но здесь детально объясняют.

Мне кажется революцией это назвать сложно, с одной стороны есть попытка стимулирования рынка снижения стоимости для пользователей API. Уж сильно стоимость GPT-4 была несбалансирована даже по сравнению с GPT3.5. С другой стороны выпустили довольно странные Assistent-инструменты с голосом Скарлетт Йоханссон и закосом под черное зеркало:

	Скрытый текст
	https://www.youtube.com/watch?v=MirzFk_DSiI

Вердикт: Конечно GPT-4o лучше чем GPT-4, но по скорости все еще уступает GPT-3.5 для API это критично.

⸻
^{❧ “Concentrate all your thoughts upon the work in hand. The sun’s rays do not burn until brought to a focus. ” — Alexander Graham Bell}

Здравствуйте, r0nd, Вы писали:

R>Что-то все молчат тут. Собственно сама новость

Там самое интересное — это агенты, которые могу держать в себе дохера конекста и стать твоим личным ИИ.

P.S. А Гугл обещает Gemini nano уже в Хроме, чтобы работал локально на клиенте.

Здравствуйте, Nuzhny, Вы писали:

N>... чтобы работал локально на клиенте.

Вот это тема! Я всячески негативно отношусь к продавцам облачных апи платить за каждый вызов, но on-client inference технически возможна уже сегодня на современных мобильных устройствах, даже без доступа к NPU, а ускорение на NPU сделает инференс LLM-к в реалтайме реальностью уже к следующему поколению процов т.е. через 1-2 года.

Здравствуйте, Артём, Вы писали:

N>>... чтобы работал локально на клиенте.

Аё>Вот это тема! Я всячески негативно отношусь к продавцам облачных апи платить за каждый вызов, но on-client inference технически возможна уже сегодня на современных мобильных устройствах, даже без доступа к NPU, а ускорение на NPU сделает инференс LLM-к в реалтайме реальностью уже к следующему поколению процов т.е. через 1-2 года.

Когда я недавно смотрел на Llama 3, ему для инференса нужно было под 100 ГБ оперативной памяти в видеокарте. А ведь он не дотягивает до GPT4. О какой работе на клиенте идёт речь — я не очень понимаю.

Здравствуйте, vsb, Вы писали:

vsb>Когда я недавно смотрел на Llama 3, ему для инференса нужно было под 100 ГБ оперативной памяти в видеокарте. А ведь он не дотягивает до GPT4. О какой работе на клиенте идёт речь — я не очень понимаю.

Фигня, Llama 3 8B, квантизированная в 4 бит легко крутится на моих ноутбуках, вроде как ей достаточно даже GF 1650 4Gb. Поставь lmstudio и посмотри.
P.S. Пусть все ругают С++, но именно на нём всё написано

Здравствуйте, Nuzhny, Вы писали:

vsb>>Когда я недавно смотрел на Llama 3, ему для инференса нужно было под 100 ГБ оперативной памяти в видеокарте. А ведь он не дотягивает до GPT4. О какой работе на клиенте идёт речь — я не очень понимаю.

N>Фигня, Llama 3 8B, квантизированная в 4 бит легко крутится на моих ноутбуках, вроде как ей достаточно даже GF 1650 4Gb. Поставь lmstudio и посмотри.

А не квантизированная?

Здравствуйте, vsb, Вы писали:

vsb>А не квантизированная?

Умножай. Совсем в fp32 запускать смысла мало. Там есть и 5, и 6, и 8 бит. Есть на fp16. Так что для системы любой мощности можно вариант подобрать.

Здравствуйте, Nuzhny, Вы писали:

N>P.S. А Гугл обещает Gemini nano уже в Хроме, чтобы работал локально на клиенте.

Gemini это какой-то кал, абсолютно кривой работает

Здравствуйте, gyraboo, Вы писали:

G>Gemini это какой-то кал, абсолютно кривой работает

Возможно. У меня локальные модели на компе, как-то не очень нравится в облако свои данные отправлять

	От:	r0nd
	Дата:	14.05.24 22:40
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	15.05.24 03:28
Оценка:	6 (1)

От:	Артём	жж
Дата:	19.05.24 02:01
Оценка:

	От:	vsb
	Дата:	19.05.24 07:47
	Оценка:

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	19.05.24 09:02
Оценка:

	От:	gyraboo
	Дата:	20.05.24 08:09
	Оценка: