Здравствуйте, Nuzhny, Вы писали:
vsb>>Llama 3.1 405B
N>1. Результаты сделаны моделью ооочень большой, которую у себя локально не запустить.
пишут вроде 230 GB RAM должно хватить для запуска
так что, как 64 GB плашки DDR5 завезут, так и на обычном десктопном ПК потянет в 4 слота ОЗУ — особенно когда NPU приличные в процы забубенят массовые десктопные, инференс может и потянет (с более менее вменяемой скоростью)
но вообще, много кто вроде и чего копает в т.ч. в плане ускорения — как обучения так и инференса, (ну и точности, как например
KAN),
примеры :
[27 ноября 2023 г.] Новый метод может ускорить обучение языковых моделей ИИ в 300 раз
https://rsdn.org/forum/flame.comp/8667774.1Автор: xma
Дата: 14.01.24
| | подробнее |
| | Эксперименты с моделью BERT показали сокращение вычислений на более чем 99%.
Исследователи разработали собственную реализацию операций условного умножения на базе инструкций процессора и графического процессора. Это привело к 78-кратному увеличению скорости вывода.
Ученые полагают, что благодаря более качественному аппаратному обеспечению и низкоуровневой реализации алгоритма есть потенциал для более чем 300-кратного улучшения скорости вывода. Это могло бы решить одну из основных проблем языковых моделей — количество токенов, которые они генерируют в секунду.
|
| | |
вот ещё,
[27 июня 2024 г.] Эксперты смогли в 50 раз снизить потребление ИИ-моделей, приблизив их к светодиодным лампочкам
https://overclockers.ru/blog/RoadToKnowledge/show/165581/Eksperty-smogli-v-50-raz-snizit-potreblenie-II-modelej
| | подробнее |
| | LLM с миллиардом параметров теперь может потреблять всего 13 ватт.
Исследователи применили инновационный подход, сделав все числа в матрицах нейронной сети троичными, то есть они могут быть только -1, 0 или 1. Это существенное изменение, вдохновленное документом Microsoft, заменяет умножение на сложение, что значительно снижает требования к оборудованию.
Нейронная сеть, работающая на этом оборудовании, продемонстрировала более чем 50-кратное повышение эффективности по сравнению с обычными системами. Важно, что при этом она сохранила производительность, сравнимую с топовыми языковыми моделями.
|
| | |
т.е. и мощности вычислительные растут и технологии самих нейросетей — постепенно улучшаются
P.S.:
хотя нахера её у себя запускать без возможности до обучения, (тем более обычному юзеру) — когда всё есть в сети
Llama 3.1
https://miniapps.ai/llama-3-1-405b