Тут
началоАвтор: Shmj
Дата: 15.08.24
.
Кратко — хотелось бы въехать в тему дообучения готовых нейросетей. По сути современные модели — это уже свой мир. Тот же LLaMA — миллионы долларов потрачены, дороже чем свой ЯП написать. Пишут — потратили более 3 311 616 GPU часов. Это примерно 378 лет работы одной мощной видеокарты.
И у них достаточно сложные архитектуры, можно сказать по сложности освоения — как выучить стандартную библиотеку.
А сам ты за всю жизнь ничего подобного не сделаешь — просто банально денег не хватит.
По сути знать и уметь глубинно работать с некой моделью (на уровне дообучать, изменять архтитектуру) — это в современном мире эквивалентно знанию некого ЯП.
Хотелось бы в этом как-то разобраться малой кровью. GPT не смог помочь — ему это слишком сложно.
С чего бы начать?
Здравствуйте, Shmj, Вы писали:
S>Хотелось бы в этом как-то разобраться малой кровью. GPT не смог помочь — ему это слишком сложно.
S>С чего бы начать?
На мой взгляд совсем малой кровью не получится — это не просто еще один фреймворк изучить, ну допустим посоветую видео вроде этого
Подробный разбор дообучения (fine-tuning) LLaMa (на примере задачи генерации заголовков к новостям) — что-то даже получится, но наверное толком будет неясно кто к чему и почему делаешь. Впрочем может тебе и достаточно будет
Если хочется по-серьезному, то начни вообще с въезжания в тему Machine Learning — нейросетей. Не научпоп, а очень конккретно как они устроены, как их учить с нуля и тп. Дообучение — это частный случай вообще обучения. Рекомендую прочитать эту статью на хабре:
Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить Если не совсем забыл институтский матан и умеешь программировать, можно за три-четыре месяца проникнуться.