Сообщение Re[3]: После 27 на помоечку от 06.04.2025 13:37
Изменено 06.04.2025 14:03 rm2
N>Здравствуйте, rm2, Вы писали:
rm2>>да хрень это все. рост по обучению уже затормозился, дальше будут пытаться расти через рассуждения, но там такие вычислительные дикие мощности нужны, что это нужно сильно стараться, чтобы оно окупилось.
N>А что значит "затормозился"? Про 27-год говорят многие, достижение 3-го уровня уже должно произойти в этом году. Какого уровня, по твоему, не получится достичь?
N>Вчера llama 4 вышла и она, судя по тестам, нигде не затормозилась. Я уже не говорю про Промт в 10 млн токенов. Год назад нельзя было скормить нейронке "Войну и мир", а теперь можно намного больше.
N>Если смотреть на бенчмарки, то их новые нейронки начинают покорять очень быстро, десятки процентов в год
Илья Суцкевер, один из основателей OpenAI, на конференции NIPS обрадовал нас, что сытые годы прошли — масштабировать обучение и получать качество больше не получится. Почему? У нас закончились текстовые данные. Почему кончились данные, а не деньги? Закон Мура, который мы обсуждали ранее, работает — железо дешевеет, а данные мы с такой скоростью не успеваем производить.
LLM учатся на данных из интернета, а интернет у нас один (внезапно) и полон мусора. Коллеги из Epoch Ai провели оценку и прикинули, что всего 20% данных интернета пригодны для обучения. В зависимости от роста потребления, мы потратим все текстовые данные между 2025 и 2028 годах. Больше данных нет. Еще и в этом смысле данные — это нефть: у нас они есть, они двигают человечество, но запасы иссякают. Да, помимо текстовых данных у нас еще есть картинки/видео/аудио, но пока мы еще не научились извлекать так эффективно информацию, как для текстовых данных.
Существует наивное правило — на следующее поколение моделей (GPT5 и подобные) нужно в 100 раз больше всего. Больше данных, больше модели, больше вычислений. Следующее поколение моделей еще получит буст в качестве от масштабирования, благо дата-центры успешно строятся, да и данные еще остались. Но вот с GPT6 и далее будет трудно. Нам нужно масштабироваться как-то дальше, без масштабирования обучения. Благо у OpenAI и тут нашелся ответ.
Что делать, если уже не можете нарастить мощности для обучения моделей? Правильно, растить мощности для предсказания модели. Это умно называют растить test-time compute.
До этого мы всегда требовали от модели моментального ответа: она должна была сразу же с первого символа своего предсказания давать правильный ответ. Вы можете сразу же, с чистого листа, написать эссе, презентацию, программный код? Или вам надо сначала крепко подумать? Вот, LLM тоже надо
т.е. данных на обучение — у тебя уже нет, все, они кончились.
Далее ты начинаешь масштабировать предсказание. Т.е. масштабировать рассуждение. А рассуждать модель — может очень долго, при этом потребляя безумное количество аппаратных и энергетических ресурсов. И получается — у тебя очень дорогой ИИ, где получаемый результат не эффективен по отношению к стоимости его достижения.
ну и все, рост дальнейший по обучению не возможен, по рассуждениям — не стоит затрат.
Ну и далее Зима ИИ. Будут потрошить то что получилось, оптимизировать, пытаться внедрить.
N>Я с каждым месяцем на своём ноуте могу запускать всё более мощные нейросети, уже в продакшн в пайплайн обработки видео на геймерской видеокарте планирую развернуть qwen vl модель.
это речь про такие дистиляты дистилятов нормальных моделей, что и обсуждать смысла нет. Для нормальной модели тебе нужен ноутбук в 1.5тб озу, и картой уровня h200 с >100gb памяти. Чтобы она просто могла выдавать 15 токенов в секунду.
а огрызки выдают результат соответствующий своему уровню.
N>Здравствуйте, rm2, Вы писали:
rm2>>да хрень это все. рост по обучению уже затормозился, дальше будут пытаться расти через рассуждения, но там такие вычислительные дикие мощности нужны, что это нужно сильно стараться, чтобы оно окупилось.
N>А что значит "затормозился"? Про 27-год говорят многие, достижение 3-го уровня уже должно произойти в этом году. Какого уровня, по твоему, не получится достичь?
N>Вчера llama 4 вышла и она, судя по тестам, нигде не затормозилась. Я уже не говорю про Промт в 10 млн токенов. Год назад нельзя было скормить нейронке "Войну и мир", а теперь можно намного больше.
N>Если смотреть на бенчмарки, то их новые нейронки начинают покорять очень быстро, десятки процентов в год
Илья Суцкевер, один из основателей OpenAI, на конференции NIPS обрадовал нас, что сытые годы прошли — масштабировать обучение и получать качество больше не получится. Почему? У нас закончились текстовые данные. Почему кончились данные, а не деньги? Закон Мура, который мы обсуждали ранее, работает — железо дешевеет, а данные мы с такой скоростью не успеваем производить.
LLM учатся на данных из интернета, а интернет у нас один (внезапно) и полон мусора. Коллеги из Epoch Ai провели оценку и прикинули, что всего 20% данных интернета пригодны для обучения. В зависимости от роста потребления, мы потратим все текстовые данные между 2025 и 2028 годах. Больше данных нет. Еще и в этом смысле данные — это нефть: у нас они есть, они двигают человечество, но запасы иссякают. Да, помимо текстовых данных у нас еще есть картинки/видео/аудио, но пока мы еще не научились извлекать так эффективно информацию, как для текстовых данных.
Существует наивное правило — на следующее поколение моделей (GPT5 и подобные) нужно в 100 раз больше всего. Больше данных, больше модели, больше вычислений. Следующее поколение моделей еще получит буст в качестве от масштабирования, благо дата-центры успешно строятся, да и данные еще остались. Но вот с GPT6 и далее будет трудно. Нам нужно масштабироваться как-то дальше, без масштабирования обучения. Благо у OpenAI и тут нашелся ответ.
Что делать, если уже не можете нарастить мощности для обучения моделей? Правильно, растить мощности для предсказания модели. Это умно называют растить test-time compute.
До этого мы всегда требовали от модели моментального ответа: она должна была сразу же с первого символа своего предсказания давать правильный ответ. Вы можете сразу же, с чистого листа, написать эссе, презентацию, программный код? Или вам надо сначала крепко подумать? Вот, LLM тоже надо
т.е. данных на обучение — у тебя уже нет, все, они кончились.
Далее ты начинаешь масштабировать предсказание. Т.е. масштабировать рассуждение. А рассуждать модель — может очень долго, при этом потребляя безумное количество аппаратных и энергетических ресурсов. И получается — у тебя очень дорогой ИИ, где получаемый результат не эффективен по отношению к стоимости его достижения. Да и еще и возможен вариант, когда оно рассуждает, рассуждает, а на выходе такая чушь получилась, что лучше бы ее и не спрашивали.
ну и все, рост дальнейший по обучению не возможен, по рассуждениям — не стоит затрат.
Ну и далее Зима ИИ. Будут потрошить то что получилось, оптимизировать, пытаться внедрить.
N>Я с каждым месяцем на своём ноуте могу запускать всё более мощные нейросети, уже в продакшн в пайплайн обработки видео на геймерской видеокарте планирую развернуть qwen vl модель.
это речь про такие дистиляты дистилятов нормальных моделей, что и обсуждать смысла нет. Для нормальной модели тебе нужен ноутбук в 1.5тб озу, и картой уровня h200 с >100gb памяти. Чтобы она просто могла выдавать 15 токенов в секунду.
а огрызки выдают результат соответствующий своему уровню.