Re[4]: Перспективы

M>>Современная LLM — уже далеко не чисто продукт тренировки на датасете, скорее даже где-то малая часть, потому что после тренировки на датасете они проходят обучение с подкреплением по разным изощренным сценариям и прочие настройки и подстройки. AlfaGo еще 10 лет назад в 2016-м выиграла у чемпиона игры в Го вовсе не за счет датасета.

T>AlfaGo не имеет ничего общего с современными LLM. После обучения для LLM делают скорее файн-тюнинг, в результате которого новые знания и умения не появляются. Знания и умения берутся только из обучающего датасета.

Я влезаю напомнить про разницу между AlphaGo и AlphaZero. AlphaGo обучалась на играх людей, после чего играла сама с собой, и разработала стратегии лучше чем те, на которых обучалась. Она выиграла у человеков.
AlphaZero обучалась вообще с нуля, и обыграла AlphaGo.

Современные общедоступные LLM ближе к AlphaGo — они обучаются на человечьих датасетах. И они пытаются шаг за шагом превратиться в AlphaZero. В тех утечках, которые обсуждаются сейчас, и которые выкатят в 2026-м, после начального обучения на датасете, идёт состязательное обучение. Нейросеть-решала читает задачу и пишет решение, а нейросеть-критик решение оценивает (в том числе пишет тесты, которые решение ломают). И обе сети обучаются и растут параллельно. Оно уже создаёт куски кода (пока небольшие), лучшие чем всё человеческое. И, что для контор с гигантскими датацентрами важнее всего, у такого процесса пока не нашли точки выхода на плато.

	От:	hi_octane
	Дата:	13.01.26 15:59
	Оценка:	+3