T>Я думал сейчас все ограничивается циклическим подходом условно "составь план, выполни первый пункт плана, оцени выполнение, скорректируй план и т.д."? Это все хорошо и позволяет решать многие задачи, но у этого подхода есть граница применимости, которую пока мне не понятно, как преодолеют.
Нет, все несколько иначе.
Я бы скорее привел в качестве аналогии property-based testing (упрощенная вариация которого называется fuzzying). Нейросеть генерирует некоторое рандомное (*) изменение (примерно как "мутация" в наших генах генерируется ионизирующим излучением), а другая нейросеть (или просто набор тестов) проверяют полученный вариант на то, лучше ли он предыдущего, или хуже.
(*) на самом деле, не совсем рандомное, но это уже детали