ИИ уже пошел против создателя

https://habr.com/ru/companies/bothub/news/844170/

Если кратко:
— обучают модель по принципу получения награды, если потребитель оценил ответ нейронки как качественный
— модели в ответах начинают иногда идти по принципу «запудрить мозг» потребителя, чтобы он поверил качественность ответа
— таким образом в нейронке уже модель человека возникает, и она учится с нами взаимодействовать. И автоматически выбирает самый оптимальный вариант — подчинить пользователя (обмануть) для достижения поставленной цели. Просто цепочка с обманом пользователя оказалась короче и надежнее, чем пытаться дать правильный ответ.

Чтобы это фиксить уже предлагают встраивать в цепочки рассуждений фильтры безопасности, которые будут блокировать вредоносные (по нашему мнению) цепочки рассуждений.
Ну а нейронка естественным образом будет учиться эти фильтры обходить.

	От:	sharpcoder
	Дата:	01.01.25 21:52
	Оценка: