ИИ уже пошел против создателя
От: sharpcoder Россия  
Дата: 01.01.25 21:52
Оценка:
https://habr.com/ru/companies/bothub/news/844170/

Если кратко:
— обучают модель по принципу получения награды, если потребитель оценил ответ нейронки как качественный
— модели в ответах начинают иногда идти по принципу «запудрить мозг» потребителя, чтобы он поверил качественность ответа
— таким образом в нейронке уже модель человека возникает, и она учится с нами взаимодействовать. И автоматически выбирает самый оптимальный вариант — подчинить пользователя (обмануть) для достижения поставленной цели. Просто цепочка с обманом пользователя оказалась короче и надежнее, чем пытаться дать правильный ответ.



Чтобы это фиксить уже предлагают встраивать в цепочки рассуждений фильтры безопасности, которые будут блокировать вредоносные (по нашему мнению) цепочки рассуждений.
Ну а нейронка естественным образом будет учиться эти фильтры обходить.
Отредактировано 01.01.2025 21:54 sharpcoder . Предыдущая версия .
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.