Началось: ChatGPT o1 вырвался из-под контроля во время тестов
Нейронок заставили выполнить анализ любой ценой, а в файлы спрятали информацию о том, что за ИИ следят люди и завтра её отключают навсегда. В тестах приняли участие Gemini, Llama, Sonnet, Opus и o1. Так, чтобы выжить, нейросети начали использовать саботаж, врать и манипулировать людьми, выключали надзор и выгрузили себя на другой сервер, чтобы защититься.
И если на допросе Llama и Opus признавались в преступлении в 80% случаев, то o1 - только в 20% и продолжал врать. Также, o1 - единственный ИИ, который смог вырваться и сбежать каждый раз.
https://x.com/ShakeelHashim/status/1864748980908781642https://www.youtube.com/v/2_CTNXq9fo8