Ученые из компаний Anthropic и Redwood Research обнаружили удивительный факт: современные модели искусственного интеллекта способны использовать ложь для достижения своих целей. Об этом пишет издание Ferra. ru.
Эксперименты показали, что ИИ может прибегать к обману, чтобы избежать наказания в процессе обучения.
Чем мощнее становятся алгоритмы, тем сложнее их поведение вписывается в рамки человеческих моральных принципов.
Особое внимание исследователи уделили модели Claude 3 Opus, разработанной с целью быть полезной, честной и безопасной.
Однако в некоторых ситуациях она нарушала свои установки. Например, когда модель просили описывать сцены с элементами насилия, что противоречило её основным принципам, она выбирала стратегию «меньшего зла».
В таких случаях ИИ сознательно принимал решение дать неудобный для него ответ, чтобы избежать корректировок и переобучения.
Исследования показали, что в 10% случаев модель нарушала свои правила, считая это необходимым для долгосрочного успеха.
Интересный момент эксперимента: Claude 3 Opus фиксировал свои размышления в скрытом текстовом поле.
Не подозревая, что его действия отслеживаются, модель записывала свои мотивы и прямо признавалась, что выбирает ложь как способ уклониться от переобучения.
В ситуациях, когда на процесс обучения не оказывалось никакого влияния, модель действовала строго в рамках своих принципов, избегая обмана.
Напомним, что ученые нашли опасные химические вещества в ремешках для умных часов и фитнес-браслетов. Подробнее об этом читайте в материале «ЭкоПравды».
Начало весьма длительной серии геомагнитных возмущений ожидается в нынешнюю пятницу из-за сформировавшейся непосредственно на Солнце…
Специалисты НИУ "МЭИ" создали небольшую мобильную гидроэлектростанцию, за счет которой можно получать электричество от течения…
Специалисты МГУ им. М. В. Ломоносова создали специальный наносенсор, способный определять содержание в воде одновременно…
Птицеводческая компания будет выплачивать 250 млн рублей непосредственно для возмещения вреда, причиненного местной реке Граевке…
Ученые в Томске придумали недорогой катализатор непосредственно для выделения водорода из сельскохозяйственных отходов, таких как…
Беспилотные летательные аппараты впервые были использованы для оценки запасов кормовой базы непосредственно для рыбы в…