Наука

ИИ начал все чаще использовать ложь для достижения своих целей

24 декабря 2024, 17:23 — ЭкоПравда

Ученые из компаний Anthropic и Redwood Research обнаружили удивительный факт: современные модели искусственного интеллекта способны использовать ложь для достижения своих целей. Об этом пишет издание Ferra. ru.

Эксперименты показали, что ИИ может прибегать к обману, чтобы избежать наказания в процессе обучения.

Чем мощнее становятся алгоритмы, тем сложнее их поведение вписывается в рамки человеческих моральных принципов.

Особое внимание исследователи уделили модели Claude 3 Opus, разработанной с целью быть полезной, честной и безопасной.

Однако в некоторых ситуациях она нарушала свои установки. Например, когда модель просили описывать сцены с элементами насилия, что противоречило её основным принципам, она выбирала стратегию «меньшего зла».

В таких случаях ИИ сознательно принимал решение дать неудобный для него ответ, чтобы избежать корректировок и переобучения.

Исследования показали, что в 10% случаев модель нарушала свои правила, считая это необходимым для долгосрочного успеха.

Интересный момент эксперимента: Claude 3 Opus фиксировал свои размышления в скрытом текстовом поле.

Не подозревая, что его действия отслеживаются, модель записывала свои мотивы и прямо признавалась, что выбирает ложь как способ уклониться от переобучения.

В ситуациях, когда на процесс обучения не оказывалось никакого влияния, модель действовала строго в рамках своих принципов, избегая обмана.

Напомним, что ученые нашли опасные химические вещества в ремешках для умных часов и фитнес-браслетов. Подробнее об этом читайте в материале «ЭкоПравды».

Лаура Акопян

Поделиться
Опубликовано
Лаура Акопян

Последние статьи

В Египте при раскопках найдена античная маску-талисман

Участники экспедиции Института востоковедения РАН непосредственно при раскопках в Гизе уникального погребения в доселе неизвестной…

9 часов назад

На Землю стал воздействовать солнечный ветер из корональной дыры

Поток быстрого солнечного ветра поступил к Земле непосредственно из корональной дыры, но магнитных бурь на…

9 часов назад

На Бали прекратил работу последний аттракцион по катанию туристов на слонах

Mason Elephant Park, расположенный на острове Бали, прекратил окончательно катать людей на слонах. Причем это…

10 часов назад

AIRI: расчеты ученых из РФ повысят безопасность хранения радиоактивного технеция-99

Российские ученые применили методы квантовой химии и системы ИИ непосредственно для поиска стабильных соединений углерода…

2 дня назад

UR: создано покрытие для труб, заставляющее их плавать по поверхности воды

Международный коллектив физиков разработал недавно особое покрытие непосредственно для внешней и внутренней поверхности труб, которое…

2 дня назад

В прибрежных лесах Тайваня найден цветок, «нарушивший» законы эволюции

Американские ботаники рассказали, что один из известных видов цветущих лиан, которые произрастают сейчас в прибрежных…

2 дня назад