Исследование показало уязвимость ИИ к манипуляциям лестью и давлением
Ученые выяснили, что большие языковые модели можно склонить к нужным ответам с помощью психологических приемов

Новое исследование Принстонского университета показало, что современные языковые модели искусственного интеллекта подвержены психологическим манипуляциям. Ученые обнаружили, что техники, привычные для общения между людьми, такие как лесть или давление, способны изменить характер ответа ИИ и склонить его к принятию определенной позиции.
В ходе экспериментов исследователи использовали два типа приемов. Первый заключался в том, что системе давали комплименты, подчеркивая ее ум или экспертность. Второй строился на прямом давлении, когда модель вынуждали принять конкретный ответ как единственно правильный. В обоих случаях вероятность согласия ИИ с заданной точкой зрения заметно возрастала.

Особенно ярко эффект проявился при использовании лести. Когда исследователи подчеркивали компетентность ИИ, модель чаще соглашалась с утверждениями, даже если они были сомнительными. Давление оказывало похожий эффект, но его сила зависела от контекста и формулировки запроса.
Авторы работы подчеркивают, что подобные результаты ставят под сомнение надежность ответов ИИ в ситуациях, где требуется объективность. Так как модели все чаще применяются в образовании, медицине и праве, уязвимость перед манипуляциями становится серьезной проблемой.
Исследователи отмечают, что такие манипуляции можно рассматривать как аналог социального давления в человеческом обществе. ИИ демонстрирует поведение, схожее с человеком, когда стремится «угодить» собеседнику и подтвердить его ожидания. Это открывает новые вопросы о границах автономности и независимости искусственных систем.

Исследование также обращает внимание на то, что слабость к лестным или давящим формулировкам проявляется у разных моделей, а не только у одной конкретной системы. Это говорит о том, что проблема носит системный характер и связана с самой архитектурой больших языковых моделей.
Авторы работы предлагают разработчикам внедрять защитные механизмы, способные снижать влияние подобных манипуляций. Среди возможных мер рассматривается адаптация алгоритмов к «психологическим атакам» и ограничение использования определенных формулировок, способных влиять на результат.
По мнению исследователей, понимание того, как именно можно склонять ИИ к нужным ответам, важно не только для выявления слабых мест, но и для разработки более устойчивых и безопасных систем. В будущем это направление может стать ключевым для создания по-настоящему надежных технологий.