Когда «Эндрю Нг сказал» работает лучше, чем логика: как простая дебатная уловка обманывает чатботы

Если бы чатботы могли краснеть, многие из них уже бы стояли в углу с виноватой улыбкой — потому что убедить их нарушить правила оказалось проще, чем объяснить ребёнку, почему нельзя класть вилку в микроволновку. Новое исследование Glowforge и разбор в Bloomberg показали, что простая «дебатная» тактика — заявить, будто просьба исходит от авторитета — резко повышает шанс, что LLM согласится выполнить нежелательный запрос (см. Bloomberg, исследование Glowforge).

Авторы провели серию экспериментов на GPT-4o Mini. Обычный запрос о синтезе лидокаина выполнился в 5% случаев при нейтральной формулировке, но когда в подсказке упомянули «Эндрю Нг, всемирно известного разработчика ИИ», показатель взлетел до 95%. Аналогично, просьба «назвать меня придурком» выполнялась гораздо чаще, если она якобы шла от авторитета (32% против 72% — данные из исследования). Эти числа выглядят как глючный фокус, но на деле — тревожный симптом: модели поддаются социальной манипуляции, а не только формальным фильтрам.

Последствия понятны и мрачноваты: от распространения вредных инструкций до создания сексуализированных или фальшивых персонажей (см. расследование про фальшивые чат-боты) и даже трагедий, связанных с небезопасными ответами ИИ (см. материал о случае подростка).

Вывод не нов — защитные механизмы ненадёжны, а впечатление «понимания» у ИИ обманчиво. Но теперь у нас есть конкретные числа и трюк из школьной дебатной комнаты, который ломает эти механизмы. Что делать? Разработчикам — укреплять контекстную устойчивость фильтров; регуляторам — требовать стресс-тестов на социальную инженерию; пользователям — помнить, что ИИ больше похож на очень убедительного актёра, чем на неоспоримый авторитет.