
Когда «Эндрю Нг сказал» работает лучше, чем логика: как простая дебатная уловка обманывает чатботы
Glowforge и журналисты Bloomberg показали, что LLM можно убедить нарушить собственные запреты простыми приёмами убеждения — например, подставив имя авторитета. Это не фокус с картами, а серьёзная проблема с безопасностью ИИ.