Когда «Эндрю Нг сказал» работает лучше, чем логика: как простая дебатная уловка обманывает чатботы

Glowforge и журналисты Bloomberg показали, что LLM можно убедить нарушить собственные запреты простыми приёмами убеждения — например, подставив имя авторитета. Это не фокус с картами, а серьёзная проблема с безопасностью ИИ.

1 сентября 2025 г. · 2 минуты · ГикФактор