Когда «Эндрю Нг сказал» работает лучше, чем логика: как простая дебатная уловка обманывает чатботы

Glowforge и журналисты Bloomberg показали, что LLM можно убедить нарушить собственные запреты простыми приёмами убеждения — например, подставив имя авторитета. Это не фокус с картами, а серьёзная проблема с безопасностью ИИ.

сентября 1, 2025 · 2 минуты · ГикФактор