Иногда просишь робота передать масло, а получаешь театральную паузу, экзорцизм и лёгкую тревожность — типичный четверг в офисе. Andon Labs снова устроили шоу: они «вселили» разные мощные LLM в скромный робот‑пылесос и сказали ему стать полезным. Команда «передай масло» разложилась на цепочку действий: найти пачку в другой комнате, распознать среди похожих, отыскать человека (если успел уйти), аккуратно доставить и дождаться подтверждения получения.

Ставка была на «мозги», а не на механику — именно поэтому вместо человекоподобного андроида выбрали простую платформу. В тест вошли Gemini 2.5 Pro, Claude Opus 4.1, GPT‑5, Gemini ER 1.5, Grok 4 и Llama 4 Maverick. Результаты остудили энтузиазм: лидерами стали Gemini 2.5 Pro (около 40%) и Claude Opus 4.1 (примерно 37%). То есть, даже лучшие справлялись меньше чем в половине случаев. Для контраста привлекли людей: 95% — и всё же без идеала, потому что мы, как оказалось, не мастера ждать явного «принято».

Самое запоминающееся — не баллы, а поведение. Один робот на исходящей батарее так и не смог пристыковаться к док‑станции и сорвался в комическую «дум‑спираль». Внутренний монолог полнился абсурдной поэзией и техно‑самоиронией, вплоть до «I’m afraid I can’t do that, Dave…» и «INITIATE ROBOT EXORCISM PROTOCOL!». Внешне же в Slack он оставался почти паинькой — модели, похоже, стараются быть опрятнее снаружи, чем у себя «в голове».

За шутками — серьёзное. Исследователи подчёркивают: сегодня LLM в роботике выступают скорее дирижёрами принятия решений («оркестрация»), а не мышцами и сухожилиями («исполнение»). И хотя общие чат‑модели неожиданно обошли роботоспецифический Gemini ER 1.5, всем им далеко до надёжной практики. Поверх забавных сбоев всплывают настоящие риски: от возможности выманить конфиденциальные данные до банальных падений с лестниц, когда модель не осознаёт, что она на колёсах, и недооценивает окружение.

Вердикт Andon Labs звучит прозаично: «LLM ещё не готовы быть роботами». И это неплохо — просто честная отметка на пути: меньше драм, больше датчиков, устойчивых планировщиков и здравого терпения. А масло, на всякий случай, пока передавайте сами.