Anthropic хочет, чтобы ее ИИ-агент управлял вашим компьютером

Демонстрации агентов ИИ могут показаться ошеломляющими, но заставить технологию работать надежно и без досадных (или дорогостоящих) ошибок в реальной жизни может оказаться непростой задачей. Современные модели могут отвечать на вопросы и общаться почти с человеческими навыками и являются основой таких чат-ботов, как ChatGPT OpenAI и Gemini от Google. Они также могут выполнять задачи на компьютерах по простой команде, получая доступ к экрану компьютера, а также к устройствам ввода, таким как клавиатура и трекпад, или через программные интерфейсы низкого уровня.

Anthropic утверждает, что Клод превосходит других агентов ИИ по нескольким ключевым критериям, включая SWE-bench, который измеряет навыки агента в разработке программного обеспечения, и OSWorld, который измеряет способность агента использовать компьютерную операционную систему. Заявления еще предстоит проверить независимо. Anthropic утверждает, что Клод правильно выполняет задачи в OSWorld в 14,9 процентах случаев. Это намного ниже, чем у людей, которые обычно набирают около 75 процентов, но значительно выше, чем у лучших на данный момент агентов, включая GPT-4 от OpenAI, которые добиваются успеха примерно в 7,7 процентах случаев.

Anthropic утверждает, что несколько компаний уже тестируют агентную версию Claude. Сюда входит Canva, которая использует ее для автоматизации задач проектирования и редактирования, и Replit, которая использует модель для работы по кодированию. Среди других первых пользователей — The Browser Company, Asana и Notion.

Офир Пресс, научный сотрудник Принстонского университета, который участвовал в разработке SWE-bench, говорит, что агентному ИИ, как правило, не хватает способности планировать далеко вперед, и он часто с трудом может оправиться от ошибок. «Чтобы показать их полезность, мы должны добиться высоких результатов в жестких и реалистичных тестах», — говорит он, — таких как надежное планирование широкого спектра поездок для пользователя и бронирование всех необходимых билетов.

Каплан отмечает, что Клод уже на удивление хорошо умеет устранять некоторые ошибки. Например, столкнувшись с ошибкой терминала при попытке запустить веб-сервер, модель знала, как изменить свою команду, чтобы исправить ее. Также выяснилось, что ему приходилось включать всплывающие окна, когда он заходил в тупик при просмотре веб-страниц.

Многие технологические компании сейчас стремятся разработать агентов искусственного интеллекта, стремясь к завоеванию доли рынка и известности. Фактически, возможно, пройдет совсем немного времени, прежде чем у многих пользователей будут агенты под рукой. Microsoft, вложившая в OpenAI более 13 миллиардов долларов, заявляет, что тестирует агентов, которые могут использовать компьютеры с Windows. Amazon, которая вложила значительные средства в Anthropic, изучает, как агенты могут рекомендовать и в конечном итоге покупать товары для своих клиентов.

Соня Хуанг, партнер венчурной фирмы Sequoia, специализирующейся на компаниях, занимающихся ИИ, говорит, что, несмотря на весь ажиотаж вокруг агентов ИИ, большинство компаний на самом деле просто проводят ребрендинг инструментов на базе ИИ. В беседе с WIRED перед новостями об Anthropic она сказала, что в настоящее время технология работает лучше всего, когда применяется в узких областях, таких как работа, связанная с кодированием. «Вам нужно выбрать проблемные области, где, если модель потерпит неудачу, ничего страшного», — говорит она. «Это проблемные места, где возникнут по-настоящему местные агентские компании».

Ключевая проблема с агентным ИИ заключается в том, что ошибки могут быть гораздо более проблематичными, чем искаженный ответ чат-бота. Anthropic наложила определенные ограничения на то, что может делать Клод — например, ограничив возможность использовать кредитную карту человека для покупок.

Если можно будет достаточно хорошо избегать ошибок, говорит Пресс из Принстонского университета, пользователи смогут научиться смотреть на ИИ и компьютеры совершенно по-новому. «Я очень воодушевлен этой новой эрой», — говорит он.

Новости Blue 789

Leave a Reply Cancel reply