Одна модель ИИ для управления всеми роботами

Одна модель ИИ для управления всеми роботами



Одна модель ИИ для управления всеми роботами

Программное обеспечение, используемое для управления роботом, обычно в высокой степени адаптировано к его конкретной физической установке. Но теперь исследователи создали единую политику управления роботом общего назначения, которая может управлять роботизированными руками, колесными роботами, четвероногими и даже дронами.

Одной из самых больших проблем при применении машинного обучения в робототехнике является скудность данных. В то время как компьютерное зрение и обработка естественного языка могут использовать огромные объемы изображений и текстовых данных, найденных в Интернете, сбор данных о роботах является дорогостоящим и трудоемким.

Чтобы обойти это, прилагаются все большие усилия по объединению данных, собранных разными группами по разным типам роботов, включая наборы данных Open X-Embodiment и DROID. Есть надежда, что обучение на разнообразных данных робототехники приведет к «положительному переносу», который означает, что навыки, полученные в ходе обучения по одной задаче, помогают повысить производительность по другой.

Проблема в том, что роботы часто имеют очень разные воплощения — термин, используемый для описания их физической компоновки и набора датчиков и приводов, — поэтому данные, которые они собирают, могут значительно различаться. Например, роботизированная рука может быть статичной, иметь сложную компоновку суставов и пальцев и собирать видео с камеры на запястье. Напротив, четвероногий робот постоянно находится в движении и полагается на силовую обратную связь от своих ног для маневра. Виды задач и действий, которым обучаются эти машины, также разнообразны: рука может поднимать и размещать предметы, в то время как четвероногому нужна тонкая навигация.

Это делает обучение одной модели ИИ на этих больших наборах данных сложным, говорит Гомер Уолк, аспирант Калифорнийского университета в Беркли. До сих пор большинство попыток либо были сосредоточены на данных от более узкого набора похожих роботов, либо исследователи вручную настраивали данные, чтобы сделать наблюдения от разных роботов более похожими. Но в исследовании, которое будет представлено на конференции по обучению роботов (CoRL) в Мюнхене в ноябре, они представили новую модель под названием CrossFormer, которая может обучаться на данных от разнообразного набора роботов и управлять ими так же хорошо, как и специализированные политики управления.

«Мы хотим иметь возможность обучаться на всех этих данных, чтобы получить наиболее способного робота», — говорит Уолк. «Главное достижение в этой статье — выяснить, какая архитектура лучше всего подходит для размещения всех этих различных входов и выходов».

Как управлять разными роботами с помощью одной и той же модели ИИ

Команда использовала ту же архитектуру модели, которая поддерживает большую языковую модель, известную как трансформатор. Во многих отношениях задача, которую пытались решить исследователи, не отличается от той, с которой сталкивается чат-бот, говорит Уолк. В языковом моделировании ИИ должен выбирать похожие шаблоны в предложениях с разной длиной и порядком слов. Данные робота также могут быть организованы в последовательности, очень похожей на письменное предложение, но в зависимости от конкретного воплощения наблюдения и действия также различаются по длине и порядку.

«Слова могут появляться в разных местах предложения, но они по-прежнему означают одно и то же», — говорит Уолк. «В нашей задаче изображение наблюдения может появляться в разных местах последовательности, но по сути это все еще изображение, и мы по-прежнему хотим обращаться с ним как с изображением».

Калифорнийский университет в Беркли/Университет Карнеги-Меллона

Большинство подходов к машинному обучению работают с последовательностью по одному элементу за раз, но трансформаторы могут обрабатывать весь поток данных сразу. Это позволяет им анализировать взаимосвязь между различными элементами и делает их более эффективными в обработке последовательностей, которые не стандартизированы, подобно разнообразным данным, обнаруженным в больших наборах данных робототехники.

Уок и его коллеги не первые, кто обучает трансформеров на крупномасштабных данных робототехники. Но предыдущие подходы либо обучались исключительно на данных от роботизированных рук с в целом схожими воплощениями, либо вручную преобразовывали входные данные в общий формат для упрощения обработки. Напротив, CrossFormer может обрабатывать изображения с камер, расположенных над роботом, на высоте головы или на запястье роботизированной руки, а также данные о положении суставов как от четвероногих, так и от роботизированных рук, без каких-либо настроек.

Результатом является единая политика управления, которая может управлять отдельными роботизированными руками, парами роботизированных рук, четвероногими и колесными роботами для таких разнообразных задач, как сбор и размещение объектов, нарезка суши и обход препятствий. Что особенно важно, она соответствовала производительности специализированных моделей, разработанных для каждого робота, и превзошла предыдущие подходы, обученные на разнообразных роботизированных данных. Команда даже проверила, может ли модель управлять воплощением, не включенным в набор данных — небольшим квадрокоптером. Хотя они упростили ситуацию, заставив дрон летать на фиксированной высоте, CrossFormer все равно превзошел предыдущий лучший метод.

«Это было определенно очень круто», — говорит Риа Доши, студентка бакалавриата в Беркли. «Я думаю, что по мере того, как мы масштабируем нашу политику, чтобы иметь возможность обучаться на еще больших наборах разнообразных данных, станет легче увидеть, как этот вид нулевого выстрела переносится на роботов, которые были совершенно не видны в обучении».

Ограничения единой модели ИИ для всех роботов

Однако команда признает, что еще есть над чем работать. Модель слишком велика для любого из встроенных чипов роботов и вместо этого должна запускаться с сервера. Даже в этом случае время обработки едва достаточно быстрое для поддержки работы в реальном времени, и Уолк признает, что это может сломаться, если они увеличат масштаб модели. «Когда вы помещаете так много данных в модель, она должна быть очень большой, и это означает, что запуск ее для управления в реальном времени становится сложным».

Потенциальным обходным путем может стать использование подхода, называемого дистилляцией, говорит Ойер Мис, постдокторант в Беркли и часть команды CrossFormer. По сути, это включает в себя обучение меньшей модели для имитации большей модели, и в случае успеха может привести к аналогичной производительности при гораздо меньшем вычислительном бюджете.

Но важнее, чем проблема вычислительных ресурсов, то, что команда не увидела никакого положительного переноса в своих экспериментах, поскольку CrossFormer просто соответствовал предыдущей производительности, а не превосходил ее. Уолк считает, что прогресс в области компьютерного зрения и обработки естественного языка предполагает, что обучение на большем количестве данных может быть ключом.

Другие говорят, что это может быть не так просто. Жанетт Бог, профессор робототехники в Стэнфордском университете, говорит, что возможность обучения на таком разнообразном наборе данных является значительным вкладом. Но она задается вопросом, не является ли частью причины, по которой исследователи не увидели положительного переноса, их настойчивость в том, чтобы не согласовывать входные данные. Предыдущие исследования, в которых обучались роботы с похожими данными наблюдений и действий, показали доказательства таких кроссоверов. «Избавившись от этого выравнивания, они, возможно, также избавились от этого значительного положительного переноса, который мы видели в других работах», — говорит Бог.

Также неясно, повысит ли этот подход производительность задач, специфичных для конкретных воплощений или роботизированных приложений, говорит Рам Рамамурти, профессор робототехники в Эдинбургском университете. Работа является многообещающим шагом на пути к тому, чтобы помочь роботам уловить концепции, общие для большинства роботов, например, «избежать этого препятствия», говорит он. Но она может быть менее полезной для решения проблем управления, специфичных для конкретного робота, например, как замесить тесто или ориентироваться в лесу, которые часто сложнее всего решить.

Из статей вашего сайта

Похожие статьи в Интернете



Новости Blue 789

Leave a Reply

Your email address will not be published. Required fields are marked *