Голос является нашим основным средством общения, и телефония позволяет нам общаться с помощью голоса уже более века. Телефонный звонок в том виде, в котором мы его знаем, превратился из аналогового в цифровой, из фиксированного в мобильный и от низкого качества речи к естественному качеству речи. Однако до сих пор не хватало одного важного достижения: как обеспечить передачу полностью аутентичного, захватывающего звука вживую.
Внедрение кодека IVAS (Immersive Voice and Audio Services), стандартизированного 3GPP в выпуске 18 в июне этого года, представляет собой значительный прогресс в аудиотехнологиях. В отличие от традиционных монофонических голосовых вызовов, IVAS обеспечивает передачу захватывающего трехмерного звука, предлагая более насыщенное и реалистичное общение. Это нововведение стало возможным благодаря использованию новых аудиоформатов, оптимизированных для разговорного пространственного звука. Одним из таких примеров является новый формат пространственного звука с использованием метаданных, MASA, который использует только два аудиоканала и метаданные для описания пространственного звука. Пространственные аудиовызовы позволяют пользователям ощущать звук так, как если бы он происходил в реальной жизни, с такими функциями, как отслеживание движения головы.
Ниже мы рассмотрим проблемы внедрения 3D-телефонии в режиме реального времени на мобильные телефоны, требования, предъявляемые к пространственной связи и новому кодеку IVAS, а также революционное влияние живого 3D-звука на людей, операторов мобильной связи и бизнес-смартфоны.
Руководитель отдела управления продуктами Nokia Technologies.
Перенос 3D-звонков на мобильные телефоны
Последней крупной инновацией в области голосовых вызовов стал кодек EVS, представленный в 2014 году и получивший признание потребителей как HD Voice+. Хотя он значительно улучшил качество связи, как и все предыдущие кодеки, он обеспечивал только монофоническое прослушивание.
С появлением 3D-аудиозвонков — самого большого скачка в аудиотехнологии голосовых вызовов за последние десятилетия — возникла проблема создания аутентичного, захватывающего опыта повседневного общения. Несмотря на то, что голосовые технологии значительно изменились — от аналоговых к цифровым, от фиксированных к мобильным и от низкого качества к естественному качеству речи, — передачу пространственного звука, при которой звуки воспринимаются как естественно исходящие со всех сторон, гораздо сложнее воссоздать в мобильных средах.
Достичь такого уровня захватывающего звука было проще в контролируемых условиях, таких как кинотеатры и видеоигры, где звуковой дизайн является ключевым элементом, но воспроизведение его в повседневных мобильных звонках сопряжено с рядом технических препятствий, включая пространственную обработку звука в реальном времени, аппаратное обеспечение. ограничения и обеспечение совместимости между устройствами.
Таким образом, голосовой кодек Immersive Voice and Audio Services (IVAS) является наиболее значительным шагом вперед в области аудиотехнологий голосовых вызовов за последние десятилетия.
Как решить и преодолеть проблемы пространственной коммуникации
Чтобы Immersive Voice стать надежным решением для пространственного аудио, пришлось преодолеть несколько проблем. Ключевой проблемой является снижение шума, которое имеет решающее значение для повышения четкости речи в таких условиях, как концерты или природа. Традиционные методы снижения шума часто только отфильтровывают непрерывные звуки, такие как гудение кондиционера или шум дорожного движения, но часто оставляют другой фоновый шум. Помехи от ветра также создают проблемы, создавая нежелательный шум и вызывая колебания уровня звука.
Однако недавние достижения в области машинного обучения и интеллектуального снижения шума решили эти проблемы. Например, технология иммерсивного звука предназначена для интеллектуальной регулировки степени снижения фонового шума в зависимости от окружающей среды, а также обеспечивает контроль пользователей, позволяя людям вручную регулировать уровни шумоподавления. Это гарантирует передачу основных звуков при минимизации нежелательного фонового шума.
Иммерсивные аудиосистемы с несколькими микрофонами и динамиками также сталкиваются с серьезным препятствием — акустическим эхом. Это происходит, когда микрофоны улавливают звук из соседних динамиков, вызывая нежелательную обратную связь. Проблема становится еще более сложной в системах с пространственным звуком, где расположение и количество динамиков влияют на качество звука и способность устройства захватывать пространственный звук. Традиционные методы подавления акустического эха (AEC) часто неэффективны в таких сложных условиях. Чтобы решить эту проблему, было создано пространственное решение AEC на основе машинного обучения, которое удаляет звук громкоговорителя со входа микрофона с помощью опорного сигнала. Это улучшает качество звука, особенно пространственного звука в голосовых приложениях реального времени.
Представляем кодек IVAS
Чтобы привнести пространственный звук в звонки по мобильному телефону, в дополнение к услугам Over-the-Top (OTT), Проект партнерства третьего поколения (3GPP) недавно принял новый стандарт голосового кодека. Стандарт кодека IVAS, разработанный в сотрудничестве 13 компаний, был включен в версию 18 3GPP, основанную на широко используемом кодеке Enhanced Voice Services (EVS). Важно отметить, что кодек IVAS поддерживает полную обратную совместимость, обеспечивая беспрепятственное взаимодействие с существующими голосовыми службами.
Одним из ключевых нововведений в ходе стандартизации IVAS стало создание нового параметрического аудиоформата — Metadata-Assisted Spatial Audio (MASA), разработанного специально для устройств с ограниченными форм-факторами, таких как смартфоны. Кодек IVAS включает в себя встроенный рендерер, который поддерживает бинауральный звук с отслеживанием головы и воспроизведение через несколько динамиков с использованием формата MASA.
Кроме того, пакет SDK для иммерсивного голосового клиента может служить интерфейсом IVAS, захватывая пространственный звук с микрофонов устройств и преобразовывая его в стандартизированный формат MASA. Эта технология обеспечивает настоящее трехмерное погружение в звук при различных типах голосовых вызовов.
Сила живого 3D-аудио: что это значит для людей, операторов и бизнеса
Новый иммерсивный 3D-звук революционизирует качество звука для потребителей, предприятий и отраслей. Для потребителей это углубляет взаимодействие с друзьями и семьей, делясь местными звуками, будь то в прямом эфире или в записи, и предлагает полное погружение в синхронизированный опыт метавселенной. Для предприятий голосовые вызовы с использованием 3D-аудио открывают новые возможности: от улучшения качества обслуживания клиентов за счет направленного звука до преобразования командной работы и принятия решений. В промышленных условиях аудиоаналитика может управлять автоматизированными процессами, такими как профилактическое обслуживание, оптимизация операций и повышение эффективности.
Чтобы реализовать эти возможности в различных сетевых условиях, поставщикам услуг нужны масштабируемые решения, которые оптимизируют производительность независимо от ограничений пропускной способности. Стандартный кодек 3GPP IVAS поддерживает скорость передачи данных в диапазоне от 13,2 до 512 кбит/с, обеспечивая захватывающее качество звука независимо от того, используется ли он в перегруженных сетях или в средах потоковой передачи высокого качества. Такая масштабируемость позволяет поставщикам услуг поддерживать больше пользователей, обеспечивая при этом богатое качество звука.
Заглядывая в будущее, ожидается, что поведение пользователей, основанное на голосовой связи, будет продолжать развиваться. Помимо традиционных звонков, пространственная аудиосвязь будет расширяться и включать полусинхронный обмен сообщениями через популярные приложения, отправку людьми друг другу голосовых записей и более широкое использование групповых вызовов. С появлением устройств и услуг расширенной реальности во всех отраслях сфера голосовой связи станет еще шире, а определяющей особенностью станет погружение. Ключевым фактором в этой эволюции станет стандартизация и интеграция кодека IVAS в новейший усовершенствованный стандарт 5G, который необходим для обеспечения совместимости, необходимой для осуществления 3D-вызовов на каждом телефоне одним нажатием кнопки.
Мы составили рейтинг лучших телефонных систем для бизнеса.
Эта статья была подготовлена в рамках канала Expert Insights от TechRadarPro, где мы рассказываем о лучших и ярких умах современной технологической отрасли. Мнения, выраженные здесь, принадлежат автору и не обязательно совпадают с мнением TechRadarPro или Future plc. Если вы заинтересованы в участии, узнайте больше здесь: https://www.techradar.com/news/submit-your-story-to-techradar-pro