DeepL добавила функцию перевода иностранного языка во время видеоконференции

17 Nov 2024, 17:52 · Inc. Russia

DeepL, осуществляющий онлайн-перевод текстов, добавляет функцию DeepL Voice, которая способна слушать речь на одном языке и в режиме реального времени переводить ее на другой. Компания утверждает, что ее услуги являются более «тонкими и точными», чем перевод Google, что помогло ей добиться оценки в $2 млрд и привлечь более 100 тыс. клиентов, сообщает TechCrunch.

Ажиотаж вокруг сервисов искусственного интеллекта продолжает расти. Переводчик DeepL добавляет на свою платформу еще один режим: аудио. Теперь пользователи смогут использовать DeepL Voice, чтобы слушать речь человека на одном языке и автоматически переводить ее на другой в режиме реального времени.

В настоящий момент функция способна распознать речь на 13 языках: английский, немецкий, японский, корейский, шведский, голландский, французский, турецкий, польский, португальский, русский, испанский и итальянский. При этом субтитры доступны для всех 33 языков, которые поддерживает DeepL Translator.

DeepL Voice не предоставляет результат в виде аудио- или видеофайла. Сервис предназначен для общения в реальном времени и проведения видеоконференций. Перевод можно настроить так, чтобы он отображался в виде «зеркала» на смартфоне. Идея заключается в том, что собеседники кладут телефон между собой, чтобы каждая сторона видела текст. В сервисе видеоконференций переводы отображаются в виде субтитров.

Основатель и генеральный директор компании Ярек Кутыловски, намекнул, что со временем эта функция может измениться. Это первый голосовой продукт DeepL, но вряд ли он будет последним.

Google, один из крупнейших конкурентов DeepL, также начал внедрять субтитры в режиме реального времени в свой сервис видеоконференций Meet. Кроме того, существует множество ИИ-стартапов, создающих сервисы голосового перевода, например, специалист по ИИ-переводу ElevenLabs и компания Panjaya.

Последняя использует API ElevenLabs, а сама ElevenLabs, по словам Кутыловски, использует технологии с сайта DeepL для работы своего сервиса. API для голосового продукта пока не существует. Основной бизнес DeepL сосредоточен на B2B, а компания работает с партнерами и клиентами напрямую.

Также нет широкого выбора интеграций: единственным сервисом видеозвонков, поддерживающим субтитры DeepL, на данный момент является Teams, который, по словам Кутыловски, охватывает большинство их клиентов. Пока нет информации о том, когда Zoom или Google Meet будут поддерживать DeepL Voice.

Для пользователей новый продукт станет долгожданным, не только потому, что в последнее время появилось множество других голосовых сервисов с ИИ, нацеленных на перевод. Кутыловски отметил, что это был запрос №1 от клиентов с 2017 года, когда был запущен DeepL.

В отличие от многих других ИИ-приложений, которые опираются на большие языковые модели других компаний и настраивают их, DeepL стремится создать свой сервис с нуля. В июле компания выпустила новую LLM, оптимизированную для переводов, которая, по ее словам, превосходит GPT-4, а также модели от Google и Microsoft.

Кроме того, одним из преимуществ DeepL Voice является работа в режиме реального времени, что очень важно, поскольку многие сервисы «искусственного перевода», представленные на рынке, работают с задержкой, что делает их использование в реальных условиях затруднительным или невозможным.

Видеоконференции и совещания — вероятные сферы применения DeepL Voice. Но Кутыловски отметил, что еще одним важным направлением компания видит сферу обслуживания, где работники могут использовать сервис для более удобного общения с клиентами.

Однако в мире, где все стали гораздо более осведомлены о защите данных и обеспокоены тем, как новые сервисы и платформы используют частную или служебную информацию, еще предстоит выяснить, насколько люди будут рады тому, что их голоса будут использованы.

Ранее OpenAI объявила о начале внедрения расширенного голосового режима (AVM) для более широкого круга платных клиентов ChatGPT. Компания сообщила, что голосовая функция научилась лучше понимает акценты и ее разговоры стали более плавными и быстрыми. В нее было добавлено 5 новых голосов, которые смогут попробовать пользователи: Arbor, Maple, Sol, Spruce и Vale.