Назад

SeamlessM4T – нейронный синхронный переводчик

Мир, в котором мы живем, никогда не был таким взаимосвязанным – глобальное распространение интернета, мобильных устройств, социальных сетей и коммуникационных платформ дает людям доступ к большему количеству многоязычного контента, чем когда-либо прежде. В таких условиях все большее значение приобретает способность по требованию общаться и понимать информацию на любом языке. Хотя о такой возможности давно мечтают в научной фантастике, искусственный интеллект стоит на пороге того, чтобы воплотить это видение в техническую реальность.

Meta

Мультимодальность и SeamlessM4T

Некоторое время назад Meta выпустили мультимодальную модель SeamlessM4T для перевода аудио и текста на 100 языках. Все современные онлайн-переводчики основаны на нейросетях, так в чем же особенность SeamlessM4T? Ответом является мультимодальность. Это значит, что модель может работать с разными видами данных одновременно. Например, если обычная модель работает только с текстом, то мультимодальная может обрабатывать и текст, и изображения, и, возможно, еще какие-то данные одновременно.

В случае SeamlessM4T модель может работать с аудио и текстом. Более того, работать можно с данными, в которых используется сразу несколько языков. Модель умеет распознавать речь, а также параллельно выполнять переводы (speech-to-speech, speech-to-text, text-to-text, text-to-speech). Однако есть и ограничения – хоть модель и способна понимать 100 языков, в речь она способна превращать только 36 языков. По результатам тестирования, новая разработка обошла Whisper v2 и AudioPaLM-2.

Сеть основана на более ранних разработках Meta. Для SeamlessM4T использовали многозадачную архитектуру модели UnitY, которая способна напрямую генерировать переведенный текст и речь. Она состоит из трех основных компонентов:

  • кодеры текста и речи. w2v-BERT 2.0 принимает аудио, разбивает его на более мелкие части и строит внутреннее представление того, о чем говорится в записи;
  • декодер текста. Он передает закодированные значения, после чего модель преобразования текста переводит их в акустические единицы;
  • многоязычный вокодер на архитектуре HiFi-GAN (Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, генеративно-состязательные сети для эффективного и высококачественного синтеза речи). Он преобразует полученные ранее акустические единицы в речь.

Используем модель на практике

Учитывая все возможности SeamlessM4T, модель отлично подходит для использования при синхронном переводе и повседневном общении с людьми, говорящими на других языках. В конце ноября была представлена надстройка для перевода, даже если говорящий еще не закончил речь.

Модель можно самостоятельно потестировать. Сделать это можно на seamless.metademolab.com нажав на “Try demo”. Кликните Start Recording и запишите аудио длиной до 15 секунд. Здесь же можно попробовать и другую модель – Seamless Expressive. Она сохраняет тона фразы при переводе (например, восхищение).

Если же красивый интерфейс – не главное и вас интересует полный функционал, то потестировать модель в разных режимах можно в официальном приложении на HuggingFace.


Самые важные новости из мира ИИ у нас в Телеграм-канале