Опера, метал и рэп в одном треке: ElevenLabs представила Music v2

Модель умеет переключать жанры внутри одного трека, собирать песню по секциям — от интро до припева — и добавлять звуковые эффекты. Всё по текстовому промпту. Треки можно использовать коммерчески: модель обучена на лицензированных данных.

Большинство музыкальных ИИ-моделей справляются с простыми запросами, но начинают сбоить, когда задача усложняется: длинная композиция теряет связность, вокал плывет, а смена настроения звучит как склейка двух разных файлов. ElevenLabs заявляет, что решила именно эту проблему.

Компания, известная прежде всего голосовыми технологиями, выпустила Music v2 — второе поколение своей модели для генерации музыки. Первая версия вышла около десяти месяцев назад и быстро закрепила позиции ElevenLabs на рынке музыкального ИИ.

Ключевая способность Music v2 — жанровые переходы внутри одной композиции. Компания утверждает, что модель удерживает цельность звучания даже при резких сменах стиля, справляется с плотным речитативом без «каши» в тексте и умеет вплетать в трек немузыкальные звуки: шум улицы, хлопок двери, шаги по гравию.

Изменился и подход к сборке трека. Раньше модель выдавала только короткие фрагменты. Теперь трек можно собирать поэтапно: задать вступление, затем куплет, затем припев — и объединить в готовую песню. Любую секцию можно перегенерировать отдельным промптом, не трогая остальное. По словам разработчиков, модель стала увереннее работать с текстами на разных языках и разнообразными вокальными стилями.

В основе Music v2 — данные, на использование которых ElevenLabs заключила лицензионные соглашения с правообладателями. Сгенерированные треки можно свободно использовать в коммерческих проектах.

Music v2 доступна через ElevenCreative (для маркетинговых команд) и платформу ElevenMusic; подключение через API станет доступным в ближайшее время.

Конкуренция в сегменте нарастает: за последние месяцы обновленные модели выпустили Google (Lyria 3), Stability AI и Suno. На Google I/O был продемонстрирован Flow Music — инструмент для каверов, посекционного редактирования и генерации клипов. При этом Suno и Udio по-прежнему судятся с крупными лейблами из-за авторских прав на обучающие данные.

На рынке, где большинство конкурентов еще судится за право существовать, легальность данных для обучения — не менее сильный аргумент, чем качество генерации.

Источник:TechCrunch

Комментарии (0)

Войдите или зарегистрируйтесь, чтобы оставить комментарий

Пока нет комментариев. Будьте первым!