Редактирование музыки по тексту с помощью искусственного интеллекта: новый подход

 Instruct-MusicGen: A Novel Artificial Intelligence AI Approach to Text-to-Music Editing that Fosters Joint Musical and Textual Controls

“`html

Инструкция Instruct-MusicGen: новый подход искусственного интеллекта к редактированию текста в музыку, который способствует совместному музыкальному и текстовому управлению

Исследователи из C4DM, Университета королевы Марии в Лондоне, Sony AI и Music X Lab, MBZUAI, представили Instruct-MusicGen для решения проблемы редактирования текста в музыку, где текстовые запросы используются для изменения музыки, таких как изменение стиля или корректировка инструментальных компонентов. Текущие методы требуют обучения специальных моделей с нуля, затратны на ресурсы и требуют некоторых подходов для восстановления отредактированного аудио, что приводит к недостаточным результатам. Цель исследования – разработать более эффективный и эффективный метод, который использует предварительно обученные модели для выполнения качественного редактирования музыки на основе текстовых инструкций.

Практические решения и ценность

Текущие методы редактирования текста в музыку включают обучение специализированных моделей с нуля, что неэффективно и требует больших ресурсов, а также использование больших языковых моделей для интерпретации и редактирования музыки, что часто приводит к неточному восстановлению аудио. Эти методы либо слишком дороги, либо не обеспечивают точных результатов. Для преодоления этих проблем исследователи предлагают Instruct-MusicGen – новый подход, который настраивает предварительно обученную модель MusicGen для эффективного выполнения редактирования музыки. Этот подход включает модуль текстового слияния и модуль аудио-слияния в исходную архитектуру MusicGen, что позволяет ей обрабатывать текстовые инструкции и аудио-входы параллельно. Instruct-MusicGen значительно снижает необходимость в обширном обучении и дополнительных параметрах, обеспечивая при этом превосходные результаты при выполнении различных задач.

Инструкция Instruct-MusicGen улучшает исходную модель MusicGen путем включения двух новых модулей: модуля аудио-слияния и модуля текстового слияния. Модуль аудио-слияния позволяет модели принимать и обрабатывать внешние аудио-входы, обеспечивая точное редактирование аудио. Это достигается путем дублирования модулей самовнимания и включения перекрестного внимания между исходной музыкой и условным аудио. Модуль текстового слияния изменяет поведение текстового кодировщика для обработки текстовых входов, что позволяет модели эффективно следовать текстовым командам редактирования. Объединенные модули позволяют Instruct-MusicGen добавлять, разделять и удалять части из аудио музыки на основе текстовых инструкций.

Модель была обучена с использованием синтезированного набора данных, созданного на основе набора данных Slakh2100, который включает высококачественные аудиодорожки и соответствующие файлы MIDI. Процесс обучения был оптимизирован таким образом, что требовалось всего 8% дополнительных параметров по сравнению с исходной моделью MusicGen и был завершен за 5000 шагов, что значительно снизило использование ресурсов. Эффективность Instruct-MusicGen была оценена на двух наборах данных: тестовом наборе Slakh и наборе данных MoisesDB вне области. Модель превзошла существующие базовые уровни в различных задачах, демонстрируя свою эффективность и эффективность в редактировании текста в музыку. Она достигла превосходного качества аудио, соответствия текстовым описаниям и улучшения отношения сигнал-шум.

В заключение, Instruct-MusicGen решает ограничения существующих методов редактирования текста в музыку путем использования предварительно обученных моделей и предлагая эффективные методики обучения. Предложенный подход значительно снижает требуемые вычислительные ресурсы и достигает высококачественных результатов в задачах редактирования музыки. Хотя он хорошо справляется с различными метриками, остаются некоторые ограничения, такие как использование синтетических обучающих данных и потенциальные неточности на уровне сигнала. Разработка Instruct-MusicGen является значимым шагом вперед в области создания музыки с помощью искусственного интеллекта, сочетая в себе эффективность и высокую производительность.

“`

Мобильная разработка на заказ и готовые решения

Мобильная разработка

Готовые и индивидуальные решения

Веб решения - разработка сайтов и сервисов

Web решения

Получите бесплатную консультацию по веб-разработке прямо сейчас

Аутсорсинг, подбор специалистов и команд разработки

Аутсорсинг

Выберите своего специалиста сегодня и начните свой проект