Дубляж коммерческого кино с использованием нейросетей
Исследовал процесс дубляжа коммерческого кино и воспроизвел все шаги с использованием нейросетей.
Примененные компетенции:
тестирование гипотез
управление проектами
Основная проблема: решить проблемы трех передовых технологий за два месяца
В феврале 2024 знакомый инвестор предложил мне разработать сервис дубляжа коммерческого видео с использованием ИИ. Чтобы убедиться в технической реализуемость этой идеи, мы решили сделать пилотный проект и отработать все этапы вручную.
Кинокомпания из Сербии согласилась предоставить нам доступ к материалам двух своих лент в обмен на результаты нашей работы. Завершить все работы было необходимо за два месяца.
Проблематика
На рынке присутствовали готовые решения по полному дубляжу видео, но ни одно из них не подходило для коммерческого кино из-за функциональных ограничений.
Технологии машинного перевода, копирования и генерации голоса, и липсинка работали по отдельности, но без тонкой настройки не давали нужного уровня качества.
Крайне ограниченное время на реализацию.
Задача
Разработать процесс дубляжа коммерческого видео в разрешении 4k с копированием голосов актеров и наложением движения губ в соответствии с дублированной аудио дорожкой.
Протестировать несколько технологий озвучки и липсинка, выявить проблемы их применения.
Дублировать кинофильм по разработанному процессу с использованием наилучшего набора технологий.
В случае успеха, приступить к разработке ПО для автоматизации дубляжа коммерческого
Решения и действия
Произведено полевое исследование процесса дубляжа в студии, занимающейся переводом турецких сериалов на русский язык. Задокументированы все шаги процесса, связанные с ними трудности и требования к материалам.
Для выбранного отрезка кинофильма составлен скрипт на языке оригинала. Выполнен машинный перевод на три языка (DE, FR, ES).
Найдены три носителя языка и совместно с ними проверены и исправлены переводы, согласно техническим требованиям.
Протестированы несколько инструментов для генерации голоса по образцу речи и текстовому скрипту.
Подготовлены видео файлы с дублированной озвучкой.
Проведено исследование готовых решений и открытых библиотек для липсинка.
Проведен конкурсный поиск подрядчика для выполнения исследовательского проекта по липсинку. Согласован протокол исследования и критерии приемки работ.
Силами двух подрядчиков протестировано 6 открытых библиотек и 1 проприетарное решение.
Самостоятельно протестировано 4 облачных сервиса. 2 из них выбраны для дальнейшего использования.
Для дублированных видеозаписей выполнена генерация и наложение губ для всех трех языков при помощи 2 онлайн сервисов и 2 лучших решений от подрядчиков.
Результат
Удалось исследовать и самостоятельно повторить весь процесс дубляжа видео, без привлечения актеров и звукозаписи.
Главной технической сложностью проекта оказался качественный липсинк. Не удалось ликвидировать артефакты наложения при повороте головы персонажа в кадре более чем на 45 градусов.
Второй по сложности проблемой стал перевод. Чтобы самостоятельно выполнить дубляж, необходимо владеть языком перевода. Привлечение переводчика трудозатратно и значительно усложняет процесс работы.