Дубляж коммерческого кино с использованием нейросетей
Исследовал процесс дубляжа коммерческого кино и воспроизвел все шаги с использованием нейросетей.

Примененные компетенции:
  • тестирование гипотез
  • управление проектами
Основная проблема: решить проблемы трех передовых технологий за два месяца
В феврале 2024 знакомый инвестор предложил мне разработать сервис дубляжа коммерческого видео с использованием ИИ. Чтобы убедиться в технической реализуемость этой идеи, мы решили сделать пилотный проект и отработать все этапы вручную.

Кинокомпания из Сербии согласилась предоставить нам доступ к материалам двух своих лент в обмен на результаты нашей работы. Завершить все работы было необходимо за два месяца.
Проблематика
  • На рынке присутствовали готовые решения по полному дубляжу видео, но ни одно из них не подходило для коммерческого кино из-за функциональных ограничений.
  • Технологии машинного перевода, копирования и генерации голоса, и липсинка работали по отдельности, но без тонкой настройки не давали нужного уровня качества.
  • Крайне ограниченное время на реализацию.
Задача
  • Разработать процесс дубляжа коммерческого видео в разрешении 4k с копированием голосов актеров и наложением движения губ в соответствии с дублированной аудио дорожкой.
  • Протестировать несколько технологий озвучки и липсинка, выявить проблемы их применения.
  • Дублировать кинофильм по разработанному процессу с использованием наилучшего набора технологий.
  • В случае успеха, приступить к разработке ПО для автоматизации дубляжа коммерческого
Решения и действия
  • Произведено полевое исследование процесса дубляжа в студии, занимающейся переводом турецких сериалов на русский язык. Задокументированы все шаги процесса, связанные с ними трудности и требования к материалам.
  • Для выбранного отрезка кинофильма составлен скрипт на языке оригинала. Выполнен машинный перевод на три языка (DE, FR, ES).
  • Найдены три носителя языка и совместно с ними проверены и исправлены переводы, согласно техническим требованиям.
  • Протестированы несколько инструментов для генерации голоса по образцу речи и текстовому скрипту.
  • Подготовлены видео файлы с дублированной озвучкой.
  • Проведено исследование готовых решений и открытых библиотек для липсинка.
  • Проведен конкурсный поиск подрядчика для выполнения исследовательского проекта по липсинку. Согласован протокол исследования и критерии приемки работ.
  • Силами двух подрядчиков протестировано 6 открытых библиотек и 1 проприетарное решение.
  • Самостоятельно протестировано 4 облачных сервиса. 2 из них выбраны для дальнейшего использования.
  • Для дублированных видеозаписей выполнена генерация и наложение губ для всех трех языков при помощи 2 онлайн сервисов и 2 лучших решений от подрядчиков.
Результат
  • Удалось исследовать и самостоятельно повторить весь процесс дубляжа видео, без привлечения актеров и звукозаписи.
  • Главной технической сложностью проекта оказался качественный липсинк. Не удалось ликвидировать артефакты наложения при повороте головы персонажа в кадре более чем на 45 градусов.
  • Второй по сложности проблемой стал перевод. Чтобы самостоятельно выполнить дубляж, необходимо владеть языком перевода. Привлечение переводчика трудозатратно и значительно усложняет процесс работы.