+1 480 207 5163
Corporate blog
Andersen, software for business
Blog

Deepfake: не верь глазам своим

Вы открываете новостную ленту и сразу замечаете трейлер нового фильма. Михаил Боярский, очень лихо для своего почтенного возраста, сражается с Дейви Джонсом. Море волнуется, сабли звенят, щупальца разлетаются во все стороны… Стоп. Минуточку. Что же это за фильм такой? Почему на Боярском не та шляпа!?

Вот так бы вы и стали жертвой deepfake. Фейки давно уже не ограничиваются вбросами в соцсетях, выдуманными новостями и распространением слухов. Теперь вы не можете быть уверены буквально ни в чём, что видите на мониторе.

Итак, что за deepfake? Произошёл термин от сочетания Deep Learning и того самого fake. По второй части всё ясно. А Deep Learning – это вид машинного обучения, позволяющий предсказывать результат по заданным входным данным. Проще говоря, нейросеть имитирует действия настоящего интеллекта, делая выводы на основании некоторых предпосылок, а не пользуется готовым алгоритмами. Как вы уже догадались, именно эта технология используется для создания поддельных видео. Имея достаточно материала для обучения, нейросеть может синтезировать образ нужного человека, накладывая мимику на реальные кадры и добиваясь достаточного правдоподобия.

Аналогичными технологиями пользуются приложения вроде Face2Face или MSQRD, достраивающие изображения. А вот как ещё в 2016 году можно было заменить чью угодно мимику собственной в реальном времени. В отличие от предшественников, технология рендерила не только губы и щёки, но и глаза с зубами, из-за чего результат стал гораздо убедительнее.

Эффектное применение технологии продемонстрировали американские учёные в июле 2017 года. Их алгоритм накладывает заданный звуковой ряд на видео с точной синхронизацией губ. Для примера был выбран Барак Обама. Для обучения нейросети потребовались 17 часов hd-записей его выступлений. На момент выхода видео использовались только слова, которые экс-президент реально произносил и на которые были записаны соответствующие сочетания мимики. Сейчас технологии шагнули дальше, но даже результат 2017 года впечатляет. Ведь любые слова можно вырвать из контекста и расположить очень любопытным образом.

Однако человеческую натуру не изменить. Имея возможность создавать контент невероятного уровня правдоподобия и влиять на мнение общественности, уйма сил была потрачена на… создание роликов интимного характера, где лица актёров подменялись лицами и мимикой знаменитостей. Уже в к декабрю 2017 подобные видео просто заполонили Reddit. Иногда это выглядело неотличимо от реальности, иногда проскакивали жутковатые баги (привет, бровь Скарлетт Йоханссон). Нет, мы это не опубликуем. Просто живите со знанием, что они есть. Более того, существуют и сервисы, где вы можете заказать ролик, сгенерированный по вашим предпочтениям. В том числе и весьма специфичным.

 

Как утверждает автор тех самых роликов с Reddit, свою нейросеть он тренировал на миллионах кадров, найденных в интернете, на каждом из которых лицо “цели” было искажено (эмоцией, ракурсом, плохим качеством съемки). И, когда затем обученному AI давали изображение нового человека, он принимал его за еще одно искаженное изображение, и делал похожим на то лицо, с которым работал раньше. Так что, чем больше кадров с человеком можно найти, тем более качественную имитацию можно изготовить. Ну а переход от работы с отдельными кадрами к изменению видео (даже в реальном времени) – вопрос сугубо вычислительных мощностей.

И что может быть лучше, чем заменить всех актёров в любимом фильме Николасами Кейджами?

Помимо прочего, существуют алгоритмы, способные синтезировать речь человека по краткой записи. А искусственному интеллекту уже вполне по плечу самостоятельно вести беседу, используя нужные “тело” и голос. В итоге, есть все инструменты, необходимые для того, чтобы нейросети подменили собой хоть весь Youtube и все новостные передачи. Надеемся только, что этого ещё не произошло.

Хотите попробовать сами? Эта забава уже не является привилегией программистов с топовыми видеокартами. Вот тема юзера того же Reddit, который поддерживает находящееся в открытом доступе приложение “для чайников” на JavaScript, позволяющее опробовать эту технологию всем желающим. Работает пока кривовато, но зато ясно видно, что откуда берётся.

Разумеется, все эти разработки могут использоваться и в самых благих целях. Для улучшения качества видео, где неудачные кадры могли бы заменяться симуляцией. Для съемок художественных фильмов без людей-актёров, со спецэффектами любой сложности и без неудачных дублей. Для компьютерных игр в VR с невероятной детализацией. Для максимальной степени user friendly интерфейсов, в конце концов. у

P.S. Учитывая дату публикации, предлагаем взглянуть, что нейросети подготовили к Хэллоуину!

Previous articleNext article