Что такое deepfake и в чём его опасность?
Технологии, профессионально обманывающие человеческое восприятие, широко применяются в разных сферах. К примеру, В Южной Корее кандидата в президенты продвигают с помощью дипфейка.
Не верь глазам своим, компьютер
Не занимайтесь самолечением!В наших статьях мы собираем последние научные данные и мнения авторитетных экспертов в области здоровья. Но помните: поставить диагноз и назначить лечение может только врач.
Термин deepfake — от deep learning («глубокое обучение») и fake («подделка») — употребляется достаточно широко и обозначает практически любое изменение цифровых медиаданных с целью ввести в заблуждение компьютерную систему распознавания образов или живого наблюдателя. Например, вместо одного лица «приставить» к фигуре человека на видео другое (это называется Face Swap, замена лица), или же вместо довольной улыбки правдоподобно изобразить гримасу негодования (Face Reenactment, замена выражения лица).
Помимо deepfake, есть два основных вектора атак систем распознавания: на вычислительные алгоритмы и на сами камеры. К первому типу относятся Adversarial-атаки — тщательным образом подготовленные изменения входных данных, результатом которых становится выдача нейронной сетью ошибочного решения; скажем, когда изображение черепашки, для человека совершенно однозначное, машиной воспринимается как гоночный автомобиль. Атака «на камеру», пик популярности которой пришёлся на первые годы широкого распространения систем распознавания лиц это Liveness, подмена живого лица перед камерой его искусственным подобием — распечатанным на бумаге фото, портретным снимком на экране планшета, правдоподобно раскрашенной и напечатанной на 3D-принтере маской.
К счастью, современные системы распознавания уже неплохо умеют противостоять Liveness-атакам на уровне алгоритмов. Производится детальный анализ картинки в поисках особых признаков: для распечатанного фото это может быть обрез бумажного листа, для картинки на планшете — радужные блики от внешних источников света на ЖК-матрице и т. п. Стоящего перед камерой человека можно попросить покачать головой вверх-вниз, повернуться в разные стороны, чтобы повысить достоверность отождествления и заодно удостовериться, что «подмены лица» здесь нет.
Ситуация несколько сложнее, если вычислительный модуль системы распознавания и камера не совмещены в одном корпусе (как у iPhone в случае Face ID или у системы Face Pay в Московском метрополитене), а взаимодействуют через Интернет. К примеру, человек в ходе Zoom-конференции с сотрудником банка оформляет кредит, и необходимо удостовериться тот ли он, за кого себя выдаёт и чьи документы предъявляет.
Здесь уже возникает опасность перехвата трафика: злоумышленник имитирует на ПК изображение с виртуальной камеры, заменяя собственное лицо на компьютерную модель по принципу популярных сегодня «живых масок» в видеочатах, но гораздо правдоподобнее. Поддельное изображение, способное ввести в заблуждение даже живого оператора, направляется в видеоконференцию, так что система распознавания банка получает заведомо ложную информацию.
Liveness-атаки наименее ресурсоёмки для злоумышленника и потому опасны. Но и в противодействие им были своевременно проинвестированы серьёзные ресурсы, так что сегодня эффективность их весьма мала. Атаки класса Adversarial, напротив, чрезвычайно сложны в исполнении — требуются глубокие знания об устройстве и принципах работы данной конкретной системы распознавания образов. Потому и актуальность их как практической опасности близка к нулю.
Дипфейки же представляют своего рода скрытую угрозу — как вектор атаки они пока не слишком значимы, но по мере совершенствования алгоритмов подмены лиц и роста мощи вычислительных средств опасность с их стороны будет неуклонно усиливаться. Именно поэтому так важно уже сегодня развивать эффективные средства их выявления.
Photo by Julia M Cameron
Дипфейк дипфейку рознь
Сам по себе дипфейк не хорош и не плох — вычислительные средства объективно развились до такого состояния, которое сделало возможным реалистичное моделирование человеческого лица в динамике почти в реальном времени. У этой технологии немало вполне добропорядочных приложений, достаточно вспомнить появление Леи Органы в фильме «Изгой-один», действие которого происходит во вселенной Star Wars непосредственно накануне третьего эпизода «Новая надежда», снятого в далеком 1977 году.
Лею в новой ленте изобразила актриса Ингвильд Дейла, но лицо её было подменено сгенерированным нейросетью лицом Кэрри Фишер, оригинальной Леи, ушедшей из жизни в 2016 году. По той же схеме знаменитый актёр может дать согласие на использование своего лица в рекламном ролике, не внося коррективы в свой плотный график — дублёр и дипфейк-система сделают всё за него.
Сфера развлечений, пожалуй, лучше всего подходит для применения дипфейка как легальной технологии. В том же кино при дубляже подход позволит избавиться от досадного несоответствия движения губ персонажей на экране произносимым ими звукам. В компьютерных играх автоматическая процедурная генерация правдоподобных человеческих лиц тоже будет чрезвычайно востребована — художники и 3D-моделлеры смогут сосредоточить больше усилий на проработке дизайнов брони, оружия, интерьеров, построек и прочих элементов. Упомянутые уже «живые маски» в видеочатах станут ещё более впечатляющими — можно будет не только наложить на своё лицо мультяшный образ, но и поменять причёску, цвет волос, обзавестись «на лету» весьма натуралистичной бородой или подвижными кошачьими ушками.
Но и негативных примеров использования дипфейков известно множество. В соцсетях, где искусственный интеллект пытается автоматически выявлять ботов (фальшивые аккаунты, применяемые для раскрутки блогов, подъёма рейтинга новостей), ставка часто делается на сравнении фото из профиля с доступными базами данных. Сгенерированные же нейросетью правдоподобные лица способны с успехом обмануть противодействующий ботам ИИ — придётся тратить силы и время живых модераторов на определение фейковых аккаунтов.
В целом разработкой дипфейков самого разного назначения в мире сегодня занято множество компаний, тогда как противодействием — считанные единицы. Есть три существенных проблемы с распознаванием дипфейков. Первая: технологии неуклонно развиваются, так что обученная, грубо говоря, на прошлогодних наборах данных нейросеть новые дипфейки, созданные по самым передовым алгоритмам, отличать от съёмок с натуры будет уже с трудом. И чем шире арсенал средств разработчиков дипфейков, тем сложнее их становится выявлять.
Вторая сложность — видео в Интернет выкладывают чаще всего с приличным сжатием. Алгоритмы сжатия подавляют множество малозначимых для человеческого взгляда деталей, однако эти артефакты помогают нейросетям определять, где дипфейк, а где нет. Обучение систем распознавания на сжатых видео пока дает много ошибок, но это направление сегодня чрезвычайно активно развивается.
И наконец, нельзя забывать о времени: выявление дипфейка с высокой вероятностью — дело небыстрое. Тут важно соблюдать баланс в зависимости от задачи: та же соцсеть при поиске ботов по фото профилей может позволить себе затратить больше времени на анализ каждой картинки, тогда как система верификации транзакций через веб-камеру обязана отреагировать на запрос за считанные секунды. Приходится непрерывно изобретать новые подходы.
Так или иначе, и разработка, и выявление дипфейков сегодня относятся к разряду самых актуальных ИТ-задач. Можно не сомневаться, что уже через пару лет это направление выйдет на совершенно новый уровень, что позволит в режиме реального времени как правдоподобно подменять лица с легальными целями, так и выявлять противозаконные попытки подобных манипуляций.
Александр Паркин
Обсудим?
Смотрите также: