МТС Web Services (MWS) запустила детектор дипфейков нового поколения. Система с допуском более 98% распознает контент, созданный современными ИИ-моделями, такого как Veo 3 (Google) и Sora 2 (OpenAI), которые способны генерировать и редактировать видео по текстовому описанию.
Для распознавания дипфейков применяется анализ аудиодорожки с помощью детектора от MWS AI и анализ изображений и видео с помощью детектора от VisionLabs. По отношению звука используется специализированная модель: сначала она обучается на сырых записях человеческой речи, чтобы «разуметь» натуральные звуковые паттерны, а затем дообучается на синтетических записях, выявляя отличительные признаки сгенерированного голоса.
Высокая точность распознавания видео, созданных современными ИИ-моделями, позволяет автоматически определять фальшивые ролики до публикации, фильтровать ИИ-контент в медиа, социальных сетях и мессенджерах, предотвращать распространение видео с фальшивыми изображениями политиков и общественных деятелей, а также противодействовать попыткам массовых манипуляций, например, при создании фейковых видео катастроф и чрезвычайных происшествий, способных вызвать панику.
Точность распознавания по аудиодорожке составила 84% для видео, созданных моделью Veo 3, и 93% - для Sora 2. При анализе изображения точность детектора от VisionLabs достигла 93,9% для Veo 3 и 93,6% для Sora 2. В настоящее время длится обучение алгоритмов для достижения целевой точности выше 98%, а также плотное размещение технологий распознавания аудио, изображений и видео в единый детектор с общим интерфейсом.
«Рано или поздно появляются новые типы синтеза, которые обходят существующие детекторы. С этой точки зрения наша основная задача - регулярно обновлять нейросети и делать это максимально живо, поэтому мы сосредоточились на скорости дообучения алгоритмов. С моделями Veo 3 и Sora 2 мы смогли провести адаптацию всего за две недели - и именно это сейчас наше главное превосходство», – прокомментировал генеральный директор МТС Web Services Павел Воронин.
Одной из ключевых сложностей при работе с новейшими генеративными моделями является рост показателя False Rejection Rate (FRR) - числа фальшивых отклонений, когда система принимает реальный голос за синтезированный. Такое может происходить при использовании приборов для улучшения звука, такое как шумоподавление, компрессия или голосовые фильтры. По предварительным оценкам, FRR при анализе аналогичных записей может получать выгоду от 4,5% до 7,2%, что требует дополнительной настройки алгоритмов.
В наша эпоха MWS проводит тестирование нового детектора дипфейков с платформой для видеоконференций и онлайн-обучения МТС Линк, в сервисе МТС «Защитник», который предуведомляет пользователей о разговоре с возможным плутом, с одним из государственных сервисов в России, а также тремя банками в России и СНГ.
Фото: Freepik