logo

В России нейросети научат находить запретный контент в видео и на картинках. Как будет работать «Окулус»


Искусственный интеллект должен будет анализировать все, что публикуется в Рунете, на предмет нарушения законодательства РФ. Сейчас этим занимается отдел при Роскомнадзоре, а система должна будет автоматизировать его работу. Проект планируют реализовать к концу 2022 года.

На сайте госзакупок появился тендер на «Выполнение работ по созданию информационной системы выявления признаков нарушений законодательства Российской Федерации в изображениях и видеоматериалах с использованием технологий искусственного интеллекта (ОКУЛУС)».

Заказчиком выступает подведомственный Роскомнадзору Главный радиочастотный центр (ГРЧЦ). Начальная цена тендера — 70 млн рублей. Подача заявок на конкурс завершится 20 июня.

Как указано в техническом задании, система «Окулус» создается, чтобы обеспечить возможность следить за соблюдением законодательства РФ в сфере связи и массовых коммуникаций, а также законодательства о персональных данных. Вытекающие отсюда задачи делятся на три категории, главная из которых сформулирована так:

«Автоматизация распознавания признаков запрещенной информации в изображениях и видеоматериалах (текст, символика, «водяные знаки», сцены, сочетания предметов, композиция образов, лица, статика и динамика движений и т. п.)».

То есть «Окулус» должен в круглосуточном режиме выполнять следующее:

  • анализировать изображения, кадры видео на предмет наличия запрещенной символики (графика, логотипы, флаги, монеты запрещенных организаций и т. д.);
  • анализировать изображения и кадры видео на предмет присутствия в них сцен и действий, которые соответствуют признакам нарушений законодательства РФ в сфере средств массовой информации и массовых коммуникаций, защиты детей от информации, причиняющей вред их здоровью и (или) развитию;
  • распознавать тексты на изображениях и кадрах видео (включая расшифровку QR-кодов, переписки в чатах и каналах мессенджеров, надписей, URL-адресов, субтитров и др.) и в последующем передавать результаты во внешнюю систему в целях выявления признаков нарушений.

Подрядчик должен будет сформировать и предоставить ГРЧЦ размеченные наборы данных для обучения моделей «Окулус» по каждому из пунктов в объеме не менее 1000 изображений по каждому типу нарушений. Кроме того, подрядчик должен будет сформировать и предоставить наборы данных для обучения модели распознавания лиц (в объеме не менее 100 наборов данных).

Как рассказал 66.RU исполнительный директор «Общества защиты интернета» Михаил Климарев* (признан Минюстом РФ иностранным агентом), создать такую систему вполне возможно.

«Сейчас есть огромное подразделение, которое отсматривает ТВ-каналы и что-то в интернете. Эта система должна будет автоматизировать их работу. Однако стоит понимать, что это очень ресурсоемкая задача — особенно в части обработки видео. Например, весь YouTube алгоритмы не смогут, наверное, отсматривать. Вероятно, они будут избирательно анализировать всю эту среду», — говорит Михаил Климарев*.

Директор «Общества защиты интернета» считает, что вопросом остается то, как алгоритмы будут обучать и как вообще система сможет работать. При этом он предполагает, что раз у системы уже есть конкретное название, вероятно, у закупки есть предполагаемый подрядчик, у которого есть необходимые разработки.

В проекте договора, опубликованного на сайте госзакупок, указывается, что работы будут поделены на два этапа. На первом — до 31 октября — должна быть разработана система. На втором — до 12 декабря этого года — опытная эксплуатация и проведение приемо-сдаточных испытаний.

«На самом деле в этом нет ничего нового и нейросети на сегодняшний день уже сильно развиты. Это очень-очень ресурсоемкий проект. Но в целом его вполне реально реализовать. Проблема может возникнуть на стадии оборудования: для него потребуется очень мощное оборудование, которое сейчас нельзя ввозить в Россию из-за санкций», — заключил эксперт.


*включен Минюстом РФ в список физлиц-иноагентов