В России нейросети научат находить запретный контент в видео и на картинках. Как будет работать «Окулус»
На сайте госзакупок появился тендер на «Выполнение работ по созданию информационной системы выявления признаков нарушений законодательства Российской Федерации в изображениях и видеоматериалах с использованием технологий искусственного интеллекта (ОКУЛУС)».
Заказчиком выступает подведомственный Роскомнадзору Главный радиочастотный центр (ГРЧЦ). Начальная цена тендера — 70 млн рублей. Подача заявок на конкурс завершится 20 июня.
Как указано в техническом задании, система «Окулус» создается, чтобы обеспечить возможность следить за соблюдением законодательства РФ в сфере связи и массовых коммуникаций, а также законодательства о персональных данных. Вытекающие отсюда задачи делятся на три категории, главная из которых сформулирована так:
«Автоматизация распознавания признаков запрещенной информации в изображениях и видеоматериалах (текст, символика, «водяные знаки», сцены, сочетания предметов, композиция образов, лица, статика и динамика движений и т. п.)».
То есть «Окулус» должен в круглосуточном режиме выполнять следующее:
- анализировать изображения, кадры видео на предмет наличия запрещенной символики (графика, логотипы, флаги, монеты запрещенных организаций и т. д.);
- анализировать изображения и кадры видео на предмет присутствия в них сцен и действий, которые соответствуют признакам нарушений законодательства РФ в сфере средств массовой информации и массовых коммуникаций, защиты детей от информации, причиняющей вред их здоровью и (или) развитию;
- распознавать тексты на изображениях и кадрах видео (включая расшифровку QR-кодов, переписки в чатах и каналах мессенджеров, надписей, URL-адресов, субтитров и др.) и в последующем передавать результаты во внешнюю систему в целях выявления признаков нарушений.
Подрядчик должен будет сформировать и предоставить ГРЧЦ размеченные наборы данных для обучения моделей «Окулус» по каждому из пунктов в объеме не менее 1000 изображений по каждому типу нарушений. Кроме того, подрядчик должен будет сформировать и предоставить наборы данных для обучения модели распознавания лиц (в объеме не менее 100 наборов данных).
Как рассказал 66.RU исполнительный директор «Общества защиты интернета» Михаил Климарев* (признан Минюстом РФ иностранным агентом), создать такую систему вполне возможно.
«Сейчас есть огромное подразделение, которое отсматривает ТВ-каналы и что-то в интернете. Эта система должна будет автоматизировать их работу. Однако стоит понимать, что это очень ресурсоемкая задача — особенно в части обработки видео. Например, весь YouTube алгоритмы не смогут, наверное, отсматривать. Вероятно, они будут избирательно анализировать всю эту среду», — говорит Михаил Климарев*.
Директор «Общества защиты интернета» считает, что вопросом остается то, как алгоритмы будут обучать и как вообще система сможет работать. При этом он предполагает, что раз у системы уже есть конкретное название, вероятно, у закупки есть предполагаемый подрядчик, у которого есть необходимые разработки.
В проекте договора, опубликованного на сайте госзакупок, указывается, что работы будут поделены на два этапа. На первом — до 31 октября — должна быть разработана система. На втором — до 12 декабря этого года — опытная эксплуатация и проведение приемо-сдаточных испытаний.
«На самом деле в этом нет ничего нового и нейросети на сегодняшний день уже сильно развиты. Это очень-очень ресурсоемкий проект. Но в целом его вполне реально реализовать. Проблема может возникнуть на стадии оборудования: для него потребуется очень мощное оборудование, которое сейчас нельзя ввозить в Россию из-за санкций», — заключил эксперт.