NLP для искусственного интеллекта. Как роботы научились писать фейковые новости

16 декабря 2019, 08:00

Фото: Анна Коваленко, 66.RU

Международная группа в Институте радиоэлектроники и информационных технологий УрФУ работает на стыке IT и лингвистики. Исследователи пытаются решить фундаментальные проблемы этих наук и научить компьютер понимать человека. Они хотят написать программу, которая пройдет тест Тьюринга: сможет «обмануть» собеседника, убедит, что разговаривает он не с машиной, а с живым человеком. Для этого искусственному интеллекту требуется NLP.

Зачем ученым майнинговые фермы и можно ли собрать дома «суперкомпьютер»? Об этом рассказывает Вячеслав Шибаев, аспирант, сотрудник научной группы по NLP, который работает на кафедре интеллектуальных информационных технологий Института фундаментального образования УрФУ.

«Алиса», скажи что-нибудь по-кхмерски!»

Когда слышат «NLP», чаще думают о нейролингвистическом программировании. Нет. Это намного сложнее. Мы изучаем обработку естественного языка — Natural Language Processing. Учим компьютерные программы правильно понимать человека и разговаривать с ним на равных.

Фото: Сергей Логинов для 66.RU
«Чтобы обучить нейронную сеть, нужно обработать сотни тысяч документов».

Кому это нужно? Эти технологии использует почти каждый — в интернет-поисковиках, онлайн-переводчиках, виртуальных помощниках, таких как «Алиса», Siri, Cortana.

Сегодня программы справляются, когда переводят текст с распространенных языков — с русского на английский или немецкий. Если на языке написали мало текстов, которые можно изучить и сравнить с переводом, если язык редкий — такой как кхмерский, получится еще хуже. NLP в ближайшем будущем поможет в этом.

Виртуальные помощники сегодня — программы, которые только «маскируются» под человека. Они понимают и умеют выполнять ряд команд, но не в состоянии ответить на нестандартный вопрос и по-настоящему поддержать разговор.

Когда закончим работу, «Алису» или «Сири» можно будет не только спросить о погоде, попросить найти видео в интернете или завести будильник. С ними можно будет поговорить на любую тему: узнать, что помощник думает о книге или фильме, обсудить события в мире и в вашем дворе. Это будет не компьютер, который старается походить на человека. Это будет полноценный искусственный интеллект.

В США программа, основанная на нейронных сетях, работала журналистом: писала фейковые новости, которые очень трудно отличить от настоящих. Она «придумала» историю, что в США появилась компания по добыче полезных ископаемых на Луне. Компьютеры могут пока создавать только короткие тексты. Они быстро «забывают», о чем только что писали, не в состоянии связать конец с началом. Ученые пытаются научить их говорить и писать не хуже людей.

Фото: Сергей Логинов для 66.RU
Сейчас научная группа работает на одном из серверов УрФУ. В Центре цифровизации ИРИТ-РтФ строят новый вычислительный кластер для ученых и студентов.

Вычислительные ресурсы сегодня общедоступны, поэтому машинное обучение неизбежно эволюционирует. Его достижения заметно меняют рынок труда, вытесняя рутинные процессы. Поэтому, если рассуждать о востребованности профессий будущего, я бы ориентировался на деятельность с большим элементом творчества, то есть такую деятельность, которую сложно заменить машиной.

«Программа уже работает лучше человека»

Работа нашей группы началась с того, что директор Института фундаментального образования УрФУ Николай Хлебников связался с одним из мировых научных центров по обработке естественных языков – Институтом математики в науках сообщества Макса Планка (Max Planck Institute for Mathematics in the Sciences). Там мы познакомились с Иваном Ямщиковым, о котором много слышали по его работе в Яндексе и Abbyy, договорились сотрудничать.

Постепенно собралась научная группа из пяти человек. Двое живут в Германии: Иван в Лейпциге, Алексей Тихонов — из берлинского подразделения «Яндекса». Трое — в Екатеринбурге, аспиранты и магистр УрФУ. Помогают сорок пять студентов второго – четвертого курсов бакалавриата Института радиоэлектроники и информационных технологий (ИРИТ-РтФ) и Института фундаментального образования.

Фото: Сергей Логинов для 66.RU
Наукой Вячеслав начал заниматься еще на втором курсе бакалавриата.

Мы занимаемся несколькими темами. Во-первых, учим машину классифицировать текст. Нейросеть уже может отнести случайное предложение из текста к одной из 50 возможных категорий. Справляется лучше неподготовленного человека.

Во-вторых, учим наши нейросети осуществлять «перенос стиля». Например, задаем программе фразу: «Вам совсем не понравится эта еда, когда вы ее попробуете». На выходе должно быть: «Вам очень понравится эта еда, когда вы ее попробуете». То есть модель должна изменить стиль текста, не меняя смысл. Проект представили в ноябре 2019 года в Гонконге, на второй по важности NLP-конференции — «Эмпирические методы в обработке естественного языка» (2019 Conference on Empirical Methods in Natural Language Processing). Это результат мирового уровня.

«Наши нейросети помогли сделать открытие в лингвистике»

В-третьих, решаем одну из важных проблем лингвистики — звукосимволизм. Изучаем с помощью компьютерного моделирования, как звуки влияют на смысл слов. Раньше лингвисты проводили исследования «вручную». Мы первыми применили для этого нейронные сети. Анализируем тексты, смотрим, в каком контексте чаще встречается слово, и «маркируем» его звуки. Обнаружили, что в английском звук [I] ассоциируется с большим и страшным, а звук [ʌ] с медленным.

Фото: Сергей Логинов для 66.RU
«Меня всегда привлекали нестандартные, творческие задачи. Исследования позволяют совместить это «увлечение» с основной работой».

Чтобы обучить нейронную сеть, нужно обработать большие тексты – сотни тысяч документов. Требуются компьютеры с мощным графическим процессором и большой оперативной памятью. Такие используют в майнинговых фермах. Эта техника работает в десятки раз быстрее обычных компьютеров. Когда решали первую, не самую сложную задачу с классификацией текстов, на простом ПК это заняло двое суток. Сервер в УрФУ справился за два часа.

Дома удалось собрать собственный «суперкомпьютер». Он работает круглосуточно — постоянно что-то считает. Пока мощности хватает, но архитектуры нейронных сетей постоянно растут. Через год-два перестанут помещаться в память графического процессора. Поэтому сейчас в Центре цифровизации ИРИТ-РтФ создают новый вычислительный кластер. С ним сможем заняться новыми, более сложными задачами, и справляться с ними будем быстрее.

Текст: Кирилл Кирягин для 66.RU.

______________________

Проект «Человек наук» посвящен уральским ученым, которые меняют мир к лучшему. Их имена неизвестны широкой публике, но именно они развивают российскую науку. В каждой публикации журналисты 66.RU опускают свои дилетантские вопросы и оставляют ответы ученого в виде монолога.

Читайте все материалы по теме

Человек Наук

Чем на самом деле занимаются ученые УРФУ

NLP для искусственного интеллекта. Как роботы научились писать фейковые новости

«Алиса», скажи что-нибудь по-кхмерски!»

«Программа уже работает лучше человека»

«Наши нейросети помогли сделать открытие в лингвистике»

Человек Наук

Читайте нас в соцсетях: