NLP для искусственного интеллекта. Как роботы научились писать фейковые новости

Зачем ученым майнинговые фермы и можно ли собрать дома «суперкомпьютер»? Об этом рассказывает Вячеслав Шибаев, аспирант, сотрудник научной группы по NLP, который работает на кафедре интеллектуальных информационных технологий Института фундаментального образования УрФУ.

«Алиса», скажи что-нибудь по-кхмерски!»

Когда слышат «NLP», чаще думают о нейролингвистическом программировании. Нет. Это намного сложнее. Мы изучаем обработку естественного языка — Natural Language Processing. Учим компьютерные программы правильно понимать человека и разговаривать с ним на равных.

Фото: Сергей Логинов для 66.RU
«Чтобы обучить нейронную сеть, нужно обработать сотни тысяч документов».

Кому это нужно? Эти технологии использует почти каждый — в интернет-поисковиках, онлайн-переводчиках, виртуальных помощниках, таких как «Алиса», Siri, Cortana.

Сегодня программы справляются, когда переводят текст с распространенных языков — с русского на английский или немецкий. Если на языке написали мало текстов, которые можно изучить и сравнить с переводом, если язык редкий — такой как кхмерский, получится еще хуже. NLP в ближайшем будущем поможет в этом.

Виртуальные помощники сегодня — программы, которые только «маскируются» под человека. Они понимают и умеют выполнять ряд команд, но не в состоянии ответить на нестандартный вопрос и по-настоящему поддержать разговор.

Когда закончим работу, «Алису» или «Сири» можно будет не только спросить о погоде, попросить найти видео в интернете или завести будильник. С ними можно будет поговорить на любую тему: узнать, что помощник думает о книге или фильме, обсудить события в мире и в вашем дворе. Это будет не компьютер, который старается походить на человека. Это будет полноценный искусственный интеллект.

В США программа, основанная на нейронных сетях, работала журналистом: писала фейковые новости, которые очень трудно отличить от настоящих. Она «придумала» историю, что в США появилась компания по добыче полезных ископаемых на Луне. Компьютеры могут пока создавать только короткие тексты. Они быстро «забывают», о чем только что писали, не в состоянии связать конец с началом. Ученые пытаются научить их говорить и писать не хуже людей.

Фото: Сергей Логинов для 66.RU
Сейчас научная группа работает на одном из серверов УрФУ. В Центре цифровизации ИРИТ-РтФ строят новый вычислительный кластер для ученых и студентов.

Вычислительные ресурсы сегодня общедоступны, поэтому машинное обучение неизбежно эволюционирует. Его достижения заметно меняют рынок труда, вытесняя рутинные процессы. Поэтому, если рассуждать о востребованности профессий будущего, я бы ориентировался на деятельность с большим элементом творчества, то есть такую деятельность, которую сложно заменить машиной.

«Программа уже работает лучше человека»

Работа нашей группы началась с того, что директор Института фундаментального образования УрФУ Николай Хлебников связался с одним из мировых научных центров по обработке естественных языков – Институтом математики в науках сообщества Макса Планка (Max Planck Institute for Mathematics in the Sciences). Там мы познакомились с Иваном Ямщиковым, о котором много слышали по его работе в Яндексе и Abbyy, договорились сотрудничать.

Постепенно собралась научная группа из пяти человек. Двое живут в Германии: Иван в Лейпциге, Алексей Тихонов — из берлинского подразделения «Яндекса». Трое — в Екатеринбурге, аспиранты и магистр УрФУ. Помогают сорок пять студентов второго – четвертого курсов бакалавриата Института радиоэлектроники и информационных технологий (ИРИТ-РтФ) и Института фундаментального образования.

Фото: Сергей Логинов для 66.RU
Наукой Вячеслав начал заниматься еще на втором курсе бакалавриата.

Мы занимаемся несколькими темами. Во-первых, учим машину классифицировать текст. Нейросеть уже может отнести случайное предложение из текста к одной из 50 возможных категорий. Справляется лучше неподготовленного человека.

Во-вторых, учим наши нейросети осуществлять «перенос стиля». Например, задаем программе фразу: «Вам совсем не понравится эта еда, когда вы ее попробуете». На выходе должно быть: «Вам очень понравится эта еда, когда вы ее попробуете». То есть модель должна изменить стиль текста, не меняя смысл. Проект представили в ноябре 2019 года в Гонконге, на второй по важности NLP-конференции — «Эмпирические методы в обработке естественного языка» (2019 Conference on Empirical Methods in Natural Language Processing). Это результат мирового уровня.

«Наши нейросети помогли сделать открытие в лингвистике»

В-третьих, решаем одну из важных проблем лингвистики — звукосимволизм. Изучаем с помощью компьютерного моделирования, как звуки влияют на смысл слов. Раньше лингвисты проводили исследования «вручную». Мы первыми применили для этого нейронные сети. Анализируем тексты, смотрим, в каком контексте чаще встречается слово, и «маркируем» его звуки. Обнаружили, что в английском звук [I] ассоциируется с большим и страшным, а звук [ʌ] с медленным.

Фото: Сергей Логинов для 66.RU
«Меня всегда привлекали нестандартные, творческие задачи. Исследования позволяют совместить это «увлечение» с основной работой».

Чтобы обучить нейронную сеть, нужно обработать большие тексты – сотни тысяч документов. Требуются компьютеры с мощным графическим процессором и большой оперативной памятью. Такие используют в майнинговых фермах. Эта техника работает в десятки раз быстрее обычных компьютеров. Когда решали первую, не самую сложную задачу с классификацией текстов, на простом ПК это заняло двое суток. Сервер в УрФУ справился за два часа.

Дома удалось собрать собственный «суперкомпьютер». Он работает круглосуточно — постоянно что-то считает. Пока мощности хватает, но архитектуры нейронных сетей постоянно растут. Через год-два перестанут помещаться в память графического процессора. Поэтому сейчас в Центре цифровизации ИРИТ-РтФ создают новый вычислительный кластер. С ним сможем заняться новыми, более сложными задачами, и справляться с ними будем быстрее.

Текст: Кирилл Кирягин для 66.RU.

______________________

Проект «Человек наук» посвящен уральским ученым, которые меняют мир к лучшему. Их имена неизвестны широкой публике, но именно они развивают российскую науку. В каждой публикации журналисты 66.RU опускают свои дилетантские вопросы и оставляют ответы ученого в виде монолога.

Читайте все материалы по теме

Человек Наук

Чем на самом деле занимаются ученые УРФУ

Комментировать

0 комментариев

Дорогой читатель! Ваш комментарий отправляется на пре-модерацию и вскоре будет опубликован на портале. Спасибо за внимание к нашим материалам

Ссылки, начинающиеся с http:// автоматически становятся гиперссылками.
Также можно использовать теги оформления

Форматирование текста

[b] [/b] – выделенный тегом [b] текст отображается жирным;
[i] [/i] – выделенный тегом [i] текст отображается наклонным;
[s] [/s] – выделенный тегом [s] текст отображается ~~зачеркнутым~~;
[left] [/left], [center] [/center], [right] [/right] - выделенный этими тегами текст выравнивается по левому, правому краям или по центру;
[quote][/quote] – выделенный текст выводится цитатой.

Вставки в текст

[url=//66.ru]Это ссылка на сайт[/url] – добавляет ссылку в текст;
[user]НИКНЕЙМ[/user] – добавляет ссылку на пользователя НИКНЕЙМ, если он зарегистрирован на 66.ru. Если такого пользователя нет, то имя выводится обычным текстом. В теге [user] [/user] можно указать ID пользователя на сайте. Это тоже сработает;
[img] [/img] – вставляет изображение. Между тегами указывайте полный адрес картинки в интернете;
[photo] [/photo] – вставляет картинку, если между тегами указан ID фотографии из фотоальбомов 66.ru. Готовый код для вставки фотографии можно получить на странице любой незакрытой фотографии;
[video] [/video] – вставляет видеоролик, если между тегами указан ID видеоролика, загруженного на 66.ru;
[photoalbum] [/photoalbum] – вставляет фотоальбом с прокруткой, если между тегами указан ID альбома. Готовый код для вставки можно получить на странице любого незакрытого фотоальбома;
[audio] [/audio] – вставляет mp3 файл, предварительно загруженный на 66. Тоже по ID;
[---cut---] – используется только в текстах постов. Скрывает под кат часть текста, следующую за тегом (будет написано «читать далее»).

	Вы уверены, что хотите удалить запись?