Зачем ученым майнинговые фермы и можно ли собрать дома «суперкомпьютер»? Об этом рассказывает Вячеслав Шибаев, аспирант, сотрудник научной группы по NLP, который работает на кафедре интеллектуальных информационных технологий Института фундаментального образования УрФУ.
«Алиса», скажи что-нибудь по-кхмерски!»
Когда слышат «NLP», чаще думают о нейролингвистическом программировании. Нет. Это намного сложнее. Мы изучаем обработку естественного языка — Natural Language Processing. Учим компьютерные программы правильно понимать человека и разговаривать с ним на равных.
Фото: Сергей Логинов для 66.RU |
---|
«Чтобы обучить нейронную сеть, нужно обработать сотни тысяч документов». |
Кому это нужно? Эти технологии использует почти каждый — в интернет-поисковиках, онлайн-переводчиках, виртуальных помощниках, таких как «Алиса», Siri, Cortana.
Сегодня программы справляются, когда переводят текст с распространенных языков — с русского на английский или немецкий. Если на языке написали мало текстов, которые можно изучить и сравнить с переводом, если язык редкий — такой как кхмерский, получится еще хуже. NLP в ближайшем будущем поможет в этом.
Виртуальные помощники сегодня — программы, которые только «маскируются» под человека. Они понимают и умеют выполнять ряд команд, но не в состоянии ответить на нестандартный вопрос и по-настоящему поддержать разговор.
Когда закончим работу, «Алису» или «Сири» можно будет не только спросить о погоде, попросить найти видео в интернете или завести будильник. С ними можно будет поговорить на любую тему: узнать, что помощник думает о книге или фильме, обсудить события в мире и в вашем дворе. Это будет не компьютер, который старается походить на человека. Это будет полноценный искусственный интеллект.
В США программа, основанная на нейронных сетях, работала журналистом: писала фейковые новости, которые очень трудно отличить от настоящих. Она «придумала» историю, что в США появилась компания по добыче полезных ископаемых на Луне. Компьютеры могут пока создавать только короткие тексты. Они быстро «забывают», о чем только что писали, не в состоянии связать конец с началом. Ученые пытаются научить их говорить и писать не хуже людей.
Фото: Сергей Логинов для 66.RU |
---|
Сейчас научная группа работает на одном из серверов УрФУ. В Центре цифровизации ИРИТ-РтФ строят новый вычислительный кластер для ученых и студентов. |
Вычислительные ресурсы сегодня общедоступны, поэтому машинное обучение неизбежно эволюционирует. Его достижения заметно меняют рынок труда, вытесняя рутинные процессы. Поэтому, если рассуждать о востребованности профессий будущего, я бы ориентировался на деятельность с большим элементом творчества, то есть такую деятельность, которую сложно заменить машиной.
«Программа уже работает лучше человека»
Работа нашей группы началась с того, что директор Института фундаментального образования УрФУ Николай Хлебников связался с одним из мировых научных центров по обработке естественных языков – Институтом математики в науках сообщества Макса Планка (Max Planck Institute for Mathematics in the Sciences). Там мы познакомились с Иваном Ямщиковым, о котором много слышали по его работе в Яндексе и Abbyy, договорились сотрудничать.
Постепенно собралась научная группа из пяти человек. Двое живут в Германии: Иван в Лейпциге, Алексей Тихонов — из берлинского подразделения «Яндекса». Трое — в Екатеринбурге, аспиранты и магистр УрФУ. Помогают сорок пять студентов второго – четвертого курсов бакалавриата Института радиоэлектроники и информационных технологий (ИРИТ-РтФ) и Института фундаментального образования.
Фото: Сергей Логинов для 66.RU |
---|
Наукой Вячеслав начал заниматься еще на втором курсе бакалавриата. |
Мы занимаемся несколькими темами. Во-первых, учим машину классифицировать текст. Нейросеть уже может отнести случайное предложение из текста к одной из 50 возможных категорий. Справляется лучше неподготовленного человека.
Во-вторых, учим наши нейросети осуществлять «перенос стиля». Например, задаем программе фразу: «Вам совсем не понравится эта еда, когда вы ее попробуете». На выходе должно быть: «Вам очень понравится эта еда, когда вы ее попробуете». То есть модель должна изменить стиль текста, не меняя смысл. Проект представили в ноябре 2019 года в Гонконге, на второй по важности NLP-конференции — «Эмпирические методы в обработке естественного языка» (2019 Conference on Empirical Methods in Natural Language Processing). Это результат мирового уровня.
«Наши нейросети помогли сделать открытие в лингвистике»
В-третьих, решаем одну из важных проблем лингвистики — звукосимволизм. Изучаем с помощью компьютерного моделирования, как звуки влияют на смысл слов. Раньше лингвисты проводили исследования «вручную». Мы первыми применили для этого нейронные сети. Анализируем тексты, смотрим, в каком контексте чаще встречается слово, и «маркируем» его звуки. Обнаружили, что в английском звук [I] ассоциируется с большим и страшным, а звук [ʌ] с медленным.
Фото: Сергей Логинов для 66.RU |
---|
«Меня всегда привлекали нестандартные, творческие задачи. Исследования позволяют совместить это «увлечение» с основной работой». |
Чтобы обучить нейронную сеть, нужно обработать большие тексты – сотни тысяч документов. Требуются компьютеры с мощным графическим процессором и большой оперативной памятью. Такие используют в майнинговых фермах. Эта техника работает в десятки раз быстрее обычных компьютеров. Когда решали первую, не самую сложную задачу с классификацией текстов, на простом ПК это заняло двое суток. Сервер в УрФУ справился за два часа.
Дома удалось собрать собственный «суперкомпьютер». Он работает круглосуточно — постоянно что-то считает. Пока мощности хватает, но архитектуры нейронных сетей постоянно растут. Через год-два перестанут помещаться в память графического процессора. Поэтому сейчас в Центре цифровизации ИРИТ-РтФ создают новый вычислительный кластер. С ним сможем заняться новыми, более сложными задачами, и справляться с ними будем быстрее.
Текст: Кирилл Кирягин для 66.RU. |
______________________
Проект «Человек наук» посвящен уральским ученым, которые меняют мир к лучшему. Их имена неизвестны широкой публике, но именно они развивают российскую науку. В каждой публикации журналисты 66.RU опускают свои дилетантские вопросы и оставляют ответы ученого в виде монолога.