Зачем ученым майнинговые фермы и можно ли собрать дома «суперкомпьютер»? Об этом рассказывает Вячеслав Шибаев, аспирант, сотрудник научной группы по NLP, который работает на кафедре интеллектуальных информационных технологий Института фундаментального образования УрФУ.
Когда слышат «NLP», чаще думают о нейролингвистическом программировании. Нет. Это намного сложнее. Мы изучаем обработку естественного языка — Natural Language Processing. Учим компьютерные программы правильно понимать человека и разговаривать с ним на равных.
Фото: Сергей Логинов для 66.RU |
---|
«Чтобы обучить нейронную сеть, нужно обработать сотни тысяч документов». |
Кому это нужно? Эти технологии использует почти каждый — в интернет-поисковиках, онлайн-переводчиках, виртуальных помощниках, таких как «Алиса», Siri, Cortana.
Сегодня программы справляются, когда переводят текст с распространенных языков — с русского на английский или немецкий. Если на языке написали мало текстов, которые можно изучить и сравнить с переводом, если язык редкий — такой как кхмерский, получится еще хуже. NLP в ближайшем будущем поможет в этом.
Виртуальные помощники сегодня — программы, которые только «маскируются» под человека. Они понимают и умеют выполнять ряд команд, но не в состоянии ответить на нестандартный вопрос и по-настоящему поддержать разговор.
Когда закончим работу, «Алису» или «Сири» можно будет не только спросить о погоде, попросить найти видео в интернете или завести будильник. С ними можно будет поговорить на любую тему: узнать, что помощник думает о книге или фильме, обсудить события в мире и в вашем дворе. Это будет не компьютер, который старается походить на человека. Это будет полноценный искусственный интеллект.
В США программа, основанная на нейронных сетях, работала журналистом: писала фейковые новости, которые очень трудно отличить от настоящих. Она «придумала» историю, что в США появилась компания по добыче полезных ископаемых на Луне. Компьютеры могут пока создавать только короткие тексты. Они быстро «забывают», о чем только что писали, не в состоянии связать конец с началом. Ученые пытаются научить их говорить и писать не хуже людей.
Фото: Сергей Логинов для 66.RU |
---|
Сейчас научная группа работает на одном из серверов УрФУ. В Центре цифровизации ИРИТ-РтФ строят новый вычислительный кластер для ученых и студентов. |
Вычислительные ресурсы сегодня общедоступны, поэтому машинное обучение неизбежно эволюционирует. Его достижения заметно меняют рынок труда, вытесняя рутинные процессы. Поэтому, если рассуждать о востребованности профессий будущего, я бы ориентировался на деятельность с большим элементом творчества, то есть такую деятельность, которую сложно заменить машиной.
Работа нашей группы началась с того, что директор Института фундаментального образования УрФУ Николай Хлебников связался с одним из мировых научных центров по обработке естественных языков – Институтом математики в науках сообщества Макса Планка (Max Planck Institute for Mathematics in the Sciences). Там мы познакомились с Иваном Ямщиковым, о котором много слышали по его работе в Яндексе и Abbyy, договорились сотрудничать.
Постепенно собралась научная группа из пяти человек. Двое живут в Германии: Иван в Лейпциге, Алексей Тихонов — из берлинского подразделения «Яндекса». Трое — в Екатеринбурге, аспиранты и магистр УрФУ. Помогают сорок пять студентов второго – четвертого курсов бакалавриата Института радиоэлектроники и информационных технологий (ИРИТ-РтФ) и Института фундаментального образования.
Фото: Сергей Логинов для 66.RU |
---|
Наукой Вячеслав начал заниматься еще на втором курсе бакалавриата. |
Мы занимаемся несколькими темами. Во-первых, учим машину классифицировать текст. Нейросеть уже может отнести случайное предложение из текста к одной из 50 возможных категорий. Справляется лучше неподготовленного человека.
Во-вторых, учим наши нейросети осуществлять «перенос стиля». Например, задаем программе фразу: «Вам совсем не понравится эта еда, когда вы ее попробуете». На выходе должно быть: «Вам очень понравится эта еда, когда вы ее попробуете». То есть модель должна изменить стиль текста, не меняя смысл. Проект представили в ноябре 2019 года в Гонконге, на второй по важности NLP-конференции — «Эмпирические методы в обработке естественного языка» (2019 Conference on Empirical Methods in Natural Language Processing). Это результат мирового уровня.
В-третьих, решаем одну из важных проблем лингвистики — звукосимволизм. Изучаем с помощью компьютерного моделирования, как звуки влияют на смысл слов. Раньше лингвисты проводили исследования «вручную». Мы первыми применили для этого нейронные сети. Анализируем тексты, смотрим, в каком контексте чаще встречается слово, и «маркируем» его звуки. Обнаружили, что в английском звук [I] ассоциируется с большим и страшным, а звук [ʌ] с медленным.
Фото: Сергей Логинов для 66.RU |
---|
«Меня всегда привлекали нестандартные, творческие задачи. Исследования позволяют совместить это «увлечение» с основной работой». |
Чтобы обучить нейронную сеть, нужно обработать большие тексты – сотни тысяч документов. Требуются компьютеры с мощным графическим процессором и большой оперативной памятью. Такие используют в майнинговых фермах. Эта техника работает в десятки раз быстрее обычных компьютеров. Когда решали первую, не самую сложную задачу с классификацией текстов, на простом ПК это заняло двое суток. Сервер в УрФУ справился за два часа.
Дома удалось собрать собственный «суперкомпьютер». Он работает круглосуточно — постоянно что-то считает. Пока мощности хватает, но архитектуры нейронных сетей постоянно растут. Через год-два перестанут помещаться в память графического процессора. Поэтому сейчас в Центре цифровизации ИРИТ-РтФ создают новый вычислительный кластер. С ним сможем заняться новыми, более сложными задачами, и справляться с ними будем быстрее.
Текст: Кирилл Кирягин для 66.RU. |
______________________
Проект «Человек наук» посвящен уральским ученым, которые меняют мир к лучшему. Их имена неизвестны широкой публике, но именно они развивают российскую науку. В каждой публикации журналисты 66.RU опускают свои дилетантские вопросы и оставляют ответы ученого в виде монолога.