Устройства Силиконовой долины: «Siri» в спальне, понятливые боты и роботы-юристы
Мир гаджетов в центре мировых IT-технологий. Часть 4: искусственный интеллект в семейной спальне, диалог как способ поиска и умные «цифровые» собеседники
Колумнист «Реального времени» Александр Галкин из Силиконовой (Кремниевой) долины продолжает удивлять читателей «Реального времени» новыми девайсами, которые появляются в Калифорнии. В сегодняшней колонке инженер корпорации Microsoft рассказывает о роботах, которые могут заменить собой представителей различных профессий: библиотекарей, диджеев, юристов, кулинаров и услужливых консьержей.
Активация голосом
Значительный прогресс в области распознавания речи стал одновременно и причиной бурного роста использования искусственного интеллекта (ИИ) в быту и, ввиду массового использования данной технологии, привел к довольно высокой точности распознавания, даже невзирая на акцент или дефекты речи, а также фоновые шумы.
Распознавание речи во многом основано на технологии нейронных сетей. Одной из особенностей этих сетей является возможность обучения ее реагировать только на одну определенную фразу. Такая нейронная сеть может постоянно «слушать» информацию с микрофона устройства, но только когда прозвучит заветная фраза, сеть среагирует и включит устройство или запустит программу-помощник.
Это позволило создать помощников нового поколения, для активации которых не нужно больше самому запускать их приложение или нажимать на какую-либо кнопку — достаточно лишь сказать «Hey, Siri» или «OK, Google», как помощник автоматически активируется и начнет бойко обрабатывать информацию: вопрос, поисковый запрос или команду (например, позвонить кому-то из списка контактов).
Искусственный интеллект в семейной спальне — AmazonEcho и Alexa
Если еще до недавнего времени основным местом «проживания» ИИ был мобильный телефон или в лучшем случае «умные» часы, то недавно компания Amazon вывела на рынок действительно очень инновационное устройство — «умную» колонку Echo с интеллектом Alexa.
Выглядящая как небольшая башенка, эта колонка умеет сама соединяться с Интернетом и позволяет общаться с встроенным в нее ИИ при помощи обращения «Alexa». Характерной особенностью ее является принципиальное отсутствие экрана (такие устройства называются headless), хотя она и позволяет установить специальное приложение на мобильный телефон и привязать ее к этому приложению, в котором будет показываться дополнительная информация, а также дублироваться, что было услышано и какой ответ на это был дан. Тот факт, что по умолчанию устройство не имеет экрана, сделало его очень популярным для помещения в семейную спальню, где многие не хотят видеть какие-либо устройства с электронными экранами.
Для улучшения качества распознавания речи в Echo не один, а целых 7 специальных микрофонов, что позволяет ей отлично распознавать речь с расстояния в 4-5 метров (из другой комнаты) даже при довольно высоком уровне шума (far-field voice recognition).
Также особенностью этого устройства является то, что оно привязано к профилю в электронном магазине Amazon. То есть ИИ здесь не доступны электронные сообщения, как в случае с Google, но здесь в его распоряжении находится вся информация о заказах пользователя, а также огромная частично бесплатная коллекция музыки и фильмов (идет как часть подписки Prime).
Таким образом, Alexa ориентирована в первую очередь на прослушивание музыки: за счет своих габаритов она создает объемный звук очень неплохого качества и способна проигрывать музыку как из магазина Amazon и подписки Prime, так и с различных интернет-радио. Она понимает команды, относящиеся к поиску и проигрыванию музыки: тише/громче, повтори последние 5 композиций, выключи музыку через 30 минут (идеально для тех, кто хочет уснуть под музыку), разбуди меня определенной композицией в 7 утра и так далее.
Кроме этого, она способна ответить на большое число различных вопросов о текущем времени, о погоде на ближайшие 10 дней, о курсах валют и акций, о времени восхода и заката, а также знает много шуток: например, на вопрос о возрасте она называет возраст с момента включения первого устройства, на вопрос о «друге» она отвечает, что друга у нее нет, но есть привязанность — к розетке (используется игра слов: в английском attachment может означать привязанность в смысле отношений, а также и физическое соединение) и так далее.
Одновременно с этим Echo можно использовать для заказа товаров в интернет-магазине. Учитывая тот факт, что Alexa имеет доступ к предыдущим заказам пользователя, она автоматически при заказе старается подобрать товар, близкий к тому, что уже заказывался раньше. Когда я как-то попросил ее: «Алекса, купи мне две пачки порошка», то она мне ответила: «Полгода назад вы заказывали порошок Х, я добавлю две пачки этого порошка к вам в виртуальную корзину».
Так как Алекса не в состоянии распознавать голос, а потому она выполнит команду любого, то опцию покупки можно либо защитить цифровым кодом, либо полностью отключить.
Отдельно стоит упомянуть, что Alexa — это единственный помощник на сегодня, который поддерживает «приложения»: по сути, это те же чат-роботы, к разговору о которых мы сейчас перейдем. Они расширяют возможности Alexa различными играми (например, «балда», «виселица» или «как пишется это слово» (spelling bee)), а также полезными функциями, которые еще не доступны интеллекту Alexa (например, расписание местных электричек).
Поиск в виде разговора и эра (ро)ботов
Появление персонифицированных форм поискового ИИ неумолимо привело и к изменению подхода к самому поиску. Долгое время продвинутые пользователи для фильтрации нежелательной информации полагались на специальный язык запросов, позволявший не только указывать, какие слова пользователь хочет найти, но и какие не хочет найти на страницах, а также указать расстояние между этими словами в документе. При этом каждый запрос к поисковой системе, как правило, рассматривался отдельно и вне контекста предыдущих и последующих запросов. Такой подход позволяет распределить задачи по поиску и выдаче информации для пользователя между разными наборами серверов, доступных в момент получения каждого запроса. Именно оптимизация поиска и его распределения по десяткам и сотням серверов позволяет поисковым системам формировать ответ на запрос практически в реальном времени (на практике — за время, не превышающее одну секунду).
Однако, из-за этой «независимости» между отдельными запросами, диалог между пользователем и поисковой системой напоминает разговор невропатолога с пациентом, страдающим постоянными провалами в памяти и не помнящим, о чем шла речь в предыдущем вопросе. Такое общение, конечно, противоестественно. И следующим логичным шагом стало развитие алгоритмов искусственного интеллекта и инфраструктуры данных, которые не только понимают, чего хочет пользователь, но также способны выделить и некоторое время хранить в памяти сервера еще и контекст — о чем шла речь. Наличие контекста — пусть даже только на протяжении всего лишь нескольких фраз — позволяет использовать систему гораздо гибче и эффективнее, как мы уже видели это на примере помощника Cortana.
С появлением контекста стало бурно развиваться такое направление искусственного интеллекта, как разговор или поиск в виде разговора (conversational search). Суть его сводится к тому, что для поиска информации человек общается с системой или роботом (традиционно сокращаемом до просто «бот»), задает уточняющие вопросы и получает на них ответы. Этот подход оказался настолько успешным, что за последние полгода начался бум чат-ботов — роботов, зарегистрированных в различных программах передачи моментальных сообщений (прежде всего Telegram, но также и Slack и Skype), выполняющих те или иные функции. Каждый из роботов обучен для выполнения определенной задачи (чаще всего — консультативной) и позволяет общаться с ним на простом, но тем не менее обычном языке (чаще всего — английском).
Что же умеют такие роботы? Вот несколько примеров
Робот-библиотекарь электронной библиотеки (например, такой есть у «Флибусты») ищет по запросам книги и «выдает» их, посылая пользователю прямую ссылку для скачивания книги.
Робот-юрист, разработанный одним студентом из Лондона, помогает разобраться с не всегда корректными штрафами за парковку: задав вам серию наводящих вопросов, робот определяет шансы на подачу апелляции. И если они высокие, то составляет эту апелляцию для вас. Из 250 тыс. поданных роботом апелляций 160 тыс. были удовлетворены, и были отменены штрафы на общую сумму около 4 млн фунтов стерлингов.
Робот-кулинар в системе Telegram на основании имеющихся продуктов и предпочтений постарается найти оптимальный рецепт и объяснит вам его по шагам.
Робот по имени Jack, который скоро должен стать доступен в виде приложения для iPhone, хорошо разбирается в ресторанах и может порекомендовать вам ресторан на основе ваших предпочтений, показать меню и даже зарезервировать стол.
Робот-консьерж, разработанный сотрудниками компании Microsoft, принимает от работников пожелания о том, какая музыка должна звучать в кафетериях, и составляет на основании этих пожеланий музыкальную программу.
Я лишь привел примеры тех роботов, с которыми сталкивался, но в настоящее время идет просто бум чат-роботов: несколько десятков появляется каждый день, и уровень их возможностей и интеллекта постоянно растет. Очень скоро, по всей вероятности, роботы станут хорошей альтернативой в сфере обслуживания — продажа билетов, выбор товаров в магазине и так далее.
А пока крупные американские магазины, такие как Walgreens и Toys R US, о которых я рассказывал несколько месяцев назад, разрабатывают системы навигации по своим торговым залам, используя технологии дополненной реальности (AR, Augmented Reality). О них подробно мы поговорим в следующий раз.
Подписывайтесь на телеграм-канал, группу «ВКонтакте» и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube, «Дзене» и Youtube.
Справка
Галкин Александр Владимирович — инженер-разработчик в компании Microsoft; администратор и бюрократ «Википедии» на языке эсперанто; полиглот.
- Родился 26 февраля 1979 года в Казани.
- В 1996 году окончил с золотой медалью казанскую гимназию №102.
- В 2002 году с красным дипломом окончил педиатрический факультет Казанского государственного медицинского университета.
- С 2002 по 2005 годы работал в Институте нейробиологии в Берлине.
- В 2012 году окончил Технический университет Гамбурга.
- С 2013 года работает в компании Microsoft инженером (Software Development Engineer) в подразделении поисковика Bing. Офис расположен в Sunnyvale, Калифорния.
- Свободно владеет русским, татарским, английским, немецким, французским и эсперанто. Также разговаривает на итальянском и испанском языках.
- Автор статей на различные темы на habrahabr.ru, geektimes.ru, pikabu.ru. Колумнист «Реального времени».