Samara Portal Technology, Computers

Самарский портал "Технологии, компьютеры"

Много неясного в странной стране -
Можно запутаться и заблудиться...
Даже мурашки бегут по спине,
Если представить, что может случиться:

Вдруг будет пропасть - и нужен прыжок?
Струсишь ли сразу? Прыгнешь ли смело?
А? Э-э! Так-то, дружок,
В этом-то все и дело.

В. Высоцкий Песня Кэролла

На встрече самарского сообщества «ИТ для инноваций», которая состоялась 29 ноября 2018 года, коллеги из компании i-Sys Labs – директор по развитию Аркадий Золотовицкий

Статья Владислава Боярова.

и руководитель направления разработки интеллектуальных сервисов Михаил Богдан, рассказали о состоянии дел в этой области.

Статья Владислава Боярова.

Была продемонстрирована работа платформs DocTrix с чат-ботом, а также создание навыков для голосового помощника Алиса от компании Яндекс. В обоих случаях это были попытки уйти от жёстко структурированного интерфейса конкретного программного продукта и перейти к общению с пользователем на естественном языке: в первом случае текстом, во втором – голосом.

Статья Владислава Боярова.

На платформе DocTrix было продемонстрировано согласование командировки. Пользователь пишет в мессенджере, что хочет завтра поехать в Питер на два дня. ПО с учётом системной даты преобразовывает «завтра» в 30 ноября, Питер в Санкт-Петербург, дни командировки определяет, как 30 ноября и 1 декабря. Далее программа сообщает пользователю погоду в этом городе, и задаёт дополнительные вопросы о планируемых затратах и цели командировки. При этом подразумевается, что билеты будет заказывать секретарь по своему разумению. Возможно, когда решение о командировке сотруднику пришло в голову внезапно, и под рукой нет ноутбука, такая модель и оправдана, однако я с трудом представляю себе такую ситуацию.

Статья Владислава Боярова.

По моему опыту даже в самых простых случаях я сам открывал расписание и выбирал вид транспорта и рейс (№ поезда). Например, много лет я летал из Самары в Москву самолётом – утром туда, вечером обратно. При этом туда с учётом того, чтобы успеть к началу мероприятия (если оно начинается не очень рано, то зачем лететь первым рейсом?), а обратно – чтобы спокойно успеть к самолёту после его завершения. Однако могли быть какие-то дополнительные планы, влияющие на выбор рейсов.

А потом, после многих лет успешных полётов я по причине нелётной погоды два мероприятия (в том числе и встречу с Анатолием Чубайсом, что особенно обидно) пропустил, на третье опоздал. Кроме этого, в начале нулевых стоянка в аэропорту была бесплатной, потом цена всё время повышалась и дошла до неприемлемой для меня. И я пересел на поезд, но с теми же условиями. И если туда удобнее всего ехать было на «Жигулях», то обратно иногда приходилось и на ташкентском, а пару раз остаться на ночь, поскольку все поезда в сторону Самары уже заканчивались.

А была, к примеру, командировка в Киев, из которого мне надо было попасть в Москву, но, поскольку там был зазор, то я успел съездить на свои деньги на родину во Львов – и тут уже точно никакой чат-бот бы не справился с планированием.

Возможно, какая-нибудь формализация здесь бы помогла, но в этом случае пользователю надо помнить обо всех дефолтных соглашениях, например, что туда всегда летим, и всегда первым рейсом, а оттуда всегда последним, и что будет происходить в отсутствии билетов или в том случае, если в наличии только очень (чрезмерно) дорогие. И ещё запомнить, что Питер система понимает, а Ёбург – нет.

Следующий пример был с «Алисой», которая живёт в аппаратной мултимедиа-платформе Яндекс.Станция, а по простому – в умной колонке. Например, если Михаил представлялся ей как Богдан с ударением на первом слоге (он так и произносит свою фамилию), она распознавала это как «Bogdan» и, естественно, отказывалась его узнавать, поскольку пользователь «Михаил bogdan» в её списках не значился. Если же произносил с ударением на втором слоге, как имя Богдан, то всё получалось. Проблема в том, что это интеллектуальное устройство рассчитано исключительно на голосовое управление и не имеет подключения клавиатуры и мыши, поэтому исправить что-либо в неправильно распознанной голосовой команде невозможно.

Статья Владислава Боярова.

Несколько раз в процессе диалога Алиса внезапно заявляла, что потеряла нить беседы и просила начать всё сначала. Это при том, что предварительно указывался навык, закреплённый «учителем». Навык – это умение вести диалог на определённые темы, например, тот же заказ билетов. Навык регистрируется на Яндексе под уникальным именем и к нему есть пароль в форме кодового слова.

Однако этот навык «Алисы» предполагает и аналогичный навык пользователя, который смог бы разговаривать с «Алисой», точнее, с определённой разновидностью «Алисы» на присущем только ей одной языке. И здесь выражение «интуитивно-понятный интерфейс» приобретает издевательский смысл, поскольку на экране мы этот интерфейс видим и можем понять (пусть и не полностью) ещё до своего первого нажатия клавиши или клика мышки, в случае с голосом перед нами не только пустота, но и тишина!

Тут мы подходим, пожалуй, к самому главному: что голосового (звукового) интерфейса, аналогичного экранному (зрительному) быть не может, уж слишком разная природа этих наших чувств, воспринимаемой информации. А от самой голосовой системы требуется не выполнение конкретных команд, а понимание смысла, невидимого контекста сказанного. То есть, это не пользователь должен понимать интерфейс системы (как поймёшь пустоту и тишину), а система должна понять, кто перед ней и чего ему нужно.

Возможно, это задача в принципе неразрешима, поскольку в своём межчеловеческом общении мы пользуемся тем, что когда-то Cisco начала продвигать под названием унифицированные коммуникации: текст, голос и видео «в одном флаконе». В данном случае выход, возможно, будет в такой системе, которая бы позволяла непонятки (даже не могу назвать их ошибками) с распознаванием речи тут же поправить с клавиатуры. А если реальная потребность выходит за пределы процедуры, задуманной как стандартная, то использовать резервный вариант со свободным текстом, графическими эскизами, фото, видеозаписями и всем, что может понадобиться. И тогда на первое место встанет не совершенство голосового интерфейса, а лёгкость перехода с одного на другое средство коммуникации. Чтобы не прыгать через пропасть, а плавно подниматься.

P.S. На мой взгляд, явной ошибкой Яндекса была попытка установить в свой «Навигатор» вместо специализированного интерфейса, понимающего только адреса, универсальную «Алису». Смотрите сами, во что превратился в прошлом удобный продукт.

----

Куда движется розница?

Куда движется розница? Статья Владислава Боярова. 19.04.2024 г

Blood, Sweat & Tears, или Кровь, пот и слёзы – часть четвёртая

Blood, Sweat & Tears, или Кровь, пот и слёзы – часть четвёртая. Статья Владислава Боярова. 12.03.2024 г.

«КАТЮША» в «Пастернаке»: «КАТЮША»

«КАТЮША» в «Пастернаке»: «КАТЮША». Статья Владислава Боярова. 08.04.2024 г.

Pantum в Самаре: business as usual

Галопом по вычислительным Европам. Часть 10. Китайский путь и персональная безопасность.

Галопом по вычислительным Европам. Часть 10. Китайский путь и персональная безопасность. Статья Ильи Вайцмана. 11.12.2023 г.