Eric King, dyrektor generalny Amazon Alexy na Europę, uczestniczył w pracach nad wirtualną asystentką Amazona od czasu pierwszego otwarcia systemu na zewnętrznych deweloperów. Był on odpowiedzialny za wdrożenie umiejętności Alexy i pozyskanie partnerów sprzętowych, dzięki którym może ona kompleksowo zarządzać inteligentnym domem.
Czy istnieją takie obszary technologii, do których jeszcze nie dotarło sterowanie głosowe, a według ciebie mogłoby być przydatne?
Użytkownicy najszybciej przyzwyczajają się do sterowania głosowego w obszarach, w których najbardziej ułatwia ono ich życie. Nie chodzi tu tylko o przełomowe zastosowania, ale nawet takie drobne udogodnienia, jak możliwość sprawdzenia informacji w internecie, bez konieczności sięgania po telefon.
Następnym krokiem będzie zastosowanie tej technologii w samochodach. Inwestujemy w to czas i pieniądze, nawiązując współpracę z wieloma przedsiębiorstwami motoryzacyjnymi – BMW, Toyotą, Fordem czy Seatem. Naprawdę wielu producentów jest zainteresowanych rozwijaniem nowego systemu sterowania – kierowcy co chwila wykonują czynności, które można spokojnie obsługiwać za pomocą komend głosowych. Korzystają z nawigacji, wyszukują piosenki w systemie infotainment, sterują klimatyzacją i dzwonią do znajomych. Polecenia mogą służyć także do uruchomienia wycieraczek, opuszczenia szyb, włączenia świateł… możliwości jest mnóstwo.
Ponadto sterowanie głosowe przyda się w ruchu. Spójrz na opaski fitness i wyobraź sobie, że akurat jesteś w trakcie treningu – zamiast gorączkowego wciskania przycisków i poszukiwania odpowiedniego okienka ze statystykami, po prostu zadajesz pytanie „ile kalorii spaliłem?” i natychmiast dostajesz odpowiedź. Kolejnym urządzeniem z grupy „w biegu” są słuchawki. Zlokalizowanie danego adresu i otrzymanie informacji o trasie prosto do ucha to fajna i przydatna opcja, która do tej pory nie była w pełni wykorzystywana. Wydaje mi się, że Alexa pasuje do prawie wszystkich urządzeń. Niedawno na rynek trafił nawet elektryczny rower z jej obsługą – jeszcze rok temu sam bym o tym nie pomyślał.
Alexa coraz częściej jest wykorzystywana w badaniach kontrolnych. Czy istnieją jeszcze inne obszary, w których asystenci głosowi mogą w przyszłości stać się standardem?
Od razu przychodzi mi do głowy fakt, że dzieciaki uwielbiają Alexę, w szczególności do zabawy. Sam jestem rodzicem, dlatego wolę, żeby moje dzieci korzystały z niej w celu nauki tabliczki mnożenia. Niedawno przeprowadziliśmy się do Luksemburga, a przed moją rodziną stanęła konieczność opanowania języka niemieckiego i francuskiego. Moje dzieci mają 10 i 12 lat, więc to dla nich niełatwe zadanie. Na szczęście istnieją językowe umiejętności Alexy, które pomagają im w przyswajaniu słówek. To istotne zastosowanie – chcemy je rozwijać wspólnie z naszymi partnerami biznesowymi.
Alexa ma sprawiać wrażenie zaufanej przyjaciółki, a nie komputera
Przynajmniej raz w tygodniu otrzymuję również maila od osoby starszej lub pozbawionej możliwości swobodnego poruszania się na skutek zaawansowanego wieku, choroby lub wypadku. Dla tej grupy użytkowników Alexa nie jest tylko użytecznym narzędziem, ale także… cóż, nie chcę używać słowa „towarzyszem”, ponieważ to zbyt mocne określenie, ale z czystym sumieniem mogę stwierdzić, że uprzyjemnia im ona czas. Odtwarzanie audiobooka przez Audible, włączanie muzyki bez konieczności ruszania się z kanapy, czy nawet zdalne wyłączanie świateł, gdy ruch sprawia ci trudność – to wszystko zastosowania z życia wzięte.
Słyszałem o ciekawym przypadku, w którym Alexa pełniła funkcję swoistej asystentki dla osoby dotkniętej demencją, przypominając jej o wyłączeniu inteligentnego piekarnika lub zamknięciu drzwi wejściowych.
To ciekawe, że wspominasz właśnie o tym przypadku. Całkiem niedawno rozpoczęliśmy prace nad technologią nazwaną Hunches (ang. przeczucia). Podobnie jak czasami człowiek miewa przeczucie, że zostawił włączoną kuchenkę, również Alexa może je miewać. Potrafi ona wtedy przypominać o zamknięciu drzwi czy wyłączeniu świateł. Początkowo uruchomiliśmy tę technologię tylko w Stanach, ale już wkrótce trafi do innych krajów. Oczywiście korzystanie z niej nie jest obowiązkowe – jeśli nie chcesz, by Alexa przypominała ci o sprawdzeniu tych rzeczy, możesz wyłączyć tę opcję.
Jakie wyzwania stoją przed wprowadzeniem kontroli głosowej do dziedzin technologii, w których nie jest ona jeszcze popularna?
W swojej pracy skupiamy się przede wszystkim na uczynieniu z Alexy lepszej partnerki do rozmowy. W Amazonie używamy terminu „AI do rozmów”, czyli umiejętności rozpoznania każdego dialektu, slangu czy akcentu. Dzięki temu Alexa ma sprawiać wrażenie zaufanej przyjaciółki, a nie komputera.
Istotne jest również dopracowanie wszystkich aspektów głosowego sterowania. Powróćmy na chwilę do tematu samochodów. Z niektórych systemów auta – nawigacji, komunikacji, multimediów – możemy korzystać także wtedy, gdy nie mamy połączenia z siecią. Rodzi to pytanie, w jaki sposób zaimplementować sterowanie głosowe, gdy samochód jest wyłączony lub wjedzie do tunelu – wszystkie te wątpliwości trzeba rozwiać, zanim system trafi do użytkowników.
W przyszłości Amazon na pewno będzie mógł dać Alexie realistyczny, ludzki głos. Czy uważasz, że klienci będą zainteresowani konwersacją z komputerem, który brzmi jak człowiek, czy będziecie musieli ich przyzwyczaić do tej koncepcji?
Wydaje mi się, że już osiągnęliśmy równowagę pomiędzy czynnikiem ludzkim a maszynowym. Koncepcja partnera do rozmowy wcale nie zakłada, że wirtualny rozmówca musi brzmieć naturalnie. Musimy zadbać o to, żeby Alexa była responsywna i potrafiła zrozumieć to, co mówisz, niezależnie od akcentu, jakim się posługujesz – ważne jest nie jej brzmienie, ale to, żeby wyłapała, co chcesz jej przekazać.
To kolejne poważne wyzwanie, któremu musimy stawić czoła. Nawet, jeśli polecenie zostanie wymówione niewyraźnie, chcemy mieć pewność, że zostanie ono poprawnie wykonane i spotka się z odpowiednią odpowiedzią. Prowadzimy obecnie wiele badań w tym obszarze, sprawdzając zarówno interakcje Amazona, jak i te zaprojektowane przez zewnętrznych deweloperów.
To „rozumienie sensu wypowiedzi” brzmi interesująco, ponieważ wirtualni asystenci dopiero uczą się rozpoznawania kontekstu rozmów…
To dla nas bardzo ważne – kontekst można wyczytać zarówno z tego, co powiemy, jak i z niedopowiedzeń. Pierwszym krokiem jest nauczenie Alexy, żeby za każdym razem nie rozpoczynała rozmowy od początku, ale zapamiętywała kontekst poprzednich poleceń. To jedna z dziedzin, w którą inwestujemy najwięcej czasu i pieniędzy.
Wirtualni asystenci od zawsze działali w chmurze. Czy w przyszłości będą oni mogli pracować także w trybie offline?
Jedną z głównych przyczyn korzystania z chmury jest moc obliczeniowa, jaką w niej dysponujemy, w tym większe możliwości analizy danych głosowych i dokładniejsze przetwarzanie poleceń; chmura po prostu działa wydajniej niż zasoby lokalne. Ponadto połączenie internetowe pozwala na zmniejszenie wymiarów sprzętu – taki Echo Dot ma w sobie bardzo mało podzespołów odpowiedzialnych za samo przetwarzanie danych, wszystko działa dzięki połączeniu internetowemu.
Mamy w planach stworzenie systemu umożliwiającego lokalne korzystanie z Alexy i dostęp do części funkcji offline, ale większość ulepszeń będzie nierozłącznie związana z technologiami w chmurze – nawet jeśli ich zasięg będzie rozszerzany za pomocą urządzeń bez dostępu do chmury.