Nie tylko o bajtach
Asystent głosowy — pomoc czy zagrożenie?

Po pierwsze: proszę, nie oczekujcie ode mnie obiektywnej opinii o asystentach głosowych. Alexa i spółka irytowały mnie zbyt często, aby zachować obiektywizm i ocenić je sprawiedliwie. Aby osiągnąć taki stan, nie potrzebowałem nawet własnego asystenta: wystarczyły wizyty w mniej lub bardziej „inteligentnych” domach moich znajomych.
Oczywiście sterowanie głosem i automatyzacja domu nie zawsze są bezcelowe — w pewnych sytuacjach Bixby, Cortana, Google Now i Siri mogą być naprawdę pomocne. Jeśli obie dłonie muszą pozostać na kierownicy lub masz ręce w gipsie, faktycznie przydaje się asystent sterowany głosem.
Podobnie jak wiele innych cyfrowych wynalazków, asystent głosowy równie dobrze może być przekleństwem jak dobrodziejstwem. Spróbuję pomóc w porównaniu jego zalet i wad.
Pewnego dnia przyjaciel przesłał mi żart, którego nie mogę już znaleźć, więc postaram się go zacytować z pamięci. „W latach osiemdziesiątych ubiegłego wieku martwiliśmy się: to straszne, szpiegują nas ukryte urządzenia podsłuchowe! W 2019 roku natomiast: hej, urządzenie podsłuchowe, nie zapomnij o dodaniu papieru toaletowego do mojej listy zakupów”.
Obecnie można nawet wybrać, kto ma nas podsłuchiwać. Najbardziej znani asystenci głosowi to Alexa firmy Amazon, Siri z Apple, Asystent Google, Cortana firmy Microsoft i Bixby z Samsunga. Technologia rozpoznawania mowy jest używana również w infoliniach firm — do notowania danych i numerów telefonów klientów oraz rejestrowania zgłoszeń błędów. Nie zapominajmy też o mojej ulubionej funkcji głosowej w systemie GPS samochodu, do której najlepiej pasuje określenie „uparty jak osioł”.
Sami z siebie asystenci niewiele mogą
Sam asystent głosowy może dostarczyć tylko nieco więcej niż podstawowe informacje: jaka jest pogoda, jakie są najnowsze wiadomości, gdzie obecnie grają film o Spidermanie. Do działania potrzebuje dodatkowego sprzętu do automatyzacji domu, czyli zahaczamy o modne marketingowe pojęcie „inteligentny dom”.
Inteligentne domy to kolejki elektryczne XXI wieku. Z jednej strony rozumiem zadowolenie, gdy wystarczy wypowiedzieć kilka słów, aby wyłączyć światło na parterze, zamiast kolejny raz schodzić po schodach. A z drugiej strony to radość tak dziecinna, jak wtedy, gdy maleńkie szlabany opuszczają się automatycznie na miniaturowym przejeździe kolejowym, zanim przemknie elektryczna lokomotywa.
Asystenci głosowi wraz ze sprzętem automatyzacji domu mogą włączyć ogrzewanie w mieszkaniu, uchylić okna, opuścić żaluzje, podlać trawnik i zamknąć drzwi. Zrobią to wszystko, gdy jesteśmy daleko lub siedzimy w wannie. Obowiązki domowe dawniej przypisane najmłodszemu dziecku w rodzinie są teraz wykonywane przez asystenta głosowego, który nigdy nie narzeka. To jest postęp.
Kiedy asystenci są pomocni
Trzeba przyznać, że asystenci mogą być bardzo pomocni. Na przykład dla osoby na wózku inwalidzkim sterowana słowem automatyka domowa może oznaczać uzyskanie znacznej niezależności. Jeśli nie dosięgasz klamki okna lub robisz to z ogromnym trudem, zdalne sterowanie nie jest już dziecinną zabawką, ale sposobem na rozsądną poprawę jakości życia.
Jeśli po wypadku masz rękę w gipsie, słuchający cię telefon komórkowy pomaga przetrwać uciążliwe tygodnie gojenia się (swoją drogą, życzę szybkiego powrotu do zdrowia). Głosowe sterowanie systemem GPS w samochodzie faktycznie jest konieczne. Jeśli przy jeździe z prędkością 120 km/godzinę system nawigacji zgłasza korek na autostradzie i pyta, czy chcesz wybrać trasę szybszą o 30 minut, musi mieć możliwość niezawodnej reakcji na wykrzyczane „tak”.
Tak długo, jak asystenci głosowi są użytecznymi narzędziami ułatwiającymi życie potrzebującym ich ludziom, a nie tylko gadżetami dla entuzjastów, nie mam nic przeciw dalszemu rozpowszechnianiu się technologii rozpoznawania mowy — pod warunkiem, że wciąż będę mógł znaleźć sposób na ich uniknięcie. Jeśli system poczty głosowej mojego operatora telefonicznego zaczyna za bardzo mnie denerwować, zaczynam mamrotać niezrozumiale, dopóki komputer nie połączy mnie z człowiekiem.
Sztuczna inteligencja jest lepsza niż żadna?
Asystenci głosowi są często wrzucani do jednego worka razem ze sztuczną inteligencją. W zależności od nastawienia autora celem jest uspokojenie albo przestraszenie — jednak w obu tych przypadkach to tylko puste gadanie. Krótko mówiąc, sztuczna inteligencja nie istnieje. Bardziej trafnym określeniem jest „uczenie maszynowe”, bo z grubsza chodzi o komputery uczące się rozpoznawania wzorców i schematów oraz właściwego reagowania na nie.
Obecni asystenci głosowi nawet się nie uczą — większość asystentów obecnej generacji może reagować tylko na bardzo ograniczony zestaw słów, i to nawet nie zawsze. Niedawno mój przyjaciel próbował wyłączyć lampę obok swojej sofy przy użyciu Alexy. Próbował trzy razy z różną intonacją, mówiąc coraz głośniej za każdym razem. Siedziałem cicho na sofie i byłem w rozterce, czy mu współczuć, czy drwić.
Może różnica między tym a upartym dzieckiem nie jest tak duża: jako małe dziecko czasami ignorowałem moją mamę wołającą mnie z salonu. Wiedziałem, że mnie potrzebuje, ale mi się to nie podobało.
Alexa prawdopodobnie wcale nie udawała — wygląda na to, że rzeczywiście ma jakieś problemy ze słuchem. Głośniki czy telefony komórkowe naprawdę nie są w tanie same rozpoznać zbyt dużo. Natomiast rejestrują polecenia i wysyłają je do dużej sieci neuronowej w chmurze, która następnie instruuje głupi sprzęt, jak ma reagować. Jeśli to połączenie nie działa prawidłowo, asystent powie jedynie „Co?” — znacznie uprzejmiej niż na przykład oburzone dziecko.
Bez pomocy ludzi obecna generacja asystentów głosowych byłaby kompletnym niepowodzeniem. Jak wiadomo, Amazon i Google zakulisowo zatrudniają tabuny pisarzy z krajów trzeciego świata, którzy skrzętnie przepisują zarejestrowane rozmowy, aby poprawić wskaźniki rozpoznawania mowy przez asystentów. Mało prawdopodobne, aby firmy Apple, Microsoft i Samsung podchodziły do sprawy inaczej. Naprawdę trzeba się postarać, aby Alexa w końcu zanotowała zamówienie na roczną dostawę chipsów, chociaż było wypowiedziane z pełnymi ustami.
Standardowy głos jest zawsze damski
W asystentach głosowych przeszkadza mi zbyt wiele zasadniczych rzeczy, abym dał im szansę we własnym domu. Począwszy od tego, że chyba wszyscy mówią ciepłymi damskimi głosami.
To wcale nie tak, że tęsknię za asystentem z wrzaskliwym głosem w stylu Gilberta Gottfrieda. Po prostu irytuje mnie, że wszyscy asystenci głosowi domyślnie mają damski głos. Jak dla mnie stereotyp uległej kobiety już wystarczająco długo nie wychodzi z mody. Tylko Siri z Apple, Asystent Google i Bixby w urządzeniach firmy Samsung ma opcję zmiany płci, a Google nawet oferuje do wyboru cztery głosy męskie. Alexa z Amazona i Cortana (Microsoft) są tylko w wersji damskiej. Ich ciepłe głosy cierpliwie dodają papier toaletowy do listy zakupów — pod warunkiem, że jest połączenie z Internetem.
Głębszym problemem jest gorzka prawda z żartu, który przytoczyłem na początku. Asystenci głosowi wciąż rejestrują rozmowy, ponieważ mylą słowa ze zwykłej rozmowy z poleceniem aktywującym. W USA głośniki Alexy zareagowały tysiące razy, gdy ta nazwa została wspomniana w telewizji. Firma Amazon ostatnio zgłosiła patent, dzięki któremu Alexa wykona instrukcję, nawet jeśli słowo aktywujące zostanie wypowiedziane po poleceniu. Coś takiego może działać tylko wtedy, jeśli system stale nasłuchuje.
Prawda ukryta w żarcie
Takie okoliczności budzą nowe pragnienia. Niemieckie ministerstwo ds. wewnętrznych niedawno wyraziło opinię, że w przypadku dostępu do nagrań głosowych z urządzeń „inteligentnych domów” nie powinna być wymagana zgoda sędziego na „inwigilację akustyczną”, a jedynie nakaz przeszukania — przecież nagrania już są gotowe i nie są rejestrowane specjalnie na potrzeby śledczych.
To spowodowało publiczną debatę, która uświadomiła mi podstawowy problem ochrony danych wywołany przez asystentów głosowych. Ostatecznie przecież Amazon, Apple, Google oraz inne firmy przechowują i przetwarzają nagrania asystentów zgodnie ze swoimi własnymi zasadami. W krajach takich jak Niemcy, gdzie spora część społeczeństwa przez dziesięciolecia doświadczała systematycznego nadzoru ze strony państwa, to nieuchronnie wywoła niepokoje.
Jeśli Alexa nie rozumie, że ma wyłączyć lampę, nawet nie wyobrażam sobie, co mogłoby się stać, gdyby asystent błędnie zinterpretował jakąś dyskusję o atakach terrorystycznych jako konkretny plan na taki atak. Przepraszam na chwilę, właśnie ktoś uporczywie puka do moich drzwi...