En illustrasjon av en kvinne som roper, og lydbølger som treffer enhetene foran henne.

Et forsvarsskrift for stemmestyrte enheter

Et forsvars-skrift for stemme-styrte enheter

Originalt publisert på UX Lab bloggen 25. juni 2015

Jeg har en ting øverst på ønskelisten min for teknologisk utvikling. Jeg ønsker meg flere enheter som kan styres ved hjelp av stemmen min. Det blir kanskje hovedsakelig sett på som en gimmick, men jeg mener at det er gode grunner til å satse mer på utviklingen av denne typen grensesnitt og forbedre maskiners evne til å forstå vårt språk.

Jeg har lyst til å trekke frem tre grunner til at stemmestyingsmuligheter burde bli viet mer oppmerksomhet enn det har for øyeblikket.

  1. Det er situasjoner hvor det er mer fornuftig å benytte seg av stemmestyring enn en av de mer vanlige grensesnittene (tastatur/mus/berøring).
  2. Det gir oss muligheten til å gjennomføre flere handlinger samtidig (eller tilnærmet parallelt).
  3. Det senker terskelen for å interagere med, og benytte seg av, digitale enheter.

For det første: tidsbesparelser

For det første: tids-besparelser

Hvis du befinner deg hjemme eller i bilen din så er det ingenting som tilsier at du er nødt til å benytte deg av en berøringsskjerm eller knapper for å samhandle med informasjon som du har behov for. I det siste tilfellet burde du kanskje helst ikke bruke noe som flytter fokuset ditt vekk fra veien som du kjører på. Det vil vanligvis ta deg kortere tid å si hva du ønsker å gjøre, enn å gå gjennom de handligene som er nødvending for å oppnå målet ditt.

Det er kanskje ikke snakk om så mange sekunder spart i hver enkelt situasjon, men over tid vil disse sekundene utgjøre en god slump tid. Dette er selvsagt avhengig av hvor mye du bruker enhetene, og hvilke aktiviteter du benytter de til.

En liten advarsel. Det neste eksempel kan oppleves som litt søkt, men det er basert på egne erfaringer så jeg velger å inkludere det. Jeg har gått til anskaffelse av en Xbox One med Kinect. Noe som gir meg muligheten til å slå maskinen av og på med kommandoene “Xbox, on” og “Xbox, turn off”. Jeg gir gjerne på-kommandoen til maskinen mens jeg går for å hente kontrollen, noe som gjør at maskinen er klar til å begynne spillingen når kontrollen er plukket opp og jeg er plassert fremfor TVen. Det er en liten sak, det vet jeg, men det at maskinen er klar (når jeg er klar) uten at jeg har trengt å trykke på en eneste knapp (eller måtte vente) er en liten glede i hverdagen. What a time to be alive!

For det andre: parallellitet

Mye har vært skrevet om menneskers manglende evne til håndtere flere oppgaver på en gang. De fleste av oss er rett og slett dårlig til å multitaske. Men stemmekommandoer er noe som kan bringe oss nærmere reell og produktiv multitasking. Om det er noe så enkelt som å hoppe videre til neste melodi på spillelisten mens du baker eller ringe noen mens du lager mat, så frigjør du behovet for det massive skifte i fokus, og aktiviteter, som frem til nå har vært en nødvendighet. Du kunne for eksempel med tre setninger, slått opp en oppskrift, sendt ut en melding og endret radiostasjonen som du hørte på, mens du tok ut ingredienser fra kjøleskapet.

Siden hverken hender eller øyne er involvert i instrueringen, og ikke trenger å være sentrale i prosesseringen av input og output, blir den kognitive belastningen noe lettere. På samme måte som de fleste klarer å føre en samtale mens de gjennomfører et ganske stort spektrum av aktiviteter, så vil stemmekommandoer kunne gjøre det enklere å gjennomføre flere oppgaver på samme tid.

For det tredje: senket terskel

Nesten all utvikling i bruksflater og grensesnitt mellom mennesker og maskiner er konstruert for å gjøre det enklere å bruke enhetene. Det første grafiske brukergrensersnittet, utviklet ved Xerox Park og senere implementert i Apples og Windows’ operativsystemer (og etterhvert i de fleste andre), så dagens lys takket være dette bærende prinsippet. Å gjøre datamaskiner så intuitive at hvem som helst kunne bruke dem.

De færreste kan kode en datamaskin til å løse en oppgave for dem. Med gode grafiske brukergrensesnitt og program, øker brukernes evne til å bruke datamaskiner. Men de aller fleste klarer å formulere hva de ønsker at enheten skal gjøre for dem.

Det er mye enklere å formulere sine ønsker for resultatet enn å gjennomføre det korrekte settet med handlinger som fører frem til det resultatet.

Stemmestyring er, etter min mening, et skritt i retningen av å tvinge maskinene til å forstå oss, i stedet for det som har vært det vanlige til nå, tvinge oss til å forstå maskinene.

Dette skiftet fra å kunne gi kommandoer og instruksjoner gjennom tekstlige og/eller grafiske grensesnitt, til å fortelle hva målet ditt er og la maskinen finne ut hvordan det skal gjøres, senker terskelen for bruk av digitale enheter for en stor gruppe mennesker. Noe som kan gi nye muligheter og nye løsninger på gamle problemer.

Eksisterende løsninger

Det eksisterer allerede flere enheter i dag som kan ta i mot stemmekommandoer. Her er et lite utvalg.

De meste kjente er de du finner inkludert i mobiltelefoner, på nettbrett og i annen bærbar teknologi. Slik som:

Som nevnt tidligere så har Xbox One sin Kinect-kamera muligheten for å styre visse aspekter ved konsollen ved hjelp av stemmekommandoer. Og neste versjon av Windows, Windows 10, vil inkludere en mer funksjonell Cortana i alle varianter av operativsystemet.

For en stund siden kom Motorola ut med et produkt til Moto X-telefonene sine, Moto Hint. En liten ørepropp som du kan gi stemmekommandoer til, og som kan lese opp meldinger og notifikasjoner til deg. Ikke helt ulikt å ha en personlig assisten som kan hviske meldinger i øret ditt.

Amazon har også kastet seg inn i stemmestyringsnisjen med Amazon Echo. Echo er en ment å brukes i hjemmet, og er utformet som en sylindrisk høytaler. Du kan stille den spørsmål, og den kan respondere med svar som den har funnet på nettet. Den er selvsagt integret med Amazons musikk- og kjøpstjenester, men har også støtte for integrasjon med andre.

Noe av det mer imponerende jeg har sett i det siste er presentasjonvideoen til SoundHounds nye Hound-applikasjon (vel verdt en titt). Jeg ser frem til å teste den etter lanseringen.

Utfordringer

Før man kan oppnå den utopiske situasjonen med utbredt mulighet for stemmestyring av alle enheter så er det enkelte hinder som må forseres.

Teknologien må være på plass. Å dekode et stemmeopptak til et format som datamaskiner kan jobbe med er en krevende prosess, som for øyeblikket må gjøres av ganske store og kraftfulle datamaskiner. For ikke å snakke om det å hente ut intensjoner eller meningen med kommandoen og prøve å forstå i hvilken kontekst den skal settes i. Noe som ikke er helt enkelt for mennesker å gjøre.

Det er også selvfølgelig personvernhensyn som må tas. Du har potensielt plassert en mikrofon med internett-tilgang midt i ditt eget hjem, og sannsynligheten for at den skal plukke opp noe som du egentlig ville holdt innenfor hjemmets vegger er tilstedet. Hvordan reduserer du risikoen for at data kan hentes ut uten at du er klar over det? Og hvordan balanserer du mengden med data som lagres og brukes for å gi kontekst til kommandoene, og nytten av enheten uten tilgang til disse dataene?

Så hvis alle disse brikkene faller på plass, vil folk da benytte seg av denne typen teknologi? Eller vil det alltid være en motvilje blandt de fleste mot å snakke med maskiner, og en latent tvil om sikkerhetsnivået som systemet opererer under?

Time vil show.

- Arnt