Att prata med en dator

Att kunna skriva in instruktioner till en dator via kod eller kanske bara en vanlig mening är i sig en häftig teknik som låter oss "prata med en dator" för att få den att hjälpa oss att lösa problem, spara och finna information. Men om man verkligen vill prata med en dator hur fungerar det? 

Det är idag inget nytt att vissa datorer och digitala enheter kan känna igen och förstå röst d.v.s har taligenkänning. Siri, Google home, Alexa, Assistant och många andra system är byggda för att man som människa ska kunna prata med dem. Dessa enheter är byggda för att förstå informationen som man som människa förmedlar med sitt tal och jobbar för att genomföra och svara på de instruktioner som ges. Men andra system som hanterar mänsklig röst finns endast av säkerhetsskäl där systemet måste tränas på en viss persons röst så att den lär sig att unikt identifiera denna person och därmed kan autentisera personens behörigheter liksom man kan göra med fingeravtryck eller retina scanning. Denna teknik kallas istället för röstigenkänning då den inte fokuserar på själva talet utan på rösten.

Att förstå mänskligt tal är inget lätt uppgift, ett taligenkännings-system måste t.ex. försöka tolka meningar som innehåller oklarheter, tyda ut ord ur otydligt tal, filtrera ut delar av talet som inte förmedlar information (t.ex. alla eeh och öööh som man gärna använder när man inte vet riktigt hur man ska uttrycka sig) och förstå tonfallets påverkan på meningsinnehållet.

Den mänskliga rösten är om man beskriver det i sin enklaste form ett skapande av vibrationer i luft med hjälp av stämband, lungor, tunga och läppar. Det är dessa vibrationer som en enhet plockar upp med hjälp av en mikrofon som i sin tur översätter dessa vibrationer till elektriska impulser som en dator kan tolka som data. Det betyder att talsystemet kan få problem om du pratar med en enhet i ett rum med mycket bakgrundsljud då den måste försöka filtrera ut talet från alla andra ljud som mikrofonen plockar upp. 

Hela vägen fram till 1990 så använde de första taligenkänningssystemen så kallad "template matching". Det betydde att man matade in ett visst antal ord och allt tal som matchade de inmatade orden kunde förstås av systemet.  Denna metod krävde att man talade extremt tydligt och endast sa ett förprogrammerat ord i taget. 1990 släpptes systemet vid namn Dragon Dictating som senare blev Dragon NaturallySpeaking som förändrade taligenkänningstekniken genom att man kunde använda systemet för att diktera upp till 100 ord i minuten utan att stanna efter varje ord utan naturligt kunde tala med systemet. Systemet krävde dock att man tränade det i ca 45 minuter för att det skulle fungera som bäst. Detta system används fortfarande av många läkare ändock i uppdaterad version för att det fungerade så pass bra. 

Det stora genombrottet kom dock i samband med maskininlärningen som tillsammans med stora mängder data gör att system kan tränas till att förstå än fler ord, meningar och otydligt tal. Det är denna teknik som gjorde att vi 2008 fick Google Voice Search. Google Voice Search låg sedan till grund för dagens  Google Assistant. 

andres-urena-470135-unsplash.jpg

Siri ligger dock till grund för den stora vågen av populäritet kring röststyrning då man lyckades väva in en "mänsklighet" i taligenkänningssystemet och AI:t som gav Siri mer av en personlighet som gjorde det roligare och mer naturligt att använda systemet för dagliga småsysslor. 

Det häftiga med den verklighet vi nu lever i är att taligenkänningen har kombineras med talsyntes i bland annat Siri, Alexa och Google home, vilket gör att datorn inta bara förstår vad vi säger utan även kan svara i tal på ett naturligt sätt. Ju mer avancerad denna taligenkänning samt talsyntes blir desto närmre kommer vi närma oss den punkt där datorer och människor kan föra ett samtal på samma sätt som människor för med varandra. En verklighet där receptionister kanske kan vara datorer/robotar och alla typer av tjänster där information måste delas och samtal föras kan ske mellan människor och datorer istället.

Källor: pcworldmedium

Maria HjorthComment