En dator som pratar

suanmoo-607746-unsplash.jpg

I det senaste tech-talket berördes taligenkänningssystem och hur man kan få en enhet att förstå vad det är man säger och agera på dessa muntliga instruktioner. Men den andra änden av området datorer och tal är att få enheter att tala till människor, så kallade talsyntes. De första försöken att producera artificiellt tal hade dock ingenting med datorer att göra utan mer om att skapa förståelse för hur människor rent fysiologiskt producerar vokaler och konsonanter så att man kan återskapa ljuden. Det första försöket till talsyntes skapades år 1770 av en man vid namn Kratzenstein. Han skapade så kallade vokalresonatorer i en tävling på Imperial University of St Petersburg som fungerade genom att man blåste i ena änden vilket fick en flik att vibrera, dessa vibrationer/ljudvågor skapade av fiken gick sedan in i dessa olikformade resonatorer vilket skapade de olika vokalljuden. 

Bild från: http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html

Bild från: http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html

Under nästan samma period byggde en man vid namn Wolfgang von Kempelen den första talmaskinen som härmade människans fysiologi med en blåsbälg som lungor, två sidorör som näsborrar, ett rörblad som stämband och ett med handen formbart läderrör som fick agera mun. Maskinen kunde skapa en stor mängd vokaler och konsonanter och man kunde även sätta ihop dessa till tal. Men människan har en mycket komplex fysiologi som möjliggör komplex artikulation av vissa ord och ljud och detta gjorde att de begränsningar som fanns i Wolfgangs maskin gjorde talet långt ifrån perfekt. 

Blid från : http://kth.s3-website-eu-west-1.amazonaws.com/ie1206/tools/pictalk/speechsynt.htm

Blid från : http://kth.s3-website-eu-west-1.amazonaws.com/ie1206/tools/pictalk/speechsynt.htm

Först långt senare utvecklades tekniker för att med hjälp av elektroniska kretsar skapa artificiellt tal. Den första maskinen som räknas som en elektronisk talsynt är VODERn. Som man kan se i videon så skapades tal genom att man i realtid fick som på ett klaviatur "spela" fram hela meningar. 

Maskinerna övergavs sedan för datorerna när de på 1970 talet hade blivit tillräckligt utvecklade. Då skapades talsyntes istället ofta i form av chip som lagrade alla olika inspelade småbitar av ljud som en språk är uppbyggt av istället för att generera ljuden själv. Alla varianter av hur "a" kan uttalas i engelskan spelades t.ex. in!

Målet var sedan att skapa program som automatiskt kunde översätta från text till tal genom att koppla bokstäverna, orden och meningarna till rätt typ av ljud så att t.ex. rätt typ av "a" hamnade på rätt plats i ordet och meningen! Det svåra i talsyntestekniken är att naturliga språk har så mycket nyanser som gör att vi ganska snabbt kan avgöra om det är en annan människa som talar eller om talet är skapat på syntetisk väg. Vi är dock på god väg att närma oss datorer som låter nästintill oskiljaktiga människors tal med hjälp av maskininlärning, AI och enorma mängder inspelade röster, ord och meningar. 

Är man mer intresserad av att höra och lära om skillnaderna i talsyntes genom historien så kolla gärna in denna film: 

 

Källor: 

http://www.haskins.yale.edu/featured/heads/SIMULACRA/kratzenstein.html, http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html, 

http://kth.s3-website-eu-west-1.amazonaws.com/ie1206/tools/pictalk/speechsynt.htm

Maria HjorthComment