Kunstig nevrale nett og talesyntese.

Kunstig nevrale nett og talesyntese. Av: Henning Kvinnesland Veileder: Terje Kristensen

Tidligere forsøk • Nettalk • Finnes mange kommersielle systemer for syntetisk tale. • Eksempler:

Hva er målet ved oppgaven? • Å skape et program som lærer å snakke forståelig (naturlig) norsk. • Holde mulighetene åpne for utvidning til andre språk samt talegjenkjenning. • Programmet skal være kompilerbart og kjørbart på en standard pc.

Teknologier, verktøy og deres bruksområder • Backpropagation • Counterpropagation • Binary Associative Memory • Visual .NET • VST (lydkosmetikk) • VoiceXML

Backpropagation • Stille rundt Knn etter Minsky og Papert eksponerte perseptronets svakheter med tanke på ikke lineart separerbare problemer (XOR). • Minsky jobber for tiden med No-touch virtuell sex. • Økende interesse på 80 tallet og backpropagation kommer i søkelyset. • Består av tre lag: input, skjult og output. • Overvåket læring. • Det skjulte laget gjør BP i stand til å løse bla XOR.

Counterpropagation • Utviklet av Robert Hecht-Nielsen og ble utgitt i 1987. • Enklere å trene og implementere enn BP. • Har en interpolerende effekt når det møter inputmønstre som ligger mellom to andre kjente inputmønstre. • Brukes gjerne som en midlertidig løsning før et Backpropagation nettverk skal implementeres. • Har blitt brukt til datakompresjon med brukbare resultater selv ved kompresjonsgrader mellom 1:10 og 1:100.

Binary Associative Memory • Gjerne benyttet til tilstandslagring (assosiativt). • Ikke overvåket læring. • Har med hell vært utprøvd til å gjenkjenne mønstre i bilder. • Tenker å benytte det for tilstander/ord som ikke følger noen mønster. For eksempel myk eller hard c problematikken Nettalk møtte.

Visual .NET • Hoveddelen av oppgaven blir skrevet i C#. • Backpropagation er implementert i C++. • Frihet til å programmere i nesten hvilket som helst språk. • Assembly, vb, c, c++, Java etc...

VST • Standard for moduler til lydprosessering. • Utviklet av Steinberg (VST 2 i 1999) • Stor vekt på hurtighet/forsinkelse for sanntidsprosessering av lyd. • Benytter seg av nyere hardware i lydkort for svært høy ytelse.

VoiceXML • Voice Extensible Markup Language. • Benyttes til tagging av en tekst for å formidle følelser eller nyanser som ikke kommer tydelig frem uten at man kjenner konteksten. • Enkelt å validere et dokument da det allerede er en veletablert standard. • Hovedmålet til VoiceXML er å bringe kraften i web utvikling og innholdslevering til applikasjoner som bruker TTS til å interaktere med brukerne. • Minimaliserer client/server kommunikasjon ved å støtte flere interaksjoner per dokument. • Programutviklere slipper å forholde seg til lavnivå kode og plattform spesifikke detaljer.

Komponentene • Tekst til fonem oversetter • Fonem til lydfil tilknytning. • 1. steg av lydkosmetikk. • Setningsparser for toneleie. • 2. steg av lydkosmetikk. • Ferdig tale.

Tekst til fonem oversetter • Hoveddelen i oppgaven. • Vil sannsynligvis bestå av en samling av knn. • Det er her mye av ”forskningen” skjer.

Fonem til lydfil tilknytning • Etter at teksten har blitt oversatt til fonemer kobles fonemene mot faktiske lydfiler som slås sammen til et helt ord.

1. steg av lydkosmetikk • Da det er i overgangene mellom de forskjellige fonemene språkets karakteristikker trer tydeligst frem må overgangene mellom de ulike fonemene manipuleres/interpoleres for at det skal høres naturlig ut. • Dette blir gjort separat for hvert enkelt ord. • Har planer om å teste bruk av difoner for å unngå denne problematikken (mye arbeid).

Setningsparser • Ved å vite hvilken ordklasse ordene hører til, hvilken setningstype det jobbes med, legges det til trykk og toneleie på de riktige stedene. • Dette har med hell blitt utprøvd i andre systemer for å skape et generelt menneskelig, men nøytralt toneleie. • Det kan på dette nivået bli aktuelt med en generell kontekstmodul som erstatter voiceXML hvis det ikke er i bruk.

2. steg av lydkosmetikk • Ved hjelp av informasjonen som setningsparseren gir vil denne delen av programmet gjøre de endringer som er nødvendig for at talen skal høres mest mulig naturlig ut.

Maskinlæring • Genetiske algoritmer (evolusjon). • Selvmodifiserende programmer. • Beslutningstrær (avgjørelser basert på boolske tilstandsvariabler). • Forsterkningslære (prøve og feile).

Vellykkede bruksområder for maskinlæring • Taksere lån og kreditt risiko. • Oppdage kredittkort svindel. • Katalogisere astronomiske bilder. • Avgjøre hvilke blader/reklame som skal bli sendt til ditt hus. • Hjelpe trenere å analysere spillernes prestasjoner. • Personalisere nyheter og web søk. • Styre en automatisk bil i enkelt miljø (knn). • Stemme under valg: basert på topp/stryk, forutsi parti. • Søppelpost: analyserer hver e-post ord for ord, måler frekvensen for gjenbruk av ord, skal kunne skjønne om mailen er søppelpost eller ikke. • Markedsberegninger: Kunne forutsi om en person vil kjøpe en bestemt vare basert på tidligere kjøp, kartlegge kjøpevaner.

Kunstig intelligens • Under 2. verdenskrig trodde USA i en liten periode at en datamaskin skulle være i stand til å legge strategien til rette for seier. • Dette kan nok bli mulig en dag, men det er gjenstår nok litt arbeid.

Nettalk • Ferdig utviklet i 1987. • Nøyaktighet på over 90% • Noe problemer med myk og hard c som er et problem barn gjerne har i begynnelsen. • Krevde 20 000 bits for å lagre nettverket. • Ordlisten ville krevd 2 000 000 bits. • Ved å studere nettet i detalj oppdaget man at nettet hadde gruppert konsonanter og vokaler hver for seg.

Om språk • Fonemer (atomære deler). • Difoner (overgangene mellom fonemene) • Toneleie (trykk 1, trykk 2, (1.5, sunnmøre) • Følelser • Naturlig tale?

Når er vi fornøyd? • Når et hvilket som helst menneske ikke klarer å avgjøre om det er menneske eller maskin som snakker. (Turing testen) • Når språk og dialekter enkelt kan legges til som en eller flere maler. (Engelsk med russisk aksent) • Når en ”intelligens” bak språkmotoren selv forstår innholdet av teksten.

Tale og språkforståelse • Naturlig tale er nært relatert til hva som blir uttalt. • For at et databasert talesystem ikke skal kunne skilles fra et menneske, må det kjenne, eller bli fortalt konteksten. • VoiceXML

Forskjellige teknikker for å oppnå data skapt tale. • Analoge systemer. • Copy paste av forhåndsinnspilte lydsnutter. (kontofonen) • Fonembasert. (slik de fleste er i dag) • Fysikkmodellering av stemmebånd. • Hidden Markov Models.

Tale tilpasset lytteren. • Psykologisk aspekt. • Lytteren foretrekker en stemme som ligner ens egen. • 28 identifiserte variabler som formidler følelser i det engelske språket. • Det har blitt utviklet talemotorer som formidler følelser som lykke, sinne, tristhet, frykt.

Resultatet? • En datamaskin kan lære å snakke. • Forståelig tale? (Ja). • Naturlig tale? (kanskje).

Kunstig nevrale nett og talesyntese.

Kunstig nevrale nett og talesyntese.

Presentation Transcript

Grunnleggende Opplæring Data og Tele nett

Konvergente nett

Muligheter på nett

12 Trådløse nett

Nett-drift 3.0

12 Trådlause nett

Blogg og publisering på nett

NETT Meeting 2008

Kvalitet på nett

Nye nett- og praksisbaserte grunnskolelærerutdanninger GLU-NP 1-7 og GLU-NP 5-10

Infomøte 4.KomTek Studieretning Nett og tjenester

Kunstig intelligens (MNFIT-272) - høst 1999.

Åpne nett

Hvorfor satse på nett?

UH-nett Vest: Regionalt samarbeid basert på differensiering og mangfold

Trådløst nett ved UiO Muligheter og begrensninger Lynkursdagene 2009

Universell utforming og Tilgjengelighet på nett

Juss, etikk og panikk på nett

Naturinfo på nett

Infomøte 3.KomTek Studieretning Nett og tjenester

Robuste Nett

Sikkerhet , helse og arbeidsmiljø BIR Nett