150 likes | 246 Views
„Přepis mluveného slova do textové podoby“ Program NewtonDictate. NEWTON Technologies, a.s. Ing. Petr Herian www.diktovani.cz petr.herian @diktovani .cz. NEWTON Media. NEWTON Media - Největší komerční archív plných textů v ČR
E N D
„Přepis mluveného slova do textové podoby“ Program NewtonDictate NEWTON Technologies, a.s. Ing. Petr Herianwww.diktovani.czpetr.herian@diktovani.cz
NEWTON Media • NEWTON Media - Největší komerční archív plných textů v ČR • Unikátní patentovaný systém zpracování dat, (světová konference FIBEP 2008 v Praze) • Multimediální archiv pro vydavatele a vysílatele (Mafra, Ringier, TV Nova, ČRo, PSP,…) • V Newtonu Média řešíme úlohu • Měsíčně zpracováváme 8000 hodin záznamu, 600 hodin doslovně přepisujeme • Okamžitá úspora času (30-75%) • Spolupráce s Technickou univerzitou v Liberci (od roku 2005): • Propojení vývojových týmů, sdílení výsledků a zkušeností, zpětná vazba • Spolufinancování vývoje technologie Voice to Text (V2T) • Samostatné nadstavbové moduly, nové aplikace, servis, komunikace s klienty
Produkty vývoje zavedené do praxe MyVoice a MyDictate NewtonDictate – diktovací program ATT – přepis a titulkování TV AudioSearch - vyhledávání v archivech
Praktická ukázka programu NewtonDictate
Základní funkce programu Program NewtonDictate pracuje jako textový editor (např. Word) a současně také jako digitální záznamník Program řeč nahrává, automaticky přepisuje, přičemž kteroukoliv část přepisu si lze kdykoliv přehrát a v případě potřeby snadno opravit. Diktuje se interpunkce, program automaticky formátuje čísla, symboly a používané zkratky. Program můžete jednoduše naučit nová slova, celé věty,... Program můžete naučit rozpoznávat Váš hlas (nadiktovat 120 předepsaných vět) Diktovat lze do libovolného místa v textu, text i audio záznam lze libovolně kopírovat, mazat přesouvat. Program nadiktovaný záznam průběžně ukládá. Diktovat můžete také do libovolného programu, diktuje se na pozici kurzoru. Program umí přepisovat audio nahrávky z diktafonů
Jak dosahovat nejlepších výsledků při diktováni aneb boj o každé procento
Hlavní problémy rozpoznávání řeči Komunikace řečí - pro člověka přirozená věc, pro počítač velmi komplikovaná úloha Systém pro rozpoznávání hlasu se stále učí 1. HLAS - Variabilita hlasového projevu, každý člověk mluví jinak (výška hlasu, podoba hlásek, intonace, výslovnost, volba slov, momentální stav, prostředí ...) 2. SLOVNÍK - Rozsáhlost slovní zásoby(Angličtina 50 tis. slov, Čeština > 1 milion) Systém rozpoznává jednotlivá slova, mnoho stejně znějících slov („byly“, „bily“, „Billy“ …), 250 000 příjmení v ČR, místopisné názvy apod. V současnosti systém rozpozná 500.000 slov, slovo které není ve slovníku systém nikdy nepřepíše
Hlavní problémy rozpoznávání řeči 3. KONTEXT - Volba nejpravděpodobnější sekvence po sobě jdoucích slov (odlišná témata) chybí oddělovače (pauzy) mezi slovy, dochází ke koartikulaci, asimilaci, Text: Až se vrátíš, zavolej jako včera na linku pět šest sedm. Text bez mezer: ažsevrátíšzavolejjakovčeranalinkupětšestsedm Foneticky: ašsevrátížzavolejakofčeranalinkupěčesedum 4. PROSTŘEDÍ - Vliv prostředí a přenosové cesty – degradace signálu hluk okolí, vlastnosti přenosové linky (mikrofon/diktafon), další mluvící osoby, ruchy, šumy…
Princip rozpoznávání řeči • Co bylo řečeno a v jakých časových okamžicích? • | - | zavolá | - | premiéra| předseda | - | • | - | za | vola| premiéra| předsedá | - | • |-| zvolá |prima | éra| před | sebou| - | • | - | zavolej | premiéra| předsedo | - | • | - | zavolá | - | premiér | a | předseda | - | • Při rozpoznávání spojité řeči není apriori známo: • Kolik slov bylo řečeno? • Jaká sekvence slov byla řečena? • Byla všechna vyřčená slova ze slovníku? • Byla to skutečně jenom řeč nebo i další zvuky a hluky? • V jakých časových okamžicích začínala jednotlivá slova?
Zkušenosti • Zkušenosti s programem • Program na každého reaguje jinak, ale obecný právní text přepíše bez větších chyb. • Pokud tomu tak není je někde problém (mikrofon, charakteristika hlasu, nastavení (muž/žena), slovník) • Nelze program jen zapnout a mluvit (existují vyjímky), je potřeba nalézt správný způsob diktování (intonace, plynulost,...) . • Naučit se ideální způsob diktování trvalo zkušeným soudcům a advokátům několik hodin. Tato časová investice se však velmi rychle vrátila v úspoře času. • Některá slova (věty) program nemá šanci rozpoznat • Nejčastější chyba - my čekáme co program napíše, program čeká co řekneme • Pro první seznámení doporučujeme přečíst známý text (nedívat se na monitor)
Budoucnost • Systém pro rozpoznávání hlasu se stále učí • Na vylepšení programu nepřetržitě pracujeme • Vaše zpětná vazba je pro nás velmi důležitá, své náměty přípomínky zasílejte na mail info@diktovani.cz. • Každé další rozpoznané procento šetří čas. (stále vylepšujeme, HLAS, SLOVNÍK, VAZBY SLOV) • Anonymizované texty zvýší úspěšnost rozpoznávání (místopisné názvy, často používané formulace, apod.) • Úspěšnost rozpoznávání zvýší také doslovně přepsané audio nahrávky
REFERENCE Ministerstvo spravedlnosti - projekt pro všechny soudy a státní zastupitelství v ČR (přes 1.600 licencí) Inspekce životního prostředí –celostátní projekt pro všechny inspektoráty inspekce Česká národní banka - implementace systému přepisovacího pracoviště NEWTON Media, a.s. - projekt přepisu rozhlasového a televizního vysílání, titulkování TV Ministerstvo vnitra Česká zemědělská univerzita 1. a 3. Lékařská fakulta Univerzita Karlova Masarykova univerzita v Brně Všeobecná fakultní nemocnice v PrazeEU-Media - EURActiv.cz IKEM - Institut Klinické a Experimentální MedicínyPoliklinika Budějovická Oblastní nemocnice Mladá Boleslav, a.s. Poliklinika Prosek Masarykova nemocnice v Ústí nad LabemRevmatologický ústav Mammacentrum, Praha MEDICON, a.s. Nemocnice Prachatice, a.s ACHK - Ambulantní centrum pro choroby hlavy a krku, s.r.o. Gymnázium, ZŠ a MŠ pro sluchově postižené, Praha Metropolitní univerzita Praha Manlomka, s.r.o., chráněná dílna
Děkuji za pozornost www.diktovani.cz Ing. Petr Herian Ing. Magdaléna Nekolná