Klávesnice není, stačí jen diktovat

redakce VTM Science  |  Technika
Ilustrační foto

Věta je napsaná nebo vyslovená myšlenka – to bývala jedna z hlavních pouček v hodinách češtiny na základní škole. Spoustu lidí, kteří musejí ty vyslovené dennodenně převádět na věty psané, jistě po mnoho let napadalo, jak by bylo krásné, kdyby to ta psací mašina zvládala sama.

Psací stroj, byť renomované značky, to pochopitelně umět nemohl, na to musel přijít až elektronický mozek a pochopitelně, prvním jazykem, u něhož se vědci o něco takového pokoušeli, byla angličtina. Začalo se nejdříve čísly. Musela být vyslovována pečlivě a odděleně. To bylo v roce 1952. Dnes jsme před notebookem, vybaveným čtyřjádrovým procesorem a do napojeného mikrofonu znějí z diktafonu včerejší zprávy Českého rozhlasu o jednání vlády. Hlas profesionálního moderátora odříkává zřetelně jména i funkce.

Na monitoru naskakuje s minimálním zpožděním text, někde u méně obvyklých slov se kurzor jakoby zadrhne a rychle za sebou naskočí několik variant, ovšem další části věty vedou k jednoznačnému výsledku. Profesionální zapisovatelka by si pochopitelně poradila i s méně obvyklými výrazy hned napoprvé, ale i tenhle software, vyvinutý společností Newton Technologies společně s týmem vědců na technické univerzitě v Liberci, se učí rychle, stačí špatně pochopený výraz přepsat a rozšířit tak slovní zásobu, která je zatím zhruba na půl milionu výrazů.

Bručící krabice od bot

Od onoho přelomového roku 1952, kdy využití polovodičové techniky u počítačů zvýšilo jejich rychlost, se pochopitelně experti snažili, aby se technika co nejdříve naučila rozeznávat lidský hlas. Nešlo také v první řadě o to, propustit všechny sekretářky a soudní zapisovatelky. Obrovské využití v pochopení toho, co člověk říká, viděla především armáda a medicína. Na výstavě v New Yorku v roce 1964 vystavovala společnost IBM „Krabici od bot“, tedy přístroj takto pojmenovaný podle své velikosti, který jednotlivě do mikrofonu vyslovované číslice převáděl na bliknutí příslušného světla do generovaného zvuku, jehož výška se právě podle čísla od jedné do devíti měnila.

V roce 1982 dala na trh produkty umožňující rozeznávání anglických slov firma Kurzweil Computer Products, společnost Raymonda Kurzweila, jejíž činnost byla od založení v roce 1974 původně soustředěna na převod psaného textu na řeč. Jeden z prvních programů si koupil zpěvák Stevie Wonder, což byla pochopitelně skvělá reklama, ovšem pak Kurzweila začal zajímat přesně opačný problém. V roce 1985 už měla společnost (spolu s Dragon Systems) na trhu software se slovní zásobou 1000 slov, o dva roky později pak už 20 000. Program vyžadoval ale přesnou artikulaci i intonaci zvukově oddělených slov, jinak jeho úspěšnost klesala na desetinu. Do roku 1995 se nový software dostal na 50 procent.

Stíhačky vedou

Dnes je program přepisu mluvené angličtiny do textu na počítači nabízen na internetu zdarma ke stažení. V jaké kvalitě, to není otázka pro tento článek, hovoří se nanejvýš o 80 procentech. Zato rozpoznávání mluveného slova, které využívá letecká technika například u bojových Eurofighter nebo F35 Lightning, je po zakódování pilotova hlasu schopen rozumět 98 procentům slov. Ta dvě zbývající se vztahují na okamžiky, kdy jsou piloti vystaveni přetížení a hlas se jim změní; ani tak by neměla představovat jakékoli nebezpečí jak pro posádku, tak pro okolí, protože systém vyžaduje vždy potvrzení zopakováním příkazu.

Ilustrační foto

Horší je to v helikoptérách, kde hladina hluku znesnadňuje rekognoskaci. O významu převodu hlasových povelů pro bojové akce svědčí i to, že se v řešení problémů angažuje i známá DARPA. Druhá největší oblast, v níž se uplatňuje rozpoznávání hlasu, je medicína, kde tato technika pomáhá postiženým i lékařům. Zdá se, že do budoucna se s ní setkáme i v osobních autech (některé automobilky už ji mají aplikovanou ve svých konceptech), inteligentních domech, u informačních technologií (hlasové vytáčení čísel už je třeba samozřejmostí) a vůbec všude, kde je výhodné použít jednoduchý hlasový pokyn místo manuálního úkonu. Tím to ale nekončí. Zároveň výzkum pracuje na překladačích, které by simultánně dokázaly tlumočit v natolik odlišných jazycích, jako je angličtina a arabština nebo angličtina a mandarinská čínština.

Co se v softwaru skrývá?

Při převodu řeči (popřípadě pohybu rtů) na text nebo při simultánním tlumočení se v softwaru využívá několik postupů. Jedním z nich je bayesovská logika, jakási forma statistické analýzy, kvantifikující neurčitý výstup stanovením pravděpodobnosti jeho výskytu na základě předem známých a souvisejících informací. Využívá se jí kupodivu například i při hledání vhodné sestavy basketbalového týmu, kdy má trenér k dispozici záznamy ze sportovní minulosti hráče spolu s jeho statistikami.

Ilustrační foto

Bayesovský filtr je také součástí softwaru bránícího příjemce před spamy. Mimochodem – jméno dostaly tyto postupy po anglickém reverendu Thomasi Bayesovi, jehož Esej o řešení problému v doktríně o možnostech vyšel už v roce 1763. Jiným nástrojem jsou Markovovy modely či také Markovovy řetězce. Byly pojmenovány po ruském matematikovi, který se na přelomu 19. a 20. století zabýval teorií náhodných procesů. Vlastnost modelu říká, že na každém místě určitého procesu je pravděpodobnost následného děje nezávislá na ději předchozím, jinak řečeno, že v každém stavu procesu naprosto nezáleží na stavech dříve navštívených. V programu se chovají jako stavové stroje využívající kontextové informace. Setkává se s tím v podstatě každý hráč rulety, když si po sudém čísle vsadí na liché a pak se diví… Nepracují s celými slovy, ale jsou jim předkládány k vyhodnocení milisekundové zvukové sekvence.

Přidávají se politici

Zatím se v převodu řeči na text prosazovala angličtina, ale jak už bylo v úvodu řečeno, existují i programy, které si poradí s daleko obtížnějším úkolem, který představuje čeština. Anglické podstatné jméno má jen dva tvary, jednotné a množné číslo, které se v zásadě až na nepodstatné výjimky liší jen minimálně. Náš jazyk má u tohoto slovního druhu sedm tvarů pro jednotné a sedm pro množné číslo. Dalšími rozsáhlými oblastmi, které mění tvar slova, jsou časování, stupňování, zdrobněliny… Český slovník je mnohonásobkem toho anglického, což se odráží především v nárocích na slovní zásobu programu i rozpoznávací modul, jenž v důsledku operuje s miliardami možností.

Jinou, ale úzce související překážkou vývoje tedy byly doposud významně vyšší nároky na výkon počítače, který vstup zpracovává. Laboratoř jeho počítačového zpracování byla u nás založena v roce 1994. Sídlí na Technické univerzitě v Liberci a zabývá se především problematikou rozpoznávání a syntézy řeči, rozpoznáváním mluvčího a jeho verifikací, dialogových systémů, audiovizuálním zpracováním řeči a obrazu. Pochopitelně jako v jiných laboratořích museli začít od rozpoznávání jednotlivých slov, přednesených odděleně od ostatních, a zavedenou intonací.

Diktovací systém obsahuje slovník se stovkami tisíc slov (při první prezentaci v roce 2008 to bylo asi 350 000, dnes je to přes 500 000) s dalšími výslovnostními variantami a pochopitelně se nadále rozšiřuje. Jako příklad laboratoř uvádí vložení jména amerického prezidenta Obamy, kdy se k němu přidávají nejen všechny gramatické tvary, ale i odvozená slova jako například protiobamovský.

Pokroky díky novým technologiím

Systém NewtonDictate, který vyvinula společnost Newton Technologies společně s týmem vědců na Technické univerzitě v Liberci, by měl být určen pro potřeby soudnictví a advokacie, medicíny nebo státní správy. Tomu také odpovídají i příslušné rozšiřující slovníky. Jsou vhodné i pro další obory, jako jsou třeba média. Přesnost přepisu školených hlasů, například televizních, rozhlasových moderátorů, tiskových mluvčích a podobně, dosahuje devadesáti až pětadevadesáti procent, což je srovnatelné právě s profesionálními zapisovatelkami. Umožnil to mimo jiné i nový hardware, tedy inteligentní procesory Intel Core, které jejich producent uvedl na začátku letošního roku na náš trh.

Ilustrační foto

U dříve používané techniky bylo nutné v programu nejprve nastavit, zda mluvčím je muž, nebo žena, a bylo záhodno pokusně „naučit“ program rozeznávat hlas toho, kdo bude diktovat, s novými procesory toto odpadá. Není nutné také zužovat slovník podle profesí, jimž je primárně určen. Zrychlil se i zápis, takže není nutné sledovat monitor a postup zpracování a podle toho přizpůsobit rychlost projevu. Slovní zásoba, uložená v paměti, se při používání technologií jako Intel Turbo Boost může už nyní zdvojnásobit, přičemž v češtině jsou necelé dva miliony slov. Budeme-li počítat s uplatněním Mooreova zákona (a není důvod nepočítat), tak by během několika málo let bylo možné užívat jako vstup pro zápis i běžnou, hovorovou češtinu, kterou v životě slyšíme všude kolem sebe. V běžné řeči se přitom používá sice asi pouze 40 000 slov, zato ta výslovnost nebývá nejlepší.

Potíže s romány

Kromě NewtonDictate je v současnosti v nabídce firmy i program MobilDictate, určený pro PDA a zařízení typu SmartPhone. Umožňuje diktování libovolných textů do mobilních přístrojů, které jsou vybaveny operačním systémem Windows Mobile 6 pomocí především kvalitní sady hands-free nebo i vestavěného mikrofonu. Připojení k datové síti není nutné, software v telefonu umožňuje rozpoznání zhruba 250 000 nejfrekventovanějších slov (pochopitelně, že lze slovník podle potřeby rozšiřovat a vkládat do něj další slova) rychlostí jednoho za sekundu.

Rozpoznávání pracuje s úspěšností až asi 85 procent, pochopitelně podle kvality přístroje, mikrofonu a vnějších hlukových podmínek. V případě, že program nerozumí, nabídne až pět možných verzí. Diktát lze pochopitelně jako každý jiný psaný text odeslat jako esemesku či jej uložit k pozdějšímu zpracování třeba na domácím počítači. Na českém trhu je ale i jiný program, srovnatelný s NewtonDictate. Jedná se o NovaVoice, výsledný produkt spolupráce společnosti CC Novasoft s katedrou kybernetiky na Západočeské univerzitě v Plzni. Podle dostupných dat se jedná o program srovnatelný, rovněž se zvláštními profesními slovníky, software dokonce získal ocenění v kategorii profesionální software na veletrhu Invex v roce 2008.

Pro oba programy však prozatím platí, že lépe pracují, jestliže mají možnost si na mluvčího nějaký čas „zvyknout“ a přesnosti prospěje i nastavení, zda jím bude muž, či žena. Je také nutné hlásit interpunkci (tečka, čárka), protože intonaci hlasu ještě nerozeznají. Problém můžou mít i s méně obvyklými jmény, příjmení je u nás evidováno na čtvrt milionu a toto číslo by se ještě znásobilo jejich tvary. Nejspolehlivěji pracují v profesní oblasti, pro niž mají vybavený slovník; úspěšnost klesá pak nejen při obecné mluvě, ale i například u krásné literatury.

Zdroj: VTM Science
Foto: Profimedia a Shutterstock

Nejčtenější