Historie hlasových syntéz sahá překvapivě až do roku 1791, kdy se o vytvoření "umělé řeči" pokusil maďarský vědec Wolfgang von Kempelen, jehož stroj byl schopen mimo tvoření slov produkovat i krátké věty. Kempelenův přístroj se sice nedochoval, nicméně o cca osmdesát let později se jistý Alexandr Graham Bell pokusil o jeho aplikaci pro potřeby hluchoslepých, což se mu sice nezdařilo, avšak mohl se pochlubit "vedlejším" produktem svého snažení - telefonem.
Větších úspěchů se v tomto odvětví dosáhlo až v průběhu dvacátého století, kdy se začalo s umělou řečí opět experimentovat - tentokrát na bázi matematického modelování lidského hlasu. Takto "naprogramovaný" výstup zněl sice strojově (jako když mluvíte do dlouhé kovové trubky), dalo se na něj však zvyknout.
První pokusy o zpřístupnění počítačů pro nevidomé u nás spadají do první poloviny sedmdesátých let. Tehdy začal ve Slepecké tiskárně v Praze pracovat Jaroslav Kučera a o něco později také Jiří Mojžíšek na počítači typu JPR 12. Ten měl 4 kB paměti a pro komunikaci s nevidomým sloužily na koleně vyrobená braillská klávesnice a jednoznakový zobrazovač, pro komunikaci s vidícím pak sloužil elektrický psací stroj. Dále byla k tomuto počítači připojena na tehdejší dobu velice kvalitní černotisková tiskárna, děrovač děrné pásky a snímač děrné pásky.
Pracovní náplní obou výše zmíněných programátorů pak bylo vytvářet takové programy, aby se dalo s počítačem komunikovat.
Prvním jejich úkolem byla úprava textů z děrných pásek pro braillský tisk, druhým přepis braillského notopisu do černotiskového a třetím úkolem pak už bylo vytvoření syntetického hlasu. To se jim podařilo na přelomu let 1977/1978 a výsledkem byla tato ukázka. Hlas byl používán pro obsluhu výše zmiňovaného mikropočítače JPR 12. Jen pro představu, ukázka, kterou jste mohli slyšet, představovala přibližně deset minut práce a čtyřicet metrů děrné pásky.
V roce 1986 byl vyhlášen státní cílový program, jehož výsledkem byl o tři roky později vytvořený terminál pro nevidomé a slabozraké. Ten se skládal ze tří dílů. Prvním dílem byla skříň s reproduktorem, regulátorem hlasitosti, s konektory pro připojení kabelů a dalších zařízení a s vnitřními prostorami pro umístění karet pro různá zařízení. Například už tehdy se počítalo s vývojem a možností připojení braillského řádku Alva mini, braillské tiskárny Everest a dokonce i Optaconu. Druhým dílem byl kabel pro připojení k počítači a třetí součástí terminálu byla šlapátka, s jejichž pomocí bylo možné se pohybovat v textu vpřed a vzad bez nutnosti přehmatávat na klávesnici. Jeho výstup zněl takhle.
Optacon je zařízení umožňující nevidomým číst klasické texty, tj. zařízení slouží jako převaděč. Poznámka redakce na základě Wikipedie.
Přesuneme se však dále, konkrétně do roku 1993, kdy byl za pomoci hardwarové karty označované jako TTS PCVOX ozvučen Microsoft Disk Operating System (známý pod zkratkou MS-DOS). Jednalo se o zásuvnou jednotku se standardním rozhraním ISA. Programové vybavení pro tvorbu syntetického hlasu bylo umístěno přímo na kartě, k syntéze byla použita metoda lineární predikce s poměrně omezeným fonetickým inventářem namluveným přirozeným hlasem. Ukázku TTS PCVOX Beta si můžete poslechnout.
V témže roce ve společnosti FROG Systems, s. r. o. vytvořil Ing. Rostislav Sáček hlasový výstup, který nazval CS-VOICE. Ten byl původně určen pro obecné použití v prostředí Windows, verzi 3. Bylo to v době, kdy se většina zrakově postižených počítačových nadšenců začala obávat o budoucnost možnosti obsluhy počítačů, které začaly pracovat v grafickém prostředí právě nastupujícího operačního systému Windows. Pro potřeby nevidomých tento program poprvé použil Patrik Pospíšil. Bylo to koncem roku 1993. O rok později začal používat, společně s upraveným CS-VOICE, OCR Recognitu Select pro čtení černotiskových předloh. Ukázku CS-VOICE si můžete samozřejmě poslechnout.
Od této chvíle se dočkaly hlasové syntézy poměrně velkého rozmachu. Přijde mi zbytečné je všechny jmenovat, proto předkládám jen audioukázky několika vybraných kousků.
Doposud jsme se však zaobírali pouze syntézami určenými pro komerční systémy z dílny nadnárodní společnosti Microsoft. Nyní však přišel čas zabruslit na led softwaru s otevřeným zdrojovým kódem - tedy mimojiné na linuxové systémy. Zde v roce 2003 uvolnila nadace Free(b)soft Foundation svou českou difonovou databázi pro Festival. Poslechněte si ukázku. To však není jediný dostupný syntezátor. Velmi efektivní práce lze dosáhnout s taktéž open-source multiplatformním systémem eSpeak.
V duchu nostalgie a věcí dávno minulých bychom mohli pokračovat ještě hezkých pár (přinejmenším) hodin, domnívám se však, že dosti bylo obecné teorie a je načase vrhnout se vstříc systému GNU/Linux a řešením, která jeho prostředí zrakově znevýhodněným nabízí, to však až příště.
Autorem zvukových ukázek je Josef Konečný, autor čerpal z jeho článku na http://www.blindfriendly.cz/hlasove-syntezy/.