Linux E X P R E S

Facebook

Skenování je radost

Tvrdí Martin Veselý , který vám ukáže, jak zpracovat naskenovaný text.


Fenoménem poslední doby je bezesporu snaha o digitalizaci, lépe řečeno o konverzi téměř veškerého dostupného materiálu do snadno zpracovatelné a přenositelné elektronické podoby. Zatímco získání fotek nebo filmových sekvencí z kamery do vašeho počítače obstará dnes již kdejaký program, dobré aplikace pro digitalizaci obrázků z tištěné podoby aby dnes člověk pohledal. Jelikož v dnešní době Linux disponuje širokou škálou programů a skriptů téměř na cokoli, není nutné přecházet ke komerčním a často bohužel méně vybaveným produktům - nehledě na jejich vysokou cenu a ne vždy srozumitelné licenční ujednání.

V následujících odstavcích se pokusím alespoň krátce zaměřit na tři "stavební kameny" (SANE, XSANE a Kooka) linuxového skenování a na samotný závěr se pokusím rovněž popsat a objasnit práci s programem GOCR určeným pro rozpoznávání jednotlivých znaků ve skenovaném textu a jejich převodu.

Trocha teorie

Z důvodu většího počtu rozličných protokolů, které využívají výrobci skenovacích zařízení, bylo nutné zřídit jakési standardizované rozhraní, pomocí něhož mohou přistupovat k jednotlivým funkcím skeneru i poměrně obyčejné aplikace, jako je třeba grafický editor GIMP.

V dnešní době existují zhruba následující dvě majoritní rozhraní. Linuxové SANE a rozhraní TWAIN, které pro změnu používají operační systémy rodiny Windows. Rozhraní TWAIN však trpí menším nedostatkem, jelikož neumožňuje přímý přístup k danému skenovacímu zařízení přes síť, ve srovnání s lépe propracovaným SANE. Pro zajímavost se můžeme také zmínit o jakýchsi "hybridních" rozhraních typu WinSANE nebo SaneWAIN, které mají za úkol přemostit onen nedostatek sdílení zařízení na operačních systémech typu Windows.

SANE je zkratka vyjadřující Scanner Access Now Easy, jedná se komplexní sadu nástrojů určených pro práci se skenery a pro samotné skenování. SANE vám také umožní pracovat téměř s libovolným grafickým hardwarem. Když pomineme klasické stolní skenery, rozhodně stojí za zmínku příruční pen skenovací zařízení nebo dokonce videokamery. Všechna tato zařízení jsou díky SANE dostupná jak v Linuxu, tak i v jiných unixových systémech.

Samotné SANE by se dalo rozdělit na dvě části. Tou první je samotná aplikace přistupující přímo k zařízení (nazýváme frontend) a zbývající druhá část (backend) se nám stará o zprostředkování komunikace mezi (frontend) aplikací, ovladači a samotným skenerem.

Spolu se skenovacím balíkem SANE jsou rovněž k dispozici i skenovací programy scanimage a xsane. Zatímco prvně jmenovaný scanimage se ovládá výhradně pomocí příkazového řádku a navíc je omezen na výstup v podobě pouhých dvou grafických formátů typu TIFF a PNM, v případě xsane se jedná o plnohodnotný, nejčastěji používaný GUI skenovací nástroj, který přeložen s přepínačem --with-gimp může posloužit i jako zásuvný modul pro grafický nástroj GIMP, a tak ještě více zjednodušit a usnadnit uživatelskou práci.

Práce s programem XSANE je jednoduchou a srozumitelnou záležitostí téměř pro každého. Rozsáhlé a detailní možnosti jednotlivých nabídek pouze nastíníme: korigování klasických parametrů - jas, kontrast, nastavení gama korekce, možnost uložení výsledných obrázků v celkem šesti formátech či snad nastavení rozlišení v DPI.

DPI - dots per inch, množství bodů na jeden čtvereční palec. Hodnota, která je zaklínaná a proklínaná u mnoha digitálních zařízení. Čím víc, tím líp.

Obrázek: 1.jpg

Další aplikací určenou nejen pro skenování, jak si později povíme, je program Kooka. Skenovací program Kooka můžeme standardně nalézt ve všech novějších linuxových distribucích, jež používají grafické rozhraní KDE. Kooka je program intuitivní a dobře ovladatelný, ale zároveň se nesnaží zahlcovat uživatele příliš obsáhlou nabídkou funkcí, které jsou v některých případech, kdy je nutné něco provést v co nejkratším čase, spíše ke škodě.

V případě, že disponujete vícero skenovacími zařízeními, si při spuštění Kooka budete moci vybrat to pravé, které opravdu chcete použít. Poté již pracujete jako v kterémkoliv jiném skenovacím programu. Vedle standardních nabídek a možností, které nám Kooka nabízí, musíme také připočíst možnost z výběru tří OCR programů (GOCR, OCRAD a méně známý KADMOS) pro rozpoznávání a převod textů. Jelikož se bude stále jednat o shodné postupy úprav pro rozpoznávání textů, v níže uvedených odstavcích se zaměřím pouze na práci se známějším projektem GOCR.

Obrázek: 2.jpg

Obrázek: 3.jpg

GOCR a jak se poprat s texty

GOCR je klasický nástroj pro rozpoznávání znaků v textu ovládaný z příkazového řádku. Přestože GOCR má stále své mouchy, především s častým nepořádkem v rozložení textu na stránce, může být přesto i velmi užitečným pomocníkem. Pokud máte program úspěšně nainstalovaný, zkusíme nyní otestovat jeho funkčnost příkazem gocr doplněným třeba o přepínač -h. Pomocí tohoto přepínače se nám totiž zobrazí kompletní seznam dostupných voleb.

Nastavujeme GOCR

Nyní nám nic nebrání v cestě zkusit si nějaký ten článek převést na plotny našeho disku. Pakliže máte nainstalován jeden z výše uvedených skenovacích programů a program pro OCR, můžeme začít. Snad nejlepší metodou, jak zajistit co nejlepší rozpoznávání jednotlivých znaků, je daný obrázek převést v libovolném grafickém editoru na stupně šedi. Rozhodně není dobré používat plné syté barvy nebo malé rozlišení, řekněme pod 150 DPI. U mého skeneru Umax Astra 2100U, který byl mimo jiné dobře na první pokus rozpoznán a systémem přijat, se osvědčilo jako zcela dostačující 200-300 DPI. Ovšem dávejte si také pozor na rychlost své sestavy, protože v případě, že nedisponujete zrovna silným strojem a použijete příliš veliké rozlišení, nebude vám pravděpodobně stačit přísun kávy a venku se začne pomalu smrákat. Není také třeba dodávat, že nejlepší bude, když si před samotným skenováním - jak se říká "naostro" - některá nastavení zkusíte předem. Předejdete tak minimálně ztrátě času.

Program GOCR se bohužel stále ještě nedokáže dobře vypořádat s atypickými fonty. V praxi to vypadá tak, že pokud máte rozsáhlejší text, u kterého byl použit kupříkladu font Flubber, budete se muset věnovat "vyladění" celého rozpoznávání více než u fontu Courier.

Jak se rozpoznává a čeho se vyvarovat

Představte si, že jste se rozhodli převést novinový výstřižek zajímavého článku do počítače, vylepšili stupně šedi a upravili interpolaci. Avšak výsledek nestál za moc, místo čitelného textu vidíte modré rámečky, celý obrázek je přeškrtnut dvěma čarami a celek působí trochu chaoticky.

Obrázek: 4.jpg

GOCR dokáže vyznačit nerozpoznané znaky červenou barvou a ty znaky, u kterých by mohly být pochybnosti, jsou automaticky označeny světlejší červenou. Naopak korektně rozpoznané znaky jsou ohraničeny světle modrými rámečky. Zkusme nyní GOCR naučit pracovat tak, jak chceme my. Pro nerozpoznané znaky lze totiž vytvořit dodatečně databázi (stačí vytvořit nový adresář ./db) a po restartu aplikace, tentokráte ovšem s přepínačem -m 130, se nás GOCR automaticky dotáže na nerozpoznané znaky, hezky jeden po druhém. Poté si takto nově zjištěný znak zařadí do své databáze, ze které později čerpá.

V některých případech, především u tzv. "kudrnatého" písma, stačí i mírná úprava vyvážení stupňů šedi, popřípadě snížení hodnoty velikosti prachu. Program tak dokáže lépe čelit třeba efektu lehce zmačkaného papíru. Pakliže se vše zdaří, můžete s trochou trpělivosti ukládat poměrně přesné výsledky bez ohledu na to, zdali byl předlohou novinový útržek nebo čistá fotografie.

Obrázek: 5.jpg

Na samotný závěr bych chtěl jen dodat, že ačkoliv se jedná v případě GOCR o slibný projekt, který zaznamenal v poslední době velký pokrok, ještě stále má v porovnání s některými komerčními produkty co dohánět.

Obrázek: 6.jpg

Diskuze (2) Nahoru