Linux E X P R E S

Facebook

MS Word v textové konzoli

Každý z nás přichází do styku s dokumenty vytvořenými některou z verzí MS Wordu. Jsou obvykle bez problémů čitelné v OpenOffice.org Writeru, částečně také v KWordu. Ale lze je alespoň rámcově zobrazit také pomocí konzolových nástrojů? To víte, že ano.


Antiword

Antiword je konzolová free utilita pro zobrazování textu a obrázků z dokumentu ve formátu MS Word. Je ve verzi pro Linux a RISC OS, portována je také pro FreeBSD, BeOS, OS/2, Mac OS X, Amiga, VMS, NetWare, Plan9, EPOC, Zaurus PDA, MorphOS a DOS. Podporované verze dokumentů jsou Word 2, 6, 7, 97, 2000, 2002 a 2003. Binární soubor je konvertován do textu a PostScriptu.

Program spouštíme s povinným parametrem jména wordového souboru a také je možno zadávat nepovinné přepínače. Povinným přepínačem se zřejmě stane -m (mapping file), pokud chceme prohlížet text s diakritikou. Za -m musíme zadat jméno souboru s kódovou tabulkou pro převod do Unicode, nemusíme zadávat celou cestu, Antiword ji zná. Mapovací soubory jsou uloženy v adresáři /usr/share/antiword/. Najdeme tam tabulky pro kódové stránky Win 1250, ISO, UTF-8, Mac a také asociační tabulku s MS Word a postskriptovými fonty. Zobrazení tabulek je řešeno pomocí roury pro vertikální čáry, horizontální nejsou zobrazovány. Příkaz antiword -m 8859-2.txt dopis.doc zobrazí v textové konzoli soubor dopis.doc.

Autoři programu uvádějí, že můžeme prohlížet i obrázky vložené do dokumentu. To se provádí až po konverzi celého dokumentu do PostScriptu, jinak uvidíme v textové konzoli místo obrázku pouze nápis [image]. Pro PostScript máme důležitý přepínač -i, který rozhoduje o zobrazení vloženého obrázku:

  • 0 – použije nestandardní extenzi z Ghostscriptu. Při použití této volby může vzniknout pro některé typy postskriptových zařízení netisknutelný dokument. Pro nepostskriptové tiskárny musíme použít Ghostscript jako tiskový filtr.
  • 1 – Nezobrazí obrázky.
  • 2 – PostScript Level 2 (výchozí volba).
  • 3 – PostScript Level 3 (experimentální volba), obrázky ve formátu PNG (Portable Network Graphics) nejsou vytištěny korektně.

Další postskriptovou volbou je -p pro zadání velikosti papíru stránky. Antiword také dokáže pracovat se stránkou naležato pomocí volby -L (landscape).

Wv

Wv je balík knihoven a nástrojů pro čtení wordových dokumentů ve formátu 2000, 97, 95, a 6 (tyto formáty jsou také známy jako Word 9, 8, 7 a 6). Můžeme také provést konverzi do HTML (wvHtml), Abiwordu (wvAbw), holého text (wvText), RTF, PostScriptu, PDF, a dalších formátů.

Všechny tyto nástroje mají jednoduché použití, jako vstup zadáváme jméno wordového souboru a výstupní jméno souboru. Samotné zobrazení výsledného textového souboru musíme provést v dalším kroku nebo například pomocí roury.

Nástroje Wv

  • wvHtml – konvertuje Word dokument do HTML 4.0;
  • wvLatex – konvertuje Word dokument do pohledného LaTeXu;
  • wvCleanLatex – konvertuje do čistého LaTeXu, vhodného pro další zpracování a import do LyXu; na tomto nástroji se stále pracuje;
  • wvSummary – zobrazí metadata z Microsoft Office dokumentu, jsou to title, subject, author, keywords, comments, template, last author, rev #, app name, PageCount, WordCount, CharCount, Security, Codepage; wvDVI – konvertuje Word do DVI; vyžaduje LaTeX;
  • wvPS – konvertuje Word do PostScript; vyžaduje dvips;
  • wvPDF – konvertuje Word to Adobe PDF;
  • wvText – konvertuje Word do holého textu; vyžaduje lynx;
  • wvAbw – konvertuje Word do formátu Abiword; k dosažení lepšího výsledku je doporučeno použít přímo textový editor Abiword;
  • wvWml – konvertuje Word do WML pro prohlížení na přenosných zařízeních, jako jsou mobilní telefony a palmy; formát WML je upravená verze jazyka HTML pro tato zařízení;
  • wvRtf – provede konverzi z formátu DOC do velmi dobře přenositelného RTF; Rich Text Format je datový formát určený pro přenos dokumentů mezi různými systémy, podobně jako PostScript, je to značkovaný textový soubor podobající se dokumentu v TeXu;
  • wvMime – může být vložen jako MIME helper například do vašeho prohlížeče/mail klienta. Dokument bude zobrazován prostřednictvím GhostView, všechny pracovní soubory jsou generovány do adresáře /tmp.

Text ve wordovém dokumentu, ve verzi 8, je uložen v Unicode. Wv bude konvertovat tento text do UTF-8. Starší verze wordových dokumentů mají text uložený ve Windows CP.

Catdoc a xls2csv

Catdoc je nástroj, který čte wordový dokument a zobrazení posílá na standardní výstup. Nedokáže z wordového dokumentu zjistit informace pro formátování textu, proto se zobrazený text z pohledu formátování velmi liší. Někdy mohou být použity Escape sekvence LaTeXu pro speciální znaky. Non-ASCII znaky překládá do LaTeXových Escape sekvencí a tak konvertuje znaky z windowsové ANSI kódové stránky do lokální kódové stránky na daném systému. Protože je Catdoc ruský program, výchozí konverze se provádí z CP1251 do KOI-8R, případně do CP866 v případě DOSu. Catdoc používá vnitřně unicode.

Xls2csv je jednoduchý nástroj pro konverzi excelového .xls souboru do tzv. .csv (comma-separated values). Čísla jsou bez oddělovačů, řetězce jsou uzavřeny v dvojitých uvozovkách. Dvojité uvozovky uvnitř řetězce jsou zdvojeny.

word2x

Další program pro konverzi wordových dokumentů je word2x. Výsledný výchozí formát je holý text, další možností je LaTeX. Pro výstup do LaTeXu je vyžadován AMS LaTeX a LaTeX 2e. Obrázky nejsou podporovány a ani se s tím nepočítá. Má velmi omezenou podporu matematických rovnic.

Závěr

Nejspolehlivějším a nejpopulárnějším nástrojem je bezesporu Antiword, o čemž svědčí i relativně vysoká popularita na serveru freshmeat.net. Grafiky, kteří jsou nuceni upravovat lidovou tvořivost do čitelné podoby uloženou v souborech s příponou DOC, jistě potěší nástroj wvLatex. Bohužel nástroje z balíku wv nemají možnost nastavení výstupního kódování. Tyto utility také dokáže používat populární souborový manažer Midnight Commander a stiskem klávesy F3 nám zobrazí wordový soubor, konfiguraci nalezneme v souboru /etc/mc/mc.ext. Za nespolehlivé a téměř nepoužitelné považuji nástroje catdoc, xls2csv a word2x.

Přehled kódových stránek s českými znaky

  • ISO-8859-2 – moderní kódování dle normy ISO, též nazývané ISO Latin 2.
  • IBM912 – kódování od firmy IBM shodné s ISO-88592.
  • Win 1250 – obsahuje stejné znaky jako ISO-8859-2, české znaky jsou na jiných místech. Také je označováno jako CP1250, WinCS, WinEE. Je standardem v MS Windows.
  • CP 895 – kódování bratří Kamenických pro DOS, dříve nejpopulárnější kódování (nepoužívá se).
  • KOI-8 CS 2 – kódování dle normy KOI v bývalém RVHP (nepoužívá se).
  • East-8 – kování vyvinuté firmou Hewlett-Packard (nepoužívá se).
  • ICL – řecké znaky jsou nahrazeny českými (nepoužívá se).
  • WGL4 – rozšířená znaková tabulka s 652 znaky, PanEuropean. Obsahuje tabulky pro 1250, 1251, 1252, 1253 a 1254. Používá se od Windows 95.
  • Unicode – univerzální kódová tabulka používající dvoubajtové schéma s pevnou délkou umožňující adresaci 65536 míst. Pokrývá veškeré potřeby znakových sad, obsahuje i doplňující informace. Poslední verze je Unicode 4.1.0.

Diskuze (1) Nahoru