Cum Sa Structuram Cartile Scanate Despre DjVu

download Cum Sa Structuram Cartile Scanate Despre DjVu

of 12

description

Cum Sa Structuram Cartile Scanate Despre DjVu

Transcript of Cum Sa Structuram Cartile Scanate Despre DjVu

  • Lecia 3Formatul DjVu

    i structurarea funcional a crilor digitalePremiz:

    O carte digital, ntruct e digital, trebuie s se bucure de toate facilitile informatizrii.

    Introducere:

    rin structurarea crilor digitale nelegem adugarea posibilitilor de navigare intern, pe vertical - arborele de coninut sau indicele, pe orizontal - motorul de cutare dup text (cu textualizarea prealabil a crii scanate), general sau dup cuvintele-cheie prestabilite. Un

    alt element de considerat mpreun cu acestea, ns cu semnificaie prevalent estetic este copertarea. PCteva cuvinte despre vehicolul acestori faciliti:

    rile scanate se deosebesc de cele tiprite (bazate pe texte culese din start la computer) prin faptul c sunt de tip grafic (imagini), exact ca i pozele foto digitale. Dei

    conin informaie textual, textul lor nu este accesibil ca atare (spre exemplu, pentru copy-paste sau pentru search). Pe lng acest disconfort funcional, crile scanate att timp ct rmn ca imagini (sau ca PDF) au i un dezavantaj fizic foarte mare, fiind incomode pentru lectur (rsfoirea lent) i pentru depozitare (greutate enorm). O metod eficient pentru depsirea acestor neajunsuri const n utilizarea formatului de compresie DjVu.

    C Anexa 1 despre secretul formatului DjVu i analiza lui comparativ cu PDF

    Compresia DjVu :

    n rezultatul prelucrrii scanatelor n Scan Kromsator 5.91 am obinut mapa out n acelai sediu ca i fiierul surs TIF G4Fax. Pentru compresia DjVu folosim programul deja amintit

    DjVu Small 0.3.3 dup metoda descris (vezi Lecia 1), schimbnd doar profilul n user b/w 300

    Anexa 2, n care gsii i un truc pentru reducerea dimensiunii finale a fiierului DjVu cu pn la 25%

    NOT: Toate etapele ulerioare se pot face ntr-un timp secund.

    Copertarea

    n moment cu valoare preponderent estetic l constituie adugarea copertei originale color la cartea comprimat DjVu. Dincolo de frumusee, copertarea ofer i avantajul

    de a putea lesne repera cartea digital n regimul thumbnails din Explorer graie unicitii copertelor n lumea livresc (vezi schema de mai jos).

    U Anexa 3, despre pregtirea copertei i unirea ei la DjVu principal

  • Schem: Fiierele DjVu n Windows Explorer

    NOT: Pentru a putea previzualiza fiierele DjVu n regim thumbnails instalai programul gratuit DjVu Shell Extension.

    Indexarea i textualizarea:

    dugarea stratului de text cules la imaginea DjVu corespunztoare (textualizare), ca i a arborelui de coninut (indexare) sunt etape ultime, textualizarea de

    regul, precednd indexarea. Vor fi tratate n leciile urmtoare. A Anexa 4, pentru descoperirea rezultatului finaln loc de ncheiere:

    n lecia precedent am promis s tratm mai ndeaproape subiectul restaurrii crilor scanate de proast calitate - nelegnd prin ultima att neoformarea estetic a coninutului, ct i defectele de lizibilitate. nrudit cu restaurarea este aa-zisa optimizare grafic, la care vom face apel ns n

    situaiile normale. n exemplul ce urmeaz vom trata un caz comun de compresie a imaginilor de tip gri, care la bitonalizarea normal rezult aproape ntotdeauna defectuoase:

    (a) original (b) bitonalizare normal (c) bitonalizare optimizat

  • Procedeu: bitonalizarea optimizatDjVu Small 0.3.3 profilul photo 300 DjVu Ocr 2.4 (+ bitonal) BMP negru-alb

    1. Comprimai repetent imaginile originale ale paginilor defectuoase n DjVu cu profilul photo 300 (DjVu Small 0.3.3)

    NOT: Dac fiierul surs este PDF, putei salta etapa decomprimnd deodat imaginile individuate n format bmp, cu ajutorul STDU Viewer, versiunea 1.5.330. Pentru o calitate mai bun, putei contrasta noile imagini cu ajutorul lui FastStone Photo Resizer, avnd grij ca la ieire s le salvai tot n format bmp. Necesit timp (350 pagini = 1-2 ore) i spaiu (1 pagin = 10 Mb)!

    2. Decomprimai DjVu n format bmp cu ajutorul lui DjVu Decoder din cadrul lui DjVu Ocr 2.4, selectnd i opiunea pentru bitonalizare: To bitonal (pe desen vezi e)

    3. Recompresia final dup modalitatea obinuit pentru crile negru-alb (profil b/w 300)

    NOT: Acest algoritm poate fi angajat i ca procedeu de baz pentru bitonalizare dac se face abstracie de timpul i de spaiul necesar.

  • ANEXA

    1*secretul

    DJVU

    Anexa 1: Secretul formatului DjVu (napoi la text):

    PDF vs DjVu

    ata foarte mic de compresie a scanatelor atunci cnd sunt salvate ca PDF, se explic prin principiul pe care se bazeaz i anume, pe identificarea repetiiei caracterelor digitale litere, cifre etc mecanism, care n faa informaiei textuale non-textuale

    a imaginilor scanate se adeverete cu totul neputincios. n aceste condiii compresia devine liniar i dezavantajoas din punct de vedere economic.

    R Pe de alt parte, mecanismul pe care se bizuie codificarea DjVu este descompunerea imaginilor pe straturi cu aplicarea consecutiv a diverselor metode de compresie pentru fiecare din ele.

    Principiul formatului DjVu:

    onst n separarea figurii de fond: elementele grafice cu contururi nete (text i desene) formeaz stratul mask/stencil, care mpreun cu informaia despre culori alctuiete aa-zisul strat superficial foreground. Toate celelalte elemente,

    mai mult sau mai puin estompate, formeaz aa-zisul strat profund background (vezi schemele urmtoare).

    CIat i secretul. Stratul superficial, ca purttor de baz al informaiei utile lizibile, este comprimat cu rezoluie 100%, iar cel profund dup caz, n funcie de profilul ales (de la 0 - n bitonal, la 100% n photo). n toate cazurile informaia util trebuie s rmn clar i distinct (stratul superficial = text; stratul profund = foto, vezi schema de mai jos).

    Schem: DjVu, strat cu strat

    (a) imaginea deplin (color) (b) stratul masc (stencil)

  • ANEXA

    1*secretul

    DJVU

    (c) stratul profund (background) (d) stratul superficial (foreground)

    Un truc util:

    u este greu s v dai seama cum stratul superficial (foreground) conine n sine toat informaia util. Vestea bun e c acesta poate fi separat de celelalte i salvat de sinestttor. n afar de ctigul evident n calitate, acest truc ofer i un

    semnificativ avantaj economic ntr-adevr, nlturarea stratului profund background poate reduce cu cca 15-20% greutatea fiierului!

    NProcedeu: separarea DjVu n straturi

    Prima metod DjView 4.3 TIF multipaginat (= 1 fiier) A doua metod DjVu Ocr 2.4 TIF unu-per-pagin (= multe fiiere)

    PRIMA METOD:

    zolarea straturilor este posibil n cadrul programului deja cunoscut nou, DjView, care are i avantajul de a putea vizualiza n timp real fiecare

    strat n parte. Izolarea unui strat se face simplu:I

    1. Bifai stratul dorit, accesnd meniul: View-->Display, n timp ce vizualizai cartea DjVu

    2. Efectuai decodificarea n TIF dup procedeul cunoscut (indicat n Lecia 1, la capitolul despre bitonalizare).

  • ANEXA

    1*secretul

    DJVU

    Atenie: la salvarea color avei grij s debifai n prealabil csua Force G4Fax Compress, altfel informaia despre culori va fi automat omis!

    A DOUA METOD:

    celai efect poate fi obinut cu ajutorul unui alt program gratuit la care vom apela la etapa de textualizare a DjVu DjVu OCR 2.4:A

    1. Pe pagina principal selectai DjVu Decoder:

    2. Pe noua pagin deschis:

    2 - adugai fiierul DjVu n lista de alturi3 - selectai mapa pentru salvarea rezultatului4 - alegei formatul grafic la ieire 5 - indicai diapazonul de pagini spre decodificare6 - alegei stratul care dorii s-l izolai7 - n cazul imaginilor negru-alb, bifai pentru bitonalizare automat8 - dai la execuie

    NOT: Spre deosebire de programul DjView, DjVu Ocr salveaz fiierele TIF unu per pagin, deci la ieire vei avea tot attea fiiere ct i pagini n carte. Dac planificai convertarea n PDF recomand folosirea primei metode (pentru c produce un fiier TIF unic, multipaginat).

    Atenie! Exist un risc de a pierde din informaia util dac ea este omis n stratul salvat! Aceast eroare poate fi evitat previzualiznd stratul de nlturat nainte de tergerea lui definitiv, pentru excluderea oricror elemente utile (litere, linii etc) precipitate din greeal n cursul codificrii. Spre ex., la salvarea stratului foreground se va previzualiza stratul profund background i viceversa.

  • ANEXA

    2

    *compresia

    DJVU

    Anexa 2: Compresia DjVu (napoi la text)

    Procedeu: compresia DjVu negru-alb

    DjVu Small 0.3.3 profil user b/w 300 ( +/- trucuri) fiier DjVu negru-alb

    1. Deschidei fiierele sau mapa cu imagini2. Indicai mapa pentru salvarea rezultatului

    3. Bifai operaiunea

    4. Alegei profilul

    *5. Trecei la opiunile avansate

    6. Alegei tabla: Document->DjVu (2)

    7. Bifai csua: Text quality, alegei din lista regimul lossy

    8. Bifai csua: Pages per dict, indicai un numr

    9. Trecei la fereastra principal

    10. Dai la execuie tastnd butonul Convert

    NOT: Opiunile 5-8 (trucuri facultative) asigur un ctig n greutate de pn la 25% (cu un efect neglijabil asupra calitii imaginilor, dar cu o posibil ncetinire a procesului de lecturare a crii astfel comprimate)

  • ANEXA

    3

    *copertarea

    Anexa 3: Copertarea color a crilor DjVu (napoi la text)

    Procedeu: copertarea crilor DjVu

    Scanare n regim color (true color) Fast Stone Photo Resizer 2.8 DjVu Small 0.3.3 (Photo 300) DjVu Merger

    1. Scanarea repetat n culori:

    canarea obinuit a crilor nu se face n culori (ci n grayscale), pe de alt parte, coperta este aproape ntotdeauna colorat. Prin urmare, se vor scana n prealabil, i separat de restul crii, cele dou coperte (fronte i retro) n regim color (true color

    sau milions of colors). Se va avea grij de a poziiona perfect cartea pe geamul scanner-ului i de a o decupa imediat, n timpul scanrii (se va salva n JPEG).

    S2. Redimensionarea:

    maginile copertelor se vor adapta dimensional dup valorile nlime-lime din cartea DjVu gata comprimat (valorile pot fi citite n STDU Viewer, intrnd n meniul File--> Properties-->panoul List pages). Recomandabil este programul gratuit Fast Stone

    Photo Resizer 2.8, pe care l vom folosi nu rareori n continuare. I

  • ANEXA

    3

    *copertarea

    1 - deschidei mapa cu imaginile pentru modificare2 - adugai-le n lista de lucru3 - indicai formatul la ieire i mapa pentru salvarea rezultatului4 - bifai csua Use Advanced Options i tastai butonul corespunztor

    5 - activai tabla Resize bifnd csua6 - bifai n dreptul unitilor de msur In Pixels7 - indicai valorile exacte pentru nlime (Height) i lime (Width), identice cu cele din imaginile gata din cartea comprimat8 - alegei metoda de compresie Bicubic9 - dezactivai opiunea pentru pstrarea proporiilor la redimensionare10 - salvai modificrile i trecei la fereastra principal.

    Dai la execuie tastnd butonul Convert.

    3. Compresia DjVu:

    entru compresie folosim DjVu Small 0.3.3 n regim Photo 300. Putei apela la un truc (descris n continuare) pentru a controla greutatea fiierului rezultat (n mod normal n regim Photo - comprimat la o rat joas). P

  • ANEXA

    3

    *copertarea

    Schem: Un truc pentru reducerea greutii unui fiier tip foto

    1. Accesnd opiunile avansate, intrai n tabla Document->DjVu (2) i activai csua Sizes.

    2. n drept cu ea indicai, n ordine cresctoare, valorile n bytes ale imaginii DjVu aa cum dorii s rezulte dup compresie.

    n exemplul din schem: 20000+40000+150000 = 210000 bytes = 205 Kb, adic fiierul DjVu va avea o greutate de cca 205 Kb). Aceste valori sunt arbitrare i se vor selecta n funcie de calitatea final dorit.

    Atenie: Nu uitai s dezactivai manual csua Sizes dup utilizare, mai ales dac planificai o compresie DjVu n regim Photo ntr-un moment secund.

    4. Anexarea copertei la cartea DjVu:

    operta astfel comprimat poate fi anexat la fiierul principal folosind programul DjVu merger. Lucreaz fr interfa, dup procedeul ce urmeaz:C

    1. Plasai cele dou fiiere DjVu (coperta i cartea) n mapa cu programul.2. Redenumii fiierele: pentru copert schimbai n 0000.djvu, pentru cartea de baz

    n 0001.djvu

    NOT: La unirea mai multor pri cu ajutorul programului DjVu merger, redenumii fiecare fiier n ordine succesiv, dup cum urmeaz: coperta = 0000.djvu; blocul de pagini 1-200 = 0001.djvu; blocul 201-400 = 0002.djvu etc.

    3. Indicai diapazonul exact de pagini n fiierul list.txt din aceiai map4. Dai la execuie programul merger5. Fiierul Book.djvu din aceiai map este cel rezultat dup unire.

    Atenie: Programul prezint un defect de funcionare n cazul fiierelor mai mari de 2-3 megabaii n acest caz, putei scinda n prealabil fiierul de baz n buci convenabile (folosind programul DjView vezi n continuare).

  • ANEXA

    3

    *copertarea

    Schem: Scindarea n blocuri a fiierelor DjVu cu ajutorul programului DjView 4.3

    1. Accesai meniul: File--> Save as... Indicai diapazonul de pagini Pages pentru fiecare bloc de scindat: de ex. 1-200, 201-400 etc.

    2. Alegei formatul: Bundled DjVu Document.

    3. Indicai mapa pentru salvarea rezultatului.

    4. Dai la execuie (Ok).

    NOT: Pentru a nu face confuzie n privina diapazonului, recomand s numii fiecare bloc salvat cu numrul de la...pn la corespunztor: de ex., 1-200.djvu, 201-400.djvu etc.

  • ANEXA

    4*finalizarea

    Anexa 4: Indexarea i textualizarea, DjView 4.3 (napoi la text)

    1 - arborele crii (outline - n DjView 4.3, content - n STDU Viewer)2 - motorul de cutare (find - n DjView 4.3, search - n STDU Viewer)