Post on 17-Jun-2015
스캔문 고 축 -DjVu 술 개
DjVu High Compression Technology 전 문 고 축 포 술
스캔문 (전 문 ) 고 축 하고 문 갖춘 DjVu 포맷 축 술에 한 개 량 미 문 조 한 문 / 스트 술에 한 고찰
츠
DjVu 축 포맷 스트 술 개1. 개2. DjVu 축 식 개3. 흑 문 한 TIFF 포맷과 DjVu 4. JPEG 포맷과 DjVu 5. DjVu JPEG2000 6. DjVu PDF 7. DjVu Page Streaming Server (DPSS) 능8. 본문 내 검 ( 단 검 ) 한 술9. Ajax DjVu 뷰
치
DjVu 압축 포맷 및 페이지 스트리밍 기술 소개
작성자 : 최흥식(hsikchoi@gmail.com)
1.소개
DjVu는 한마 하 프 상에 또는 컬러 계 지 웹에 도 그 질 그 지하고 검색, 포, 압 , 할 수 게 한 새 운 압 술 다. 술 1990 후 에 미AT&T Lab에 연 개 것 2000 에 미 시애들 재 Lizadtech에 술 수하 보
시 한 루 다. 재는 Lizartech 사는 Celartem 사 100% 사 수 통합 었다.
DjVu 술 주는 주 사상 “Scan-to-Web’ 다. 그 동안 스 닝 통해 지 는 나 고 질 사진 등 그 가 커 웹 통해 스가 가능 하 에 해 하는 술 것 다.근에는 고 질 컬러 스 지 보 하여 프 상 나 책 들에 한
지 가 고 는 시 에 러한 술 욱 진가 하게 다.
DjVu 는 단어는 어 ‘déjà vu’ 에 것 ‘어 본 듯한 느낌 또는 착각’ 갖고 다고 한다. 우리말 는 ‘ 뷰’ 한다. DjVu는 웹 상에 통 는 TIFF, PDF, JPEG과 같 또 다 하나 포맷 도 하다. DjVu 만들어진 는 가 ‘djvu’ 또는 ‘djv’ 시 다. DjVu 시 는 PDF 마찬가지
게 웹에 , 포, 다운 드, 등 가능하다. DjVu 보 해 는 뷰 러지(DjVu 뷰어 동 )사 지에 료 다운 드 수 다. 사 우 에 도우시스에 는 스플 러 닉스에 는 스 프 그리고 Mac 사 는 Mac reader 다운 드 아 사
할 수 다.
1000 지가 는 컬러 책 300DPI 해상도 스 닝 하여 웹에 스 한다고 할 300DPI 해상도 질 웹에 지 하 해 는 어도 400Mbytes (JPEG 지당 500Kbyte 도 ) 상 가
필 하게 다. 400Mbytes 나 는 책 웹에 스하는 것 거 가능하다고 볼 수 것 다. DjVu는
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 1/20
400Mbytes 1/20 압 하여 20Mbtyes 만들 수 고 지 단 스트리 술 하여 책 지수 에 상 없 고 질 지 한 검색 도(1-2 도) 보 하 검색할 수 게 한
다.
지도나 도 지 할 경우 한 는 100Mbyt�s 또는 200Mbyt�s 상 는 경우가 보통 다. 도 웹에 스할 수 는 도 어 게 다. DjVu는 러한 지도나 도 과 같
한 미지 가 경우도 한 압 할 뿐만 아니 웹에 스할 경우 진
미지 술 통해 아 리 미지 도 사 에는 다림 없 미지 순식간에 볼 수가
게 하여 다.
스 닝 또는 지 통해 만들어진 든 지 료나 사진들 DjVu 변 가능하다. 뿐만 아니
MS-Offic� (워드, 워포 트, 엑 )나 아 아한 , PDF 등등 DjVu 변 할 수 다.
2. DjVu 압축 방식 소개
DjVu는 게 3가지 압 식 공한다.
(biton�l) 미지 압 JBIG2 술 한 JB2 압 식, 식 미지에 하여
Lossl�ss/Visu�l Lossl�ss 식 하여 압 할 수 다.
컬러 미지 압 W�v�l�t 식 IW44 압 . 식 JPEG2000과 같 w�v�l�t 술 사 한다.
MRC (Mixed Raster Content) 압 식- 식 앞에 개 것과 같 미지 내 하여 3개
계 동 리하여 각각 계 에 맞는 미지 압 식 한다
3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비
우리는 스 통해 하거나 수신하 도 한다. 스 는 통해 껏 해야 9600bps
도 도 필 한 수신 한다. 러한 낮 도 통해 가능 한한 많 보 보
내 해 는 보량 한 는 것 건 것 다.
1980 에 CCITT 그룹에 는 Bi-level 미지( 미지) 하 한 Group 3 포맷 했다. 1984 에는 G3 향상 시 압 고안 Group 4가 었다. 스 뿐만 아니 지 도
야에 원 스 닝 하여 미지 하는 가 많 사 하고 는 포맷 G4 압 식
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 2/20
는 TIFF G4 타 다.
G4 후 1993 에 Joint Bi-level Images Experts Group (JBIG)에 는 새 운 미지 JBIG1 하 나 G4 보다 압 갖고 에도 하고 G4 만 리 보
지는 못하 다. 2000 에는 G4 보다 약 3 - 4 도 압 JBIG2가 었다. AT&T 는 당시
에 JBIG2 에 근거하여 미지 압 포맷 개 하 는 것 DjVu JB2 다.
DjVu JB2 포맷 TIFF G4 미지 보다 약 3-5 도 압 갖고 다..
TIFF G4는 단순 미지 압 하는 포맷 뿐 지 그 상도 아니다. TIFF 포맷 안에 PDF 같 차 보여주는 책갈피 보 삽 하여 할 수 게 하는 능, 타 미지 안에 삽 하여 검색
시 하는 능, 원 본 내 검색할 수 도 스트 보 원 미지 같 할 수 는 능 등 지원하지 않 에 러한 능 해 는 별도 프 그 만들어 공해야 하는 들 갖고
다.
다 미지 포맷과는 다 게 여러 지 하나 에 들 할 수 는 Multi-TIFF 능 공하도 하지만 에 언 한 능들 한 프 그 에 는 러한 Multi-TIFF 능과 함께 할 수 없 에
별 없는 것 어 다.
TIFF는 포맷 식 어 에도 하고 스플 러 같 우 에 직 TIFF 볼 수없 에 별도 TIFF vi�w�r 하여 하여야 하는 TIFF vi�w�r 능도 어 지 않 에
스 하는 나 업체에 그 사 과 안 는 갖고 도 하다.
비항목
DjVu TIFFG4/JBIG1
비고
개 처
미 AT&T에 개
한 에 는 Celartem Korea에공 술지원
Joint Bi-levelImage ExpertsGroup에 재 한
미지 압 규약
JBIG1 압 는 public domain에 source 가 공개S/W
지원 압식
- 미지는JBIG2/JB2 압
- 실/ 실 압 식 지원
-컬러 미지는 IW44 압 사
- DjVu는 /컬러 지원
- 미지 만 JBIG1 식
- 실 식만 지원
객 JBIG2/JB2 식 JBIG1 보다 2 - 4 압 것 평가 고
압 - 미지 TIFF G4 식보다 20– 40% 수
- JBIG1 미지 TIFF G4 식보
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 3/20
–
-컬러 미지 JPEG 보다 1/10 –1/30
다 60 – 80% 수
- 컬러 미지 가
내검색 능
- DjVu 내에 OCR texthidden text XML 삽하여 viewer 내에 full text 검색
검색 결과 highlight 처리
- 검색엔진과 연동하여 page단 검색 가능
- 가능
티 지 지원
- 본 티 지 지원
- 차 삽 display 능
- Multi-TIFF 지원
- TIFF 포맷에는 차 처리 능 공하지 않
OCR 처리능
- DjVu는 OCR 엔진 본공
- 3rd party OCR 과 어플리
level 연동
타 보삽 능
DjVu 안에 타 보 삽 능
- 가능 DjVu 안에 hidden text-XML 타 보 삽 하고 하는 능
컬러 미지 압 지원
지원 포맷
시각 애
스508 지원
-시각 애 한 스 508
- 가능 - 508 IT 어플리 시각 애 들
해 든 는 스트나 내 에 해 3rd
pary screen reader(508 ) 통해 text-to-speech 할 수 게 하는 스
vi�w�r공
Windows/Unix/Mac/PocketPC
플랫폼 공
-IE/Netscape plug-in 공
- C/S 경 지원
Windows 만 공
- C/S 경 지원
능 압 능 JBIG1 과 동
viewing 복원 도는 JBIG1보다2 -5 능 향상
-Viewing 복원도는 DjVu 보다 2
– 5 도 느림
[TIFF-G4/ JBIG/ JBIG2 DjVu ]
GIF Image Name
(200 dpi)
Horizontal x
Vertical Size
TIFF
Uncompressed
Size (bytes)
TIFF G4
(bytes)
JBIG
(bytes)
JBIG2
(MQ)
JBIG2
(CSM, G4)
JBIG2
(CSM, MQ)
DjVu (bitonal
JB2)*
f01_200 1728x2339 505286 16618 12732 12732 6879 6424 5213
f02_200 1728x2339 505286 10464 8140 7756 10863 8260 7960
f03_200 1728x2339 505286 25590 19982 19278 14241 11732 10796
f04_200 1728x2339 505286 64058 48171 46195 16126 15529
12017
f05_200 1728x2339 505286 29285 23442 22443 12400 10574
10374
f06_200 1728x2339 505286 15774 11771 11554 14944 11255
10470
f07_200 1728x2339 505286 66433 52106 50832 42009 35248
23163
f08_200 1728x2339 505286 17984 13993 12724 18075 13252
13274
f10_200 1728x2336 504638 142091 63886 51405 133359 50228
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 4/20
52124
Totals: 4546926 388297 254223 234919 268896 162532
145391
Percentages: 100% 8.54% 5.59% 5.17% 5.91% 3.57% 3.2%
4. JPEG 포맷과 DjVu와의 비
컬러 미지 하는 식 에 가 보편 포맷 JPEG 다. JPEG 나 압 식 공하 에
컬러 미지 하고 하는 매우 당한 포맷 식 고 다.
JPEG 보다 압 향상 시 JPEG2000 안 2000 에 가 었다. JPEG 압 식과 다 Wavelet 알고리 하여 만들어진 안 다. 나 능, 미지 질 에 JPEG 보다 훨씬 것
평가 고는 나 아직 지 JPEG2000 보편하게 지 않고 는 실 다.
JPEG 한 는 사진과 같 하고 하는 당하다고 할 수 나. 컬러 컬러 스 닝 하여 여러 하나 책 어 하고 스하는 에는 맞지 않 단
다. TIFF 포맷과 같 여러 미지 한 개 들 수 는 Multi-TIFF 같 식 지원 지
않 다.
DjVu는 컬러 미지 압 해 JPEG2000과 같 Wavelet 압 식 IW44 식 한다. 압 JPEG과 하여 같 질 보 하 그 는 JPEG보다 1/10 – 1/20 도 압 수 다. [그림-3]
참
DjVu는 JPEG 포맷과 마찬가지 낱 단 압 할 수 지만 Multi-TIFF 식과 같 여러 미지 하나 어 스 할 수 다.
원본 미지가 고해상도 미지 경우 DjVu 압
미지 고 할 지 도 가 수 가 다. 그러나 웹에 우 에 플러그 DjVu vi�w�r 통해 보게 경우 TIFF나 JPEG과 같 체 다운 드 후 스플 하는 식 하지
않고 진 미지 술 하 에 사 는 원하는 미지 지연 시간 없 시 볼 수가 게
다.
[그림-4]에 고 앨 샘플 보 50 지 는 고 질(600dpi) 원본 JPEG 하 231.3Mbytes가 나 DjVu 압 (segment 식 압 ) 하 1.85Mbyt�s가 다. 또한 고 헌 샘플 보 918
지나 는 책 JPEG 하 378.20Mbyt�s가 나 DjVu 압 (photo 식 압 ) 하 181.57 Mbytes가다. 압 도 지 수가 918 나 에 180M 게 다. 그러나, 웹에 180M나 는
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 5/20
DjVu 검색하여 보 체 180M 다운 드 아 스플 하지 않고 필 한 지만 택 스트리 해 보여 지 에 지연 시간 없 볼 수가 게 다.
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 6/20
항 DjVu JPEG 고본 사상 ‘Scan-to-Web’
(AT&T에 개 술)
미지 포맷
(ISO 그룹에 지한 포맷)
JPEG 한 미지 하는 포맷
DjVu는 개 갖고 에 한 복수 지 미지나
압 식 하 리드 식
- 미지 : 실 JB2압 식
-컬러 미지 visuallossless wavelet IW44 식
컬러 미지에한 실 압
본
실 압JPEG-LS 포맷
지원
업계에 실 JPEG-LS 는 거 지원하지 않
압 평균 JPEG 보다 1/10-1/20 압 DjVu 보다 10 20 도
JPEG과 DjVu 같 미지할 DjVu 미지가 훨씬 quality
가 우수
Multi page지원
Single Page/Multi-page포맷 지원
Single page식
JPEG 여러 미지 하나 file bundle 하여 포하거나 스 할
수 없 . JPEG 낱 단 포맷
타 삽
XML 타DjVu 포맷 안에 삽
할 수 는 능 공
가 JPEG 포맷 안에 스트나 타 다 타 보 삽 하거나 할 수 없
스트 검색능
컨 내에 스트 검색 검색 워드에 한 하
가 JPEG 미지 하는 수단컨 내 내 처리할 수 능
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 7/20
트 능 공 없
ProgressiveDisplay 지원
본 능 지원 JPEG도 Progressive display 식 지원하고 나 거 지 못하고
는 실
항 DjVu JPEG 고지 단 스트
리공 가 지 단 스트리 많 지
미지나 원 들에 해웹 통해 스 할 매우 한 능
One-source,Multipleextraction 능
공 가능
(별도 미지,간 미지, 게
보 미지 같 스 별 미지
여러 갖고 어야함)
능 한 미지만 갖고 고스 할 실시간 원하는
미지 미지내 역 만 하게 하는 능
SelectiveDecompression
능
지원 가능 가 미지 웹 통해 포 할 한 술
( 에 보 는 특 역 만 실시간 / / 동하게 하는 능)
vi�w�r plug-in 지원
- 웹 우 plug-in
공
-OCX 듈 공 C/S
가능
- viewer커스 마
능 가능
-plug-in 없 웹 우
-viewer 한 커스마 능 가
(third party tool )
JPEG 웹 우 안에 원하는 / /PAN 할 수 없고. 90도 능, 보 능등 공
지 않
시각 애 스 508
지원
-시각 애한
스 508
- 가능 - 508 IT 어플리 시각 애 들 해 든 는
스트나 내 에 해 3rd pary screenreader(508 ) 통해 text-to-speech 할 수 게 하는 스
포맷 변 능 JPEG,TIFF,GIF,BMP,PBM 포맷DjVu 압 복원 능
포맷 변 해third p�rty 변 사
5. DjVu 와 JPEG2000의 비
5.1 칼라 이미지 quality 비
다 동 한 원본 미지 jp�g2000과 DjVu 각각 가 1.5 KByt�가 도 압 했 압 미지
다.
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 8/20
5.2 흑백 이미지 비
미지 압 할 경우 Jp�g2000 본 Run L�ngth Coding 식 또는 그 사한 식 지만 DjVu는Run Length Coding 에 Shape Dictionary 식 사 한다. 여 Shape Dictionary는 한 미지에 복
는 동 태( 들어 미지 ) 한 만 압 해 하고 나 지 경우는 그 태 보만 수 하는 식 복 는 수가 많 수 압 가한다. DjVu 포맷 한 에 여러 지 미지 수 하는 식(bundled 포맷)에 는 여러 지에 하나 공통 Shape Dictionary 참 할
경우 압 상당 향상 다.
다 동 한 미지 미지 별 료 다.
KBytes
미지 포맷 BMP TIF (G4) JP2000 DjVu
드 신청
미지( )
466 65 64 44
지 사
미지( )
960 584 99 35
5.3 파일 포맷
DjVu 는 한 개 안에 여러 지 미지 포함하는 bundled 포맷과 한 에 다 연결 는link가 는 indirect 포맷도 지원한다. DjVu는 여러 지 하나 어 (bundle) 가능하고,
체 지 보 갖고 웹 스 시 지 단 싱 검색 가능
JPEG2000 든 미지 낱 . 여러 지 bundle 는 개 없 .
5.4 압축 속도
다 10 MB true colour BMP 도 그 프 다.
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 9/20
5.5. 화면 표시 속도
다 동 한 압 한 것 에 시하는 걸리는 시간 한 그 프 다.
항 DjVu JPEG2000 고본 사상 ‘Scan-
to-Web’미지 포맷 JPEG2000 한 미지
하는 포맷
DjVu는 개 갖고 에 한 복수
지 미지나
압 식 하 리드 식
- 미지:실 JB2 압 식
-컬러 미지visual losslesswavelet IW44
컬러 미지에 한 실 압 본
미지 에 한
실 압 지원하지 않
JPEG2000 컬러 미지 압 식 미지
압 시 실 압 지원않함
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 10/20
식
압 1. 항 컬러미지 quality 참
1. 항 컬러 미지quality 참
JPEG2000과 DjVu 같 미지 할 DjVu
미지가 훨씬 quality 가 우수
Multi page 지원 SinglePage/Multi-page포맷 지원
Single page 식 JPEG2000 여러 미지 하나 file bundle 하여
포하거나 스 할 수 없 .JPEG2000 낱 단 포맷
타 삽 XML 타 DjVu 포
맷 안에 삽 할 수 는
능 공
가 JPEG2000 포맷 안에 스트나타 다 타 보 삽 하
거나 할 수 없
스트 검색 능 컨 내에 스트 검색 검색
워드에 한하 트 능
공
가 JPEG2000 미지 하는 수단 컨 내 내
처리할 수 능 없
ProgressiveDisplay 지원
본 능 지원
지 단 스트리
공 가 지 단 스트리 많 지 미지나 원
들에 해 웹 통해 스 할 매우 한 능
One-source,Multipleextraction 능
공 가능
(별도 미지, 간 미지, 게 보
미지 같 스 별 미지 여러 갖고
어야 함)
능 한 미지만 갖고 고 스 할 실시간
원하는 미지
미지내 역 만 하게 하는 능
SelectiveDecompression
능
지원 가능 가 미지 웹통해 포 할 한 술
( 에 보 는 특 역 만 실시간 / / 동하게 하는 능)
보안 통 능 -프린트 통 능
-다운 드 통능
-프린트 시 실시간 워 마 삽
능 공
가능
vi�w�r plug-in 지원
- 웹 우 plug-in 공
-OCX 듈 공 C/S 가능
- viewer 커스 마 능가능
-plug-in 없 웹 우
-viewer 한 커스 마 능 가(third party
tool )
JPEG2000 웹 우 안에 원하는 //PAN 할 수 없고. 90도
능, 보 능등 공지 않
포맷 변 능 JPEG,TIFF,GIF,BMP,PBM 포맷DjVu 압
포맷 변 해 thirdp�rty 변 사
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 11/20
복원 능
6. DjVu 와 PDF 비
PDF 포맷 본 지 들 웹 통해 리싱하 한 루 어 다. 워드나 아 아한 ,매 시 쿽 스프 스등 스트 웹 통해 포하 해 는 PDF 포맷만
없 것 다.
PDF 는 Acrobat Reader 료 사 하 누 나 쉽게 PDF 수 는 다. 뿐만 아니 PDF 는 내 수 할 수 없고 수 만 게 어 에 욱 포 는 매우 당
한 루 것 다. 그러나 스 닝 한 미지 PDF 포맷 하고 포하는 는 그 한계 고는 실 다.. 스 닝 한 는 그 체가 미지 포맷 지 스트 보다는 가 나
수 에 없다. PDF는 본 압 하지 않고 에 스 닝 미지 PDF 담 해
는 그 상 하게 다.
[그림-5]에 들 스 닝 해 PDF 포맷과 DjVu 포맷 한 료가 다. 원 경우 평균PDF 가 DjVu 보다 4 도 것 볼 수가 것 다.
그 에도 연간 업보고 110 지 책 300DPI 컬러 스 닝 하여 PDF 하게 약 140Mbyt�s 도가 나. 그러나 DjVu 하 약 3Mbyt�s 도 하게 다. ([그림-6] 에 업 Annu�l R�port 참
하시 니다)
에 신 지 스 PDF 포맷 많 고 다. 그러나, [그림-6]에 알 수 듯 신 66
도 지 에 컬러 고 지 포함 하 PDF 는 70Mbyt�s가 게 다. 각 신 사는 신지 스 해 66 하나 PDF 어 포하지는 못하고 각 단 PDF 만들어 포하고 는 실 다.
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 12/20
워드 같 지 포하 한 포맷 PDF 가 당하다 DjVu는 고 질 컬러/ 스 닝한 해 는 PDF 포맷 보다 훨씬 뛰어 남 알 수 가 다.
항 DjVu PDF
본사상 'sc�n-to-w�b' -to-
DjVu는 지 하여 웹스 하 한 루 탄생
술
가 합한 야
많 양 /컬러 스 닝 하여 웹 검색 스하는
야에 합
- 원 50지 상 스에 합
- 원 고해상도 컬러 포함하고 한 지
가 경우에 합
- 향후 컬러 원 스시에는 욱 진가
-CAD 나 엔지니어링 매뉴얼, Parts Book등 포하고 하는
야
(hwp,워드,GUL) 포
하는야에 합
-50 지 미만 스
에 합
PDF는 프린트하고 포하 한 루 탄생 술
재는 DjVu 도 뿐만 아니지 ( 피스 )도 DjVu
변 하여 PDF 보다 경량 하여 포가 가능
사에
능
체 지수 상 없 1 미만
검색 스플
체 지수 가 수 검
색 스플 시간
사 들 PDF 스시 가 만 사항 ‘ 느리다’,
‘너 겁다’,‘ 필 한 능 많다’
스
에 는
원
약 0.75 T�r�Byt�s 약 3 T�r�Byt�s DjVu가 PDF 보다 평균 1/4 도 원
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 13/20
(5000만 지
원시)
/ 통합 스
능
- 고 /
검색 도
- 통합 능
- 고 / 같 질 같 도 지 능
- 한 변경없 / 동시
스
가능 통합 능 한 / 같 질 스 할 수
는 능
통합 vi�w�r능
공 가능 가능 사 는 한개 vi�w�r에 TIFF/DjVu/ PDF/ JPEG 검색할 수
는 능
vi�w�r
없 검색할 수 는
능
DjVu Express Server능
- 가능한든 스에 검색
가능
가능 vi�w�r 없 도 DjVu 나미지 스플 / // /다 지/ 지/
지 동 능 공
항 DjVu PDF
웹 스 식
지 단 웹 스트리능 (indir�ct 능)
체 단 (bundl� 능) 공
- Byte streaming 나Fast Web 식 아닌DjVu만 고 한 지스트리 술)
Bundle 식 만 공
( FastWeb view
능)
PDF에 도 Fast Web view 식 공한다고 하나. Acrobat Reader 5.0 상에 만
( 스 사 트에 는 한 개 가 경우 지 단 리하거나 강 10M 미만 단 지 리해
스하는 식 취함)
-각 신 사 지 스는 한 단 스 한 학술 보원(k�ris)는 10M단 강
리
vi�w�r
900KB 17M DjVu viewer 시간 5-10
Acrobat Reader 시간 약 5-10
원 미지압 지원
식
Lossless/VisualLossless 식 지원
PDF내 객체들만
지원
체 상 압 복원 DjVu 만 지원
DjVu압 식 실/ 실 압 지원
압 원 미지 복원 능
든 압 원 미지 는 원본 복귀 가능
가능 DjVu는 압 복원 공
고해상도 컬러 원 미지 검색
포 능
/ / vi�w�r/no-vi�w�r 에게 픽 스트리 술 하여 액
스 가능
가능 -한 개 미지 10M 상 (고지도/고헌/고 ) 경우 PDF는 스 가능
지도 - Google book 검색
-미 도 /미 /
- PDF는 량 원 도 지 하여검색 스 공하는 에 스만 도는 매우 낮
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 14/20
럽/ 본 학
도 에 PDF
안 루 사
- 미 archive.org
- 본 립공
아시아 역사
(www.j�c�r.go.jp)
다수 공공
- 울 도 , 한행, 원도
- 보
- , 행
- 청
-삼 , LG
-삼 재
- 산 프 어
- 리어
- 계 openformat 600만 사
-PDF 에 한 안 루 DjVu루 고 는 실
항 DjVu PDF
- 든 (PDF,아 아 한
포함) DjVu변 능 공
- 든 컬러 원 미지 DjVu 변
능
- / 통합능
- 변 능
- 티미어 삽 능
DjVu도 든 지 압 변 할 수 는 공
타삽
XML 타 삽
능 공
지원 DjVu Hidden text 삽 하는 능
지 단 검색
지원 지원
XML 연동 본 능 지원 DjVu는 든 스트 보는 XML 어
시각 애 스 508 지원
-시각 애한
스 508
-AcrobatReader6.0 에만 지원
- 508 IT 어플리 시각 애 들
해 든 는 스트나 내 에 해 3rd
pary screen reader(508 ) 통해 text-to-speech 할 수 게 하는 스
하 링동 삽
- 지원 - 가 - 동삽 에 하여 내 안에 원하는 만골 동 하 링 보 삽 하는 능
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 15/20
DB 연동 지원 지원 고해상도
미지 스 식
진(Progr�ssiv�)스플
체 미지 다운 드후
스플
PDF는 체 미지 다운 드 후 스플 하는 식 시간 많 걸림
Document
PDF Image with
G4 Comp-
ression
PDF Image with
JBIG2 Comp-
ression
(PDF-Capture)
DjVu Image using
JB2 Comp-
ression
Searchable Image
with TIFF-G4
Searchable Image with
JBIG2 Comp-
ression
(PDF-Capture)
Searchable Image Dj Vuusing JB2 Comp-
ression
Contract 58k 14k 10k 72k 28k 12kAnnual
Report
2.89M 511k 396k 2.0M 755k 527k
Technical
Report
2.02M 431k 368k 2.15M 582k 419k
Patent 815k 153k 123k 908k 240k 162k
Total
5.84M
1.11M
897k
5.13M
1.61M
1.12M
Average 100% 19% 15% 100% 31% 22%
7. DjVu Page Streaming Server (DPSS) 능
DjVu는 다 포맷들과는 다 게 하게 DjVu 문 웹 스트
능 제공하고 다. 동 웹 에 전 하 한 동 스트 술 져 만, 문 스트 할 수 는 술 생 할 것 다.
DjVu는 축 문 크 수 , 웹 에 량 미 문 스캔 컨 트 고 전 검 한 문 단 스트능 제공하고 다.
들들 5000 고 DjVu 축 하여 한개 문 만들 경 에 한개 크 가 100M 수가 고 웹에 존 식 포하 꽤 시간 걸 것 나, DPSS 능 하게 전체 다 드
다 고 원하는 접 검 하여 해당 는 게 동 가능하여문 단 뿐만 니라 단 검 하여 고 검 뷰 가능한 것 DjVu만 갖는 한 술 하다
래 트는 미 에 911 러 생하 추 들 찍 5248 DjVu 축하여 하나 DjVu 태 해 DPSS 적 하여 싱한 트
니다.
http://demo.djvutech.com/DPSS/dpsserv.dll/acrocube/911-5000p.djvu/index?DJVUOPTS&thumbnails=yes
내에 는 원 에 제공하는 원 료 에 1390 스캔하여 웹해 스 하고 하다. 1000 가 넘는 스캐닝 문 하고 웹 에 매 검 볼 수 가 다.
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 16/20
http://library.scourt.go.kr/jsp/common/c_djvuview.jsp?v_path=djvu1/%B9%FD%BF%F8%BB%E7.djvu
8. 본문 내 검 ( 단 검 ) 한 술
8.1 Notes
- DjVu 는 문 내에 OCR 처 스트 Office 문 에 스트들 Djvu문 내에 hidden text 존 (hidden text는 XML 또는 plain text export 할 수 ) - hidden text는 word 단 ( /한 과 같 white space 묶여 는 문 열 한것) 또는 char 단 ( / 본 같 띄 쓰 가 는 문 열 한 것) 문 치정보 갖고 . - DjVu 시 에 해 word 단 할 것 니 char 단 할 것 결정 해 함. - Djvu문 는 본적 hidden text들 DjVu active/x plug-in viewer에 하여 하 라
트 처 시가 니다. ( 한 항 래 내 참조) - DjVu 뷰 에 는 검 엔 과 같 검 능 제공하 는 , PDF Acrobatreader 에 같 뷰 내에 검 스트 단 매칭에 해 sequential 하게 찾 가는 태 동
8.2. Hidden tex t 조
- 원문 스트 sample: "스캔문 / 량 미 고 축/고 전 /보 술"
1). word-공 (nospace) 스트가 경 - DjVutoText 추출하 : "스캔문 / 량 미 고 축/고 전 /보술" 같 추출 (단 단 에 공 는 태) - DjVuToXml 추출하 : <LINE>
<WORD coords="849,690,1464,611">스캔문 / 량</WORD> <WORD coords="1497,690,1819,611"> 미 </WORD></LINE><LINE> <WORD coords="721,788,967,713">고 </WORD> <WORD coords="1000,790,1362,711"> 축/고 </WORD> <WORD coords="1393,790,1757,711">전 /보 </WORD> <WORD coords="1791,790,1953,711"> 술</WORD> </LINE>
- DjVu plug-in 뷰 에 검 시 하 라 트: 뷰 는 "스캔문 / 량 미 고축/고 전 /보 술" hidden text에 해 pattern matching 검
= 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술 = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 " 축/고 전
/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 " 전" -> 하 라 트 "스캔문 / 량 미 고 축/고 전
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 17/20
/보 " = 키워드 " 고" -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 "
2). word-공 (space) 스트가 경 - DjVutoText 추출 하 : 원문 스트 동 "스캔문 / 량 미 고 축/고 전 /보 술" (단 에 공 ) - DjVuToXML 추출 하 : 1) XML 과 동 - DjVu plug-in 뷰 에 검 시 하 라 트 = 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술" = 키워드 "보 " -> 결과 = 키워드 " 전" -> 결과 = 키워드 " 고" -> 결과 3). char-공 (nospace) 스트가 경 - DjVutoText 추출하 : "스캔문 / 량 미 고 축/고 전 /보 술"
같 추출 (단 에 공 ) - DjVuToXml 추출하 : <LINE>
<WORD> <CHAR coords="849,680,928,615">스</CHAR> <CHAR coords="934,688,1009,613">캔</CHAR> <CHAR coords="1016,688,1095,613">문</CHAR> <CHAR coords="1098,690,1174,611"> </CHAR> <CHAR coords="1181,688,1213,611">/</CHAR> <CHAR coords="1222,690,1295,611"> </CHAR> <CHAR coords="1301,690,1380,613"> </CHAR> <CHAR coords="1390,690,1464,613">량</CHAR>
</WORD> <WORD>
<CHAR coords="1497,690,1568,611"> </CHAR> <CHAR coords="1583,690,1652,611">미</CHAR> <CHAR coords="1662,690,1736,611"> </CHAR> <CHAR coords="1746,690,1819,611"> </CHAR>
</WORD></LINE><LINE> <WORD>
<CHAR coords="721,780,800,717">고</CHAR> <CHAR coords="804,782,883,713"> </CHAR> <CHAR coords="888,788,967,713"> </CHAR>
</WORD> <WORD>
<CHAR coords="1000,790,1076,711"> </CHAR> <CHAR coords="1081,790,1160,711">축</CHAR> <CHAR coords="1163,788,1195,711">/</CHAR> <CHAR coords="1199,780,1278,717">고</CHAR> <CHAR coords="1283,790,1362,711"> </CHAR>
</WORD>- <WORD>
<CHAR coords="1393,788,1467,711">전</CHAR> <CHAR coords="1477,790,1556,713"> </CHAR> <CHAR coords="1559,788,1591,711">/</CHAR> <CHAR coords="1596,780,1675,717">보</CHAR>
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 18/20
<CHAR coords="1596,780,1675,717">보</CHAR> <CHAR coords="1681,788,1757,713"> </CHAR>
</WORD> <WORD>
<CHAR coords="1791,790,1863,711"> </CHAR> <CHAR coords="1874,788,1953,711">술</CHAR>
</WORD></LINE>
- DjVu plug-in 뷰 에 검 시 하 라 트: 뷰 는 "스캔문 / 량 미 고축/고 전 /보 술" hidden text에 해 pattern matching 검
= 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 술 = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 " 축/고 전
/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술" = 키워드 " 전" -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 " = 키워드 " 고" -> 하 라 트 "스캔문 / 량 미 고 축/고 전 /보 " 4). char-공 (space) 스트가 경 - DjVutoText 추출하 : "스캔문 / 량 미 고 축/고 전 /보
술" (단 에 공 ) - DjVuToXml 추출하 : 3) 과 동
- DjVu plug-in 뷰 에 검 시 하 라 트: = 키워드 "고 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술 = 키워드 " 축" -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술" = 키워드 "보 " -> 하 라 트 "스캔문 / 량 미 고 축/고 전
/보 술" = 키워드 "보 " -> 결과 = 키워드 " 전" -> 결과 = 키워드 " 고" -> 결과
8.3 DjVu Active/X plug-in 뷰 에 하 라 트 처
- DjVu viewer active/x componet 는 내 method 래 같 함수 제공합니다. = HighlightTerm(exp, bMatchCase, bMatchWord, bAllMatches, color) :
exp 문 열 식에 매칭 는 첫 째 또는 든 스트 정 컬러 하 라 트 시킵니다. = (VB6, JScript) myDjVu.HighlightTerm(" 축", 0, 0, 1, 0x0000FF); /* VB나 JScript 에 뷰 함수 출 하 해당 는 에 ' 축' 스트 치하는 든 스트는 color(0x0000FF) 하 라 트 - 하 라 트 처 는 태는 에 한 Hidden text 조에 해 결정
9. Ajax DjVu 뷰
DjVu는 실시간(on-the-fly) 원하는 크 미 추출하는 능 갖고 다.DjVu Streaming Server(DPSS)는 웹 http 프 에 해 DjVu문 원하는크 미 추출하는 능 제공한다.
DjVu Ajax 뷰 는 DPSS 연계하여 Fixed 태 Resizable 태 뷰
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 19/20
가능하다
- 한 Fixed Windows demo : (* 래 는 한 신문 나 든 저 해당 신문 에 *) http://demo.djvutech.com/ajax_viewer/DjVuTech-AJAXViewer/examples/oneimage2.html - 티 문 - Resizable Window demo (* PPT DjVu 1/10크 축한문 *) http://demo.djvutech.com/ajax_viewer/DjVuTech-AJAXViewer/examples/spiderman.html
10. 평가 S/W 다운 드
스캔 문 들 DjVu 축 해 보고 OCR (한 / / / 포함 수십개 원) 처 접 체험 하 래 트에 접 가 S/W 다 드 수
다. 가 30 간 또는 500 만 생 할 수 는 full 능 제공하고 다
- http://www.djvutech.com/download/01.asp
11. 한 트
에 DjVu 주 특징 들 능들 실제 체험할 수 는 트.
- http://demo.djvutech.com
쓰 그 해 주 .
러시 첨단 술 전러시 공동 술 원 학
02-769-6707www.sbc.or.kr
축 다 공개 료실, 틸, 축, 드라 , 프 웨 ,쉐 웨 등 료 제공.www.goodfile.net
2009-09-25 스캔문 고 축 -…
knol.google.co.kr/k/-/djvu/…/3 20/20