cht - uni-due.de · 2004-06-11 · assign doc id's term weighting stoplist stemming stemming parse...
Transcript of cht - uni-due.de · 2004-06-11 · assign doc id's term weighting stoplist stemming stemming parse...
Info
rmation
Ret
riev
al
1/181
10
Imple
men
tier
ung
von
IR-S
yste
men
Uber
sich
t
•H
ardwar
e-A
spek
te
•A
ufb
auvo
nIR
S
•D
okum
ent-
Arc
hitek
tur
•Zugr
iffsp
fade
–Sca
nnin
g
–In
vert
iert
eListe
n
–PAT
Tre
es
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
2/181
10.1
Har
dwar
e-A
spek
te
10.1
.1Spei
cher
bed
arf
ASCII-T
ext
2K
B
Tex
tdat
ei10
KB
Gra
phik
20K
B
Tex
t-Fak
sim
ile,30
0dpi,
kom
prim
iert
50K
B
Bild
-Fak
sim
ile,30
0dpi,
kom
prim
iert
200
KB
Fot
oin
Tru
eCol
our,
2000
dpi
bis
40M
B
Vid
eo(M
PEG)
170
–75
0K
B/s
ec
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
3/181
10.1
.2Spei
cher
med
ien
Optisc
he
Spei
cher
med
ien
CD
-RO
M
•nur
lese
nder
Zugr
iff
•K
apaz
itat
650
MB
•CD
-Wec
hsler
•hoh
erei
nm
alig
erH
erst
ellu
ngs
aufw
and
•ge
ringe
Stu
ckko
sten
•fu
rVer
teilu
ng
von
Dat
enbas
enin
ausr
eich
ender
Stu
ckza
hl
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
4/181
WO
RM
-CD
(Write
Once
Rea
dM
any)
•nur
einm
albes
chre
ibbar
•nic
ht
losc
hbar
•K
apaz
itat
650
MB
(kom
pat
ibel
zuCD
-RO
M)
•Ju
kebox
en
•fu
rVer
teilu
ng
inge
ringe
nStu
ckza
hle
n
RO
D
(Rew
rita
ble
Optica
lD
isk)
•bel
iebig
oft
bes
chre
ibbar
•K
apaz
itat
128
MB
–13
00M
B
•Ju
kebox
en
•fu
rte
mpor
are
Dat
enN
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
5/181
10.1
.3K
ennza
hle
nvo
nSpei
cher
med
ien
Typ
Kap
azitat
Lat
ency
Positio-
Tra
ns-
Kost
en
nie
rzei
tfe
rrat
eG
erat
Dat
entr
ager
MB
ms
ms
MB
/s
TD
MD
M/M
B
Mag
net
pla
tten
200-8
000
2.3
-4.6
7-1
23-2
00.4
RO
D128-1
300
12
30-4
00.6
91
WO
RM
650
0.8
10.1
6
CD
-RO
M650
1.2
0.2
0.0
2
DV
D4700-1
7000
Diske
tten
0.7
-30.2
2
Mag
net
kass
ette
n200-5
000
10.3
DAT
500-5
000
1.5
0.0
1
Vid
eo-8
5000
2.5
0.0
1
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
6/181
10.1
.4Ein
-/A
usg
abeg
erate
10.1
.4.1
Ein
gabeg
erate
Sca
nner
:60
0dpi(≈
0.04
mm
)op
tisc
he
Auflos
ung
(fur
Gra
phik
enund
Fak
sim
ile-D
arst
ellu
ng
von
Dok
um
ente
n)
Kla
rsch
rift
lese
r
(erfor
der
nm
anuel
leN
achbea
rbei
tung
des
einge
scan
nte
nTex
tes)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
7/181
10.1
.4.2
Ausg
abeg
erate
Dru
cker
:
Lase
rdru
cker
:bis
1200
dpi
(auch
inFar
be)
Foto
satz
:>
1000
dpi(≈
0.02
5m
m)
Auflos
ung
Monitore
typisch
bis
2M
io.Pix
els
(≈10
0dpi)
(bei
CAD
und
Ele
ctro
nic
Publis
hin
gau
chhoh
ere
Auflos
ung)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
8/181
10.1
.5K
om
munik
ationsn
etzw
erke
•Eth
ernet
:10
0M
bit/s
ec
•G
igab
itEth
ernet
:1
Gbit/s
ec
•AT
M:15
5–
622
Mbit/s
ec
•FD
DI:
100
Mbit/s
ec
•IS
DN
:64
Kbit/s
ec
•A
DSL:8
MB
it/s
ecEm
pfa
ng,
768
KB
it/s
ecSen
den
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
10/181
brea
kin
to w
ords
assi
gn d
oc id
’s
term
wei
ghtin
gst
oplis
t
stem
min
g
stem
min
g
pars
e qu
ery
rank
ing
Dat
abas
e
Inte
rfac
e
rele
vanc
eju
dgm
ents
Use
r
Doc
umen
ts
text
wor
ds
stem
med
wor
dste
rm
docu
men
t num
bers
and
field
num
bers
docu
men
ts
retr
ieve
d do
cum
ent s
et
rank
ed d
ocum
ent s
et
quer
y te
rms
stem
med
wor
ds
quer
ies
docu
men
ts
quer
y
non−
stop
list
wor
ds
quer
ies
wei
ghts
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
11/181
10.2
.2D
ate
ien
•D
okum
ent-
Dat
ei
•W
orte
rbuch
•in
vert
edFile
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
12/181
Info
rmation
Ret
riev
al
Syst
eme
Nutz
er
Wort
erbuch
Com
pute
r2
-
3-
4-
4-
2-
13
12
4
12
45
14
35
25
Inver
ted
File
num
mer
Dokum
ent-
Auto
r
Titel
Index
ieru
ng
Asp
ekte
com
pute
rgest
utz
ter
Info
rmati
on
Retr
ieval-
syst
em
e
Com
pute
rIn
form
ati
on
Retr
ieval-
Syst
em
e
12
34
5
Ash
Bro
wn
Jones
Reynold
sSm
ith
Ein
eU
mfr
age
beiN
utz
ern
von
Info
rmati
on
Retr
ieval-
syst
em
en
Info
rmati
on
Retr
ieval
Nutz
er
Gesc
hic
hte
der
Com
pute
r-
syst
em
e
Com
pute
r
Syst
em
e
Zum
Sta
nd
der
Ent-
wic
klu
ng
von
Retr
ieval-
syst
em
en
Info
rmati
on
Retr
ieval-
Syst
em
e
Benutz
er
neuer
Retr
ieval-
syst
em
e
Retr
ieval
Syst
em
eN
utz
er
Abbild
ung
1:D
atei
stru
ktur
eines
IRS
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
13/181
10.2
.3D
ialo
gfu
nktionen
her
kom
mlic
her
IRS
•Zuga
ngs
kontr
olle
•A
usw
ahlder
Dat
enbas
is
•A
nze
ige
des
Wor
terb
uch
s/
Thes
auru
s
•For
mulie
rung
von
Anfrag
en
•A
nze
ige
von
Antw
orte
n
•Ver
wal
tung
von
Such
profi
len
(ein
schlie
ßlic
hSD
I-Lau
fe/D
ownlo
adin
g)
•D
ruck
envo
nA
ntw
orte
n
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
14/181
10.3
Dokum
enta
rchitek
ture
n
Pro
ble
mau
sIR
-Sic
ht:
Fes
tleg
ung
eines
Ein
gabe-
und
Dar
stel
lungs
form
ates
fur
die
Dok
um
ente
aber
:
Dok
um
entf
orm
ate
spie
len
auch
eine
Rol
lebei
•D
okum
ente
rste
llung
(mit
Tex
tver
arbei
tungs
syst
emen
)
•el
ektr
onisch
emD
okum
ente
nau
stau
sch
(ele
ctro
nic
mai
l)
Zie
l:
Sta
ndar
disie
rung
von
Dok
um
ente
nfo
rmat
enfu
rdie
vers
chie
den
enSys
tem
e,die
Dok
um
ente
bea
rbei
ten
oder
verw
alte
n
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
15/181
10.3
.1O
DA
OD
A(O
ffice
Docu
men
tA
rchitec
ture
)
defi
nie
rtei
nD
okum
enta
rchitek
tur-
Model
l,das
die
Be-
und
Ver
arbei
tung
von
Dok
um
ente
ndurc
hunte
rsch
iedlic
he
Sys
tem
eer
mog
licht.
OD
IF(O
ffice
Docu
men
tIn
terc
hange
Form
at)
defi
nie
rtdas
zuge
hor
ige
Aust
ausc
hfo
rmat
zur
Uber
trag
ung
von
Dok
um
ente
n
zwisch
enve
rsch
ieden
enSys
tem
en
10.3
.1.1
Gru
ndko
nze
pte
von
OD
A
Str
ukt
urier
ung
des
Inhal
tsei
nes
Dok
um
ente
sin
•lo
gisc
he
Str
ukt
ur:
Unte
rtei
lung
inK
apitel
,A
bsc
hnitte
,Sat
ze,Bild
er,Tab
elle
nusw
.
•Lay
out-
Str
ukt
ur:
Unte
rtei
lung
inSei
ten
und
rech
teck
ige
Ber
eich
eau
fden
Sei
ten
Str
ukt
ure
ni.w
.al
sH
iera
rchie
von
Obje
kten
dar
gest
ellt,
zusa
tzlic
he
nic
ht-
hie
rarc
hisch
eRel
atio
nen
,z.
B.fu
rVer
wei
seau
fFußn
oten
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
16/181
Sch
nitts
telle
zwisch
enD
okum
ents
truktu
ren
und
Dokum
entinhalt:
nur
Obje
kte
der
unte
rste
nStu
feko
nnen
Inhal
tbes
itze
n
(Tex
t,Ras
terg
raphik
,Vek
torg
raphik
usw
.),
der
gem
aßder
zuge
hor
igen
Inhal
tsar
chitek
tur
stru
kturier
tist.
Erw
eite
rbar
keit
der
Nor
mdurc
hH
inzu
fuge
nwei
tere
rIn
hal
tsar
chitek
ture
n
Obje
ktk
lass
enfu
rlo
gisc
he
und
Lay
out-
Obje
kte
Dok
um
ent
als
Obje
ktge
hor
tzu
Dok
um
entk
lass
e
Defi
nitio
nei
ner
Dok
um
entk
lass
e:
Defi
nitio
nvo
nO
bje
ktkl
asse
n
+gg
fs.
vorg
egeb
ene
Inhal
tsst
uck
e(g
ener
icco
nte
nt)
fur
Obje
kte
bes
tim
mte
r
Obje
ktkl
asse
n
z.B
.Log
os,Sta
ndar
dpar
agra
phen
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
17/181
Dok
umen
tkla
sse
Reg
eln
Gen
eric
Con
tent
Exe
mpl
ar
von
Dok
umen
t
Str
uktu
ren
Inha
lt
logi
sche
Sic
htLa
yout
−S
icht
Dok
umen
te a
us d
er S
icht
von
OD
A
Abbild
ung
2:D
okum
ente
aus
der
Sic
ht
von
OD
A
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
18/181
Lay
out−
Log
isch
eSt
rukt
urL
ayou
t−st
rukt
ur
Inha
lt(z
.B. T
ext,
geom
. Gra
phik
, Fot
os)
Proz
ess
Dok
umen
t−in
halt
stru
ktur
enD
okum
ent−
Abbild
ung
3:D
okum
ents
trukt
ure
nund
Dok
um
entinhal
t
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
19/181
10.3
.1.2
Str
uktu
ren
inO
DA
logi
sche
und
Lay
out-
Str
ukt
ur
als
Hie
rarc
hie
von
Obje
kten
jedes
Obje
ktge
hor
tzu
einer
Obje
ktk
lass
eund
einem
Obje
ktt
yp:
•O
bje
ktty
p:in
der
Nor
mdefi
nie
rt,
zusa
mm
enm
itden
dar
auf
anwen
dbar
enAtt
ribute
nund
ihre
rRol
lein
der
Dok
um
enta
rchitek
tur
•O
bje
ktkl
asse
:Spez
ifizi
erung
inder
Dok
um
entk
lass
endefi
nitio
n,
aufder
Bas
isvo
nO
bje
ktty
pen
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
20/181
Obje
ktt
ypen
fur
die
logisch
eStr
uktu
r:
•docu
men
tlo
gica
lro
ot
ober
ste
Stu
feder
logi
schen
Str
ukt
ur
•bas
iclo
gica
lob
ject
unte
rste
Eben
eder
logi
schen
Str
ukt
ur
(Bla
tter
des
Str
ukt
urb
aum
es)
•co
mpos
ite
logi
calob
ject
auf
den
Hie
rarc
hie
eben
enzw
isch
endocu
men
tlo
gica
lro
otund
bas
iclo
gica
l
obje
ct(o
hne
Inhal
t)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
21/181
Obje
ktt
ypen
fur
die
Lay
out-
Str
uktu
r:
docu
men
tla
yout
root
ober
ste
Stu
feder
Lay
out-
Str
ukt
ur
page
set
Zusa
mm
enfa
ssung
einer
Gru
ppe
von
Sei
ten
page
zwei
dim
ension
aler
Ber
eich
,au
fdem
der
Dok
um
entinhal
tpos
itio
nie
rtund
dar
gest
ellt
wird
fram
ere
chte
ckig
erB
erei
chau
fei
ner
Sei
te,in
den
der
Inhal
tbei
der
Lay
outg
esta
l-
tung
form
atie
rtwer
den
kann.
Ein
fram
een
thal
ti.a.
meh
rere
Blo
cke,
aber
kein
Blo
ckdar
fau
ßerh
alb
eines
fram
esau
ftre
ten
blo
cken
thal
tIn
hal
tei
ner
einzi
gen
Inhal
tsar
chitek
tur
(z.Z
t.ge
nor
mt:
char
acte
rco
nte
nt
arch
itec
ture
,ge
omet
ric
grap
hic
sco
nte
nt
arch
itec
ture
,ra
ster
grap
hic
sco
nte
nt
arch
itec
ture
)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
22/181
Zuor
dnung
zwisch
enbas
iclo
gica
lob
ject
sund
Blo
cken
:
sowoh
lm
ehre
rebas
iclo
gica
lob
ject
szu
einem
Blo
ck
(z.B
.K
apitel
uber
schrift
bes
tehen
dau
sN
um
mer
und
Tex
t)
als
auch
meh
rere
Blo
cke
zuei
nem
bas
iclo
gica
lob
ject
(z.B
.A
uft
eilu
ng
eines
Absa
tzes
aufzw
eiSei
ten)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
23/181
Firm
en−
zeic
hen−
Blo
ck
Fra
me
Adr
esse
n−
Adr
esse
n−
Blo
ck
Dat
ums−
Fra
me
Dat
ums−
Blo
ck
Anr
ede−
Blo
ck
Rum
pf−
Fra
me
1
Abs
chni
tts−
Blo
ck
Rum
pf−
Fra
me
2
Abs
chni
tts−
Blo
ck
Abs
chni
tts−
Blo
ck
Unt
ersc
hrift
−
Blo
ck
Abbild
ung
4:A
uft
eilu
ng
eines
Dok
um
ente
sin
Blo
cke
und
Fra
mes
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
24/181
Logi
sche
Str
uktu
r
Layo
ut−
Str
uktu
r
Ers
te
Sei
te
Brie
fLay
out
Firm
en−
zeic
hen
Blo
ck
Adr
ess−
Blo
ck
Adr
ess−
Fra
me
Dat
ums−
Blo
ck
Dat
ums−
Fra
me
Anr
ede−
Blo
ck
Abs
ch.−
Blo
ck
Rum
pf−
Fra
me
1
Abs
ch.−
Blo
ck
Abs
ch.−
Blo
ck
Unt
ersc
hr.−
Blo
ck
Rum
pf−
Fra
me
2
And
ere
Sei
te
Adr
esse
Dat
umA
nred
eA
bsch
nitt
Abs
chn.
Abs
chn.
Rum
pf
Brie
f
Abbild
ung
5:Log
isch
eund
Lay
out-
Sic
ht
des
selb
enD
okum
ente
s
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
25/181
Att
ribute
bes
chre
iben
die
Eig
ensc
haf
ten
von
Obje
kten
jedes
Att
ribut
hat
Att
ributt
ypund
Wer
t
Att
ributt
yp
legt
die
Sem
antik
eines
Att
ributs
fest
z.B
.D
imen
sion
fur
Obje
kte
vom
Typ
pag
e,fram
eund
Blo
ck,
Pos
itio
nfu
rO
bje
kte
vom
Typ
fram
eoder
Blo
ck
Att
ribute
sind
entw
eder
•ex
pliz
itbei
Obje
kten
ange
geben
oder
•au
sst
yles
abge
leitet
(Att
ributs
amm
lung
bei
der
zuge
hor
igen
Obje
ktkl
asse
nbes
chre
ibung
oder
der
hie
rarc
hisch
uber
geor
dnet
enO
bje
ktkl
asse
)
10.3
.1.3
Aust
ausc
hfo
rmat
Dar
stel
lung
eines
OD
A-D
okum
ente
sal
sB
itst
rom
(zur
Uber
trag
ung
zwisch
en
vers
chie
den
enSys
tem
en)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
26/181
Mach
tigke
itder
Aust
ausc
hfo
rmate
variie
rtbzg
l.
•M
enge
der
verw
endbar
enIn
haltsa
rchitek
ture
n:
char
acte
rco
nte
ntar
chitec
ture
inal
len
Aust
ausc
hfo
rmat
en,zu
satz
liche
Inhal
ts-
arch
itek
ture
nin
kom
ple
xere
nA
ust
ausc
hfo
rmat
en
•U
ber
tragung
inwei
terb
earb
eitb
arer
und/oder
form
atier
ter
Form
:
abhan
gig
vom
Zwec
kdes
Aust
ausc
hs
–fo
rmat
iert
eFor
m:
erla
ubt
nur
das
orig
inal
getr
eue
Rep
roduzi
eren
des
Dok
um
ente
s
z.B
.Fax
,Tel
ex
–wei
terb
earb
eitb
are
For
m
erm
oglic
ht
die
Wei
terb
earb
eit
ung
des
Dok
um
ente
sbei
mEm
pfa
nge
r,
Lay
out
muß
vom
Em
pfa
nge
rdefi
nie
rtwer
den
–wei
terb
earb
eitb
are
form
atie
rte
For
m:
volls
tandig
eU
ber
trag
ung
des
Dok
um
ente
s,
erla
ubt
Wei
terb
earb
eitu
ng
und
orig
inal
getr
eue
Rep
rodukt
ion
des
Dok
u-
men
tes
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
27/181
10.3
.2M
arkup-S
pra
chen
Mar
kup-A
nsa
tze:
1.Zei
chen
setz
ung
2.Lay
out
(WYSIW
YG)
3.pr
ozed
ura
l(T
roff,TeX
,LaT
eX)
4.des
krip
tiv
(GM
L,SG
ML)
5.re
fere
ntiel
l(e
mbed
,in
clude;
SGM
L)
6.M
eta-
Mar
kup
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
28/181
10.3
.2.1
SG
ML
•SGM
L=
ISO
8879
,
Sta
ndar
dG
ener
aliz
edM
arku
pLan
guag
e
•Ver
wan
dte
Sta
ndar
ds:
–IS
O10
179:
DSSSL,
Docu
men
tSty
leSem
antics
&Spec
ifica
tion
s
(Lay
out-
Spez
ifika
tion
sspr
ache
fur
SG
ML-D
okum
ente
)
–IS
O86
13:O
DA
,
Offi
ceD
ocu
men
tA
rchitec
ture
:
(For
mat
ieru
ng,
Dar
stel
lung,
Aust
ausc
h)
OD
ML:SGM
L-D
TD
fur
OD
A-D
okum
ente
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
29/181
Eig
ensc
haft
envo
nSG
ML
SGM
List
•A
usz
eich
nungs
spra
che,
DB
-Spr
ache
•er
wei
terb
are
Dok
um
ent-
Bes
chre
ibungs
spra
che
•M
etas
prac
he
zur
Defi
nitio
nvo
nD
okum
entt
ypen
SGM
Lunte
rstu
tzt
•lo
gisc
he
Str
ukt
ure
n,H
iera
rchie
n
•Ver
knupfu
ng
und
Adre
ssie
rung
von
Dat
eien
•M
ultim
edia
und
Hyp
erte
xt
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
30/181
Ver
arbei
tung
von
SG
ML-D
okum
ente
n
•sy
nta
ktisch
eU
ber
prufu
ng
gem
aßei
ner
DT
D
•A
usd
ruck
enge
maß
einer
DSSSL-S
pez
ifika
tion
•A
nze
igen
amB
ildsc
hirm
(gem
aßei
ner
DSSSL-S
pez
ifika
tion
)
•In
dex
iere
nfu
rK
onte
xt-o
rien
tier
teSuch
e
•U
ber
setz
ung
inei
ne
ander
eRep
rase
nta
tion
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
31/181
SG
ML
—M
arkup
SGM
Lunte
rstu
tzt
4A
rten
von
Mar
kup:
1.des
krip
tiv:
Tag
s
2.re
fere
ntiel
l:Ref
eren
zen
aufO
bje
kte
3.M
eta-
Mar
kup:M
arku
p-D
ekla
ration
en(D
TD
)
4.pr
ozed
ura
l:LIN
K,CO
NCU
R
des
krip
tive
rM
arku
p
•Ele
men
te:
–G
I(g
ener
icid
entifier
):in
Sta
rt-
und
Ende-
Tag
s
–id
=id
ref
–Att
ribut-
Wer
te-P
aare
–In
hal
t
•ob
erst
esEle
men
t:D
okum
ent
•Ele
men
tehab
enei
nIn
hal
ts-M
odel
l(G
ram
mat
ik-P
rodukt
ion)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
32/181
DT
Ds
•D
efinie
ren
eine
Kla
sse
von
Dok
um
ente
n
•Spez
ialis
iere
nSGM
Lfu
rD
okum
ente
einer
Kla
sse
•B
einhal
ten
eine
Att
ribut-
Gra
mm
atik
•B
einhal
ten
eine
Sch
achte
lungs
-Gra
mm
atik
•U
nte
rstu
tzung
von
Hie
rarc
hie
ndurc
hSch
achte
lung
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
33/181
Bei
spie
lei
ner
SG
ML-D
TD
:
<!ELEMENT
article
--
(title,
abstract,
section+)>
<!ELEMENT
title
--
(#PCDATA)>
<!ELEMENT
abstract
-o
(#PCDATA)>
<!ELEMENT
section
-o
((title,
body+)
|(title,
body*,
subsectn+))>
<!ELEMENT
subsectn
-o
(title,
body+)>
<!ELEMENT
body
-o
(figure
|paragr)>
<!ELEMENT
figure
-o
EMPTY>
<!ELEMENT
paragr
-o
(#PCDATA)>
<!ATTLIST
article
author
NAMES
#REQUIRED
status
(final
|draft)
draft
>
<!ATTLIST
figure
file
ENTITY
#IMPLIED>
<!ENTITY
file
SYSTEM
"/tmp/picture.ps")
NDATA>
<!ENTITY
amp
"&">
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
34/181
Dokum
ent
zur
DT
D:
<article
status
=draft"
author
="Cluet
Christophides">
<title>From
Structured
Documents
to
...</title>
<abstract>Structured
Documents
(e.g
SGML)
can
benefit
from...
<section>
<title>Introduction</title>
<body><paragr>This
Paper
is
organized
as
follows.
...
</body></section>
<section>
<title>SGML
preliminaries</title>
<body>
<figure>
</article>
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
35/181
Ele
men
t:
<!ELEMENT
Ele
men
tnam
eom
itst
art
omiten
dPro
dukt
ion
>
Att
ributliste
zuEle
men
ten:
<!ATTLIST
Ele
men
tnam
eAtt
ributn
ame
Wer
teber
eich
Default>
Entita
ten:(E
rset
zungs
mec
han
ism
us)
<!ENTITY
Enam
eW
ert>
Ref
eren
zier
ung:
&Enam
e
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
36/181
10.3
.2.2
HT
ML
<!ELEMENT
HTML
OO
HEAD,
BODY
--HTML
document-->
<!ELEMENT
HEAD
OO
TITLE>
<!ELEMENT
TITLE
--
#PCDATA>
<!ELEMENT
BODY
OO
%content>
<!ENTITY
%content
"(%heading
|%htext
|%block
|HR)*">
<!ENTITY
%heading
"H1|H2|H3|H4|H5|H6">
<!ENTITY
%htext
"A
|%text"
--hypertext-->
<!ENTITY
%text
"#PCDATA
|IMG
|BR">
<!ELEMENT
IMG
-O
EMPTY
--Embed.
image-->
<!ELEMENT
BR
-O
EMPTY>
<!ENTITY
%block
"P
|PRE">
<!ELEMENT
P-
O(%htext)+
--paragraph-->
<!ELEMENT
PRE
--
(%pre.content)+
--preform.-->
<!ENTITY
%pre.content
"#PCDATA
|A">
<!ELEMENT
A-
-(%text)+
--anchor-->
<!ELEMENT
HR
-O
EMPTY
--
horizontal
rule
-->
<!ATTLIST
A
NAME
CDATA
#IMPLIED
HREF
CDATA
#IMPLIED
--link-->
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
37/181
<!ATTLIST
IMG
SRC
CDATA
#REQUIRED
--URL
of
img--
ALT
CDATA
#REQUIRED
ALIGN
(top|middle|bottom)
#IMPLIED
ISMAP
(ISMAP)
#IMPLIED
>
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
38/181
HT
ML
als
Hyp
erte
xt-M
arkup-S
pra
che
Anke
r:
<A
NAME=¨A
nam
e¨
HREF=¨U
RL¨>
Anke
r-Tex
t/-B
ild</A>
NA
ME
zur
Ref
eren
zier
ung
als
Zie
lei
nes
Ver
wei
ses
HREF
Zie
ldes
Ver
wei
ses
(URL)
URL
Unifor
mRes
ourc
elo
cato
r
http://Rec
hner
nam
e/P
fad/#
Anke
rnam
e
ISM
AP:
grap
hisch
erA
nke
r,
Bro
wse
ruber
mitte
ltPos
itio
nim
Bild
Form
ula
re:
Bro
wse
ruber
mitte
ltau
sgef
ullt
eW
erte
/au
sgew
ahlte
Men
uei
ntr
age
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
39/181
HT
ML
vs.SG
ML
•en
tspr
icht
einer
SG
ML-D
okum
entk
lass
e(D
TD
)
•M
isch
ung
von
logi
schen
und
Lay
out-
Tag
s
•ke
ine
verb
indlic
he
DSSSL-S
pez
ifika
tion
,
kein
eM
oglic
hke
itzu
mU
ber
mitte
lnvo
nD
SSSL-S
pez
ifika
tion
en
Fol
geru
nge
n:
•H
TM
List
wen
iger
flex
ibel
als
SG
ML
•nur
min
imal
elo
gisc
he
Str
ukt
urier
ung
mog
lich
(ers
chwer
tRet
riev
al)
•Lay
out
kann
durc
hden
Anbie
ter
nur
teilw
eise
bee
influßt
wer
den
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
40/181
10.3
.2.3
XM
L
vere
infa
chte
sSG
ML:
•Sta
rt-
und
Ende-
Tag
sm
uss
enim
mer
ange
geben
wer
den
•Spez
ialfor
m:ko
mbin
iert
esSta
rt-E
nde-
Tag
z.B
.<BR/>,<IMG
src="icon.gif"/>
•D
TD
nic
ht
imm
ernot
wen
dig
:
wel
l-fo
rmed
XM
L:
synta
ktisch
korr
ekte
sX
ML-D
okum
ent
valid
XM
L:
XM
L-D
okum
ent,
das
zuge
hor
ige
DT
Der
fullt
•Ele
men
tnam
en:Gro
ß-K
lein
schre
ibung
wic
htig,
Unte
rstr
ich
und
Dop
pel
punkt
erla
ubt
•za
hlrei
che
Spez
ialfal
leau
sSG
ML
verb
oten
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
41/181
Bei
spie
lei
ner
XM
L-D
TD
<!ELEMENT
article
(title,
abstract,
section+)>
<!ELEMENT
title
(#PCDATA)>
<!ELEMENT
abstract
(#PCDATA)>
<!ELEMENT
section
((title,
body+)
|(title,
body*,
subsectn+))>
<!ELEMENT
subsectn
(title,
body+)>
<!ELEMENT
body
(figure
|paragr)>
<!ELEMENT
figure
EMPTY>
<!ELEMENT
paragr
(#PCDATA)>
<!ATTLIST
article
author
CDATA
#REQUIRED
status
(final
|draft)
"draft">
<!ATTLIST
figure
file
ENTITY
#IMPLIED>
<!ENTITY
file
SYSTEM
"/tmp/picture.ps")
NDATA
postscript>
<!ENTITY
amp
"&">
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
42/181
Dokum
ent
zur
DT
D:
<?xml
version="1.0"
encoding="ISO-8859-1"?>
<!DOCTYPE
article
SYSTEM
"/services/dtds/article.dtd">
<article
status
=draft"
author
="Cluet
Christophides">
<title>From
Structured
Documents
to
...</title>
<abstract>Structured
Documents
(e.g
SGML)
can
benefit
from...
</abstract>
<section>
<title>Introduction</title>
<body><paragr>This
Paper
is
organized
as
follows.
...
</body></section>
<section>
<title>SGML
preliminaries</title>
<body>
<figure/>
</body></section>
</article>
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
43/181
2A
rten
von
XM
L-A
nwen
dungen
1.st
rukt
urier
teD
okum
ente
DT
Ds
fur
Dok
um
ente
aus
spez
ielle
nBer
eich
en,z.
B.
•M
athM
L:M
athem
atik
•CM
L:Chem
ie
•SM
IL:m
ultim
edia
leD
okum
ente
2.fo
rmat
iert
eD
aten
(z.B
.Spr
eadsh
eets
,M
etad
aten
,D
aten
ban
ken,..
.)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
44/181
Zusa
tze
zuX
ML:
XSL
(XM
LSty
leLan
guag
e):
Defi
nitio
nvo
nSty
lesh
eets
zur
Pra
senta
tion
bisher
stan
dar
disie
rt:XSLT
zur
Tra
nsf
orm
atio
nzw
isch
enX
ML-D
okum
ente
n
(z.B
.nac
hH
TM
L)
XLin
kD
efinitio
nvo
nH
yper
text
-Lin
ks
inte
r/ex
tern
,Typ
isie
rung,
meh
rere
Zie
le,ve
rsch
.A
ktio
nen
XPoin
ter
Adre
ssie
rungs
mec
han
ism
enfu
rXM
L
(zur
Spez
ifika
tion
von
Anke
rnbei
XLin
k)
XM
Lquer
yla
nguage
(noch
inEntw
ickl
ung)
Zie
l:K
ombin
atio
nvo
nTex
tret
riev
alund
Dat
enban
ksuch
e
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
45/181
10.4
Zugriffsp
fade
10.4
.1Sca
nnin
g
10.4
.1.1
Gen
erel
leU
ber
legungen
Ver
zich
tau
fAnle
gen
eines
geso
nder
ten
Zugr
iffsp
fades
,st
attd
esse
nm
oglic
hst
effizi
ente
sequen
tiel
leSuch
e
→er
spar
tden
Ove
rhea
dfu
rdas
Anle
gen
des
Zugr
iffsp
fades
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
46/181
Pro
ble
me:
Aufw
and
wach
stlin
ear
mit
dem
Date
nvo
lum
en,
dah
ernurfu
rkl
einer
eD
aten
-
bes
tande
geei
gnet
(insb
eson
der
eau
chin
Tex
teditor
enei
nge
setz
t)
Ber
uck
sich
tigung
von
Fle
xions-
und
Der
ivationse
ndungen
erhoh
tdie
Kom
-
ple
xita
tund
den
Ber
echnungs
aufw
and
der
Alg
orithm
en
Wort
reih
enfo
lge
und
Sto
ppwort
elim
ination:
dito
info
rmat
ion
retr
ieva
l—
retr
ieva
lof
info
rmat
ion
Rankin
galg
orith
men
:sc
hle
cht
kom
bin
ierb
ar
(inve
rse
Dok
um
enth
aufigk
eitst
ehter
stnac
hdem
Durc
hla
ufe
nal
lerD
okum
ente
fest
)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
47/181
Anwen
dungs
ber
eich
e:
•har
dwar
emaß
igim
ple
men
tier
t:
Ver
arbei
tungs
gesc
hw
indig
keit≥
Tra
nsf
erra
teder
Pla
tten
laufw
erke
•H
ighlig
hting
von
Such
beg
riffen
bei
der
Anze
ige
von
gefu
nden
enD
okum
ente
n
•Ver
glei
chsk
ompon
ente
inSig
nat
ur-
Sys
tem
en
(Sig
nat
ure
nw
irke
nnur
als
Filt
er)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
48/181
10.4
.1.2
Vorb
emer
kungen
zuSca
nnin
g-A
lgorith
men
imfo
lgen
den
nur
Pat
tern
sbes
tehen
dau
sei
ner
fest
enZei
chen
folg
ebet
rach
tet
(kei
ne
Alter
nat
iven
,ke
ine
“don
’tca
re’s”)
Not
atio
nen
:
nLan
gedes
Tex
tes
mLan
gedes
Pat
tern
s(s
eist
ets
m≤
n)
cG
roße
des
zugr
undel
iege
nden
Alp
hab
ets
Σ
Cn
Erw
artu
ngs
wer
tfu
rdie
Anza
hlder
zeic
hen
wei
sen
Ver
glei
che
inei
nem
Alg
o-
rith
mus
fur
einen
Tex
tder
Lan
gen
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
49/181
Anal
yse
bas
iert
aufA
nnah
me
einer
zufa
llige
nZei
chen
kett
e
(Zei
chen
kett
eder
Lan
gel
bes
teht
aus
der
Kon
kate
nat
ion
von
lZei
chen
,die
unab
han
gig
und
glei
chve
rtei
ltzu
falli
gau
sΣ
entn
omm
enwer
den
)
Wah
rsch
einlic
hke
itfu
rdie
Gle
ichhei
tvo
nzw
eizu
falli
gau
sgew
ahlten
Zei
chen
:1/
c
Wah
rsch
einlic
hke
itfu
rden
mat
chzw
eier
Zei
chen
folg
eder
Lan
gem
:1/
cm
Erw
artu
ngs
wer
tder
Anza
hlTre
ffer
tfu
rei
nPat
tern
der
Lan
gem
inei
nem
Str
ing
der
Lan
gen:
E(t
)=
n−
m+
1cm
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
50/181
10.4
.1.3
Der
naiv
eA
lgorith
mus
Pat
tern
:abracadabra
aababcabcdabracadabra
ab abr
a
abr
a
a
abr
a
a
a
abracadabra
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
51/181
Alg
orith
mus:
naivesearch(text,
n,
pat,
m)
/*
Search
pat[1..m]
*/
char
text[],
pat[];
int
n,
m;
int
i,
j,
k,
lim;
lim
=n
-m
+1
for
(i
=1;
i<=
lim;i++)
/*
Search
*/
k=
i;
for
(j
=1;
j<=
m&&text[k]
==
pat[j];
j++)
k++;
if
(j
>m
)
Report_match_at_position(i
-j
+1);
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
52/181
Absc
hatz
ung
des
Aufw
ands:
Erw
artu
ngs
wer
tfu
rdie
Anza
hlVer
glei
che
bis
zum
erst
enTre
ffer
:
Cfirst
matc
h=
cm+
1
c−
1−
c
c−
1
Erw
artu
ngs
wer
tfu
rdie
Ges
amtz
ahlder
Ver
glei
che:
Cn
=c
c−
1
( 1−
1 cm
) (n−
m+
1)+
O(1
)
(wor
stca
seer
ford
ert
m·n
Ver
glei
che)
Ver
bes
seru
ng
des
naiv
enA
lgorith
mus’:
bes
tim
mte
Rec
hner
arch
itek
ture
nbie
ten
spez
ielle
nM
asch
inen
bef
ehlzu
rSuch
enac
h
dem
erst
enAuft
rete
nei
nes
bes
tim
mte
nZei
chen
s
(bzw
.au
sei
ner
Men
gevo
nZei
chen
)
(IBM
/360
-Arc
hitek
tur:
Bef
ehl“T
ranslat
ean
dTes
t”)
→Ein
satz
fur
die
Such
enac
hdem
erst
enZei
chen
des
Pat
tern
sN
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
53/181
10.4
.1.4
Der
Knuth
-Morr
is-P
ratt
-Alg
orith
mus
Gru
ndid
ee:
wen
nber
eits
eine
teilw
eise
Uber
einst
imm
ung
zwisch
enPat
tern
und
Str
ing
gefu
nden
wurd
e,bev
ordas
erst
eve
rsch
ieden
eZei
chen
auft
ritt
,ka
nn
die
seIn
form
atio
nzu
r
Wah
lei
nes
bes
sere
nA
ufs
etzp
unkt
esge
wah
ltwer
den
aababrabrabracadabra
ab abr abrac brac bracadabra
Beo
bac
htu
nge
n:
•wen
iger
Aufs
etzp
unkt
eal
sbei
mnai
ven
Alg
orithum
s
•Zei
ger
imStr
ing
muß
nie
zuru
ckge
setz
twer
den
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
54/181
Vor
proz
essier
ung
des
Pat
tern
snot
wen
dig
:
Tab
elle
next[1..m]
gibt
die
nac
hst
ePos
itio
nim
Pat
tern
an,
mit
der
bei
Ungl
eich
hei
tve
rglic
hen
wer
den
muß:
nex
t[j]
=m
axi|(p
att
ern[k
]=patt
ern[j−
i+
k]
for
k=
1,..
.,i−
1)
and
patt
ern[i]6=
patt
ern[j
]
(Such
enac
hdem
langs
ten
uber
einst
imm
enden
Pra
fix,
sodaß
das
nac
hst
eZei
chen
imPat
tern
vers
chie
den
ist
von
dem
Zei
chen
,bei
dem
die
Ungl
eich
hei
tau
ftra
t)
Tab
elle
next
fur
den
Pat
tern
abracadabra:
ab
ra
ca
da
br
a
next[j]
01
10
20
20
11
05
next[i]=
0→
Zei
ger
imTex
tum
eins
vorr
uck
enund
wie
der
mit
dem
Anfa
ng
des
Pat
tern
sve
rgle
ichen
next[m+1]
defi
nie
rtA
ufs
etzp
unkt
imFal
lei
nes
Mat
chs
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
55/181
Alg
orith
mus
kmpsearch(char
text[],int
n,
char
pat[],
int
m)
/*
Search
pat[1..m]in
text[1..n]
*/
int
j,
k,
resume,
matches;
int
next[MAX_PATTERN_SIZE];
pat[m
+1]
=CHARACTER_NOT_IN_THE_TEXT;
/*
Preprocess
pattern*/
initnext(pat,
m+
1,
next);
resume
=next[m
+1];
next[m+1]
=-1;
j=k
=1;
do
/*
Search
*/
if
(j
==
0||
text[k]==
pat[j])
k++;
j++;
else
j=
next[j];
if
(j
>m)
Report_match_at_position(k
-j
+1);
while(k
<=
n);
pat[m
+1]
=END_OF_STRING;
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
56/181
ober
eSch
ranke
fur
den
Erw
artu
ngs
wer
tder
Ges
amtz
ahlder
Ver
glei
che:
(bei
groß
enAlp
hab
eten
)
Cn n≤
1+
1 c−
1 cm
Ver
ringe
rung
des
Aufw
ands
bei
mK
MP-A
lgor
ithm
us
imVer
hal
tnis
zum
nai
ven:
KM
P
naiv
e≈
1−
2 c2
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
57/181
10.4
.1.5
Der
Boye
r-M
oore
-Alg
orith
mus
Gru
ndid
een:
•Ver
glei
chdes
Pat
tern
svo
nre
chts
nac
hlin
ks
•M
atch
-Heu
rist
iken
(ahnlic
hw
iebei
KM
P)
•Vor
kom
men
sheu
rist
ik
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
58/181
Matc
h-H
eurist
ik:
Shift,
sodaß
ander
neu
enVer
glei
chsp
ositio
n
1.Pat
tern
alle
vorh
eruber
einst
imm
enden
Zei
chen
mat
cht
2.ei
nan
der
esZei
chen
als
vorh
eran
der
Ver
glei
chsp
ositio
nst
eht
Bei
spie
lzu
rM
atch
-Heu
rist
ik
..xaxraxxxxxxabracadabra
a ra
bra
dabra
abracadabra
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
59/181
Imple
men
tier
ung
der
Mat
ch-H
eurist
ikal
sTab
elledd
(gib
tden
Shift
imTex
tan
,Ver
glei
chje
wei
lsbeg
innen
dm
itdem
letz
ten
Pat
tern
-
Zei
chen
)
dd[j
]=
mins
+m−
j|s≥
1an
d
((s≥
jor
patt
ern[j−
s]6=
patt
ern[j
])an
d
((s≥
ior
patt
ern[i−
s]=
patt
ern[i])
for
j<
i≤
m)
Bei
spie
l:Tab
elle
dd
fur
den
Pat
tern
abracadabra:
ab
ra
ca
da
br
a
dd[j]
17
16
15
14
13
12
11
13
12
41
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
60/181
Vork
om
men
sheu
rist
ik
Ausr
ichte
nder
Tex
tpos
itio
n,an
der
Ungl
eich
hei
tau
ftra
t,m
itdem
erst
enuber
ein-
stim
men
den
Zei
chen
imPat
tern
Defi
nitio
nei
ner
uber
das
Tex
tzei
chen
indiz
iert
enTab
elled
(gib
teb
enfa
llsShift
im
Tex
tan
,Ver
glei
chje
wei
lsbeg
innen
dm
itdem
letz
ten
Pat
tern
-Zei
chen
)
d[x
]=
mins|s
=m
or
(0≤
s<
man
dpatt
ern[m−
s]=
x)
Bei
spie
l:Tab
elle
dfu
rden
Pat
tern
abracadabra:
d[′ a
′ ]=
0d[′ b
′ ]=
2d[′ c
′ ]=
6d[′ d
′ ]=
4d[′ r
′ ]=
1
(fur
alle
ander
enZei
chen
xistd[x]
=11)
Alg
orith
mus
wahlt
jewei
lsden
gro
ßer
enShift
von
Matc
h-
und
Vork
om
-
men
sheu
rist
ik
(gle
iche
Shift-
Str
ateg
ienac
hei
nem
Tre
ffer
)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
61/181
Alg
orith
mus
bmsearch(char
text[],
int
n,
char
pat[],
int
m)
/*
Search
pat[1..m]in
text[1..n]
*/
int
k,
j,
skip;
int
dd[MAX_PATTERN_SIZE],
d[MAX_ALPHABET_SIZE];
/*
Preprocess
the
pattern
*/
initd(pat,
m,
d);
initdd(pat,
m,
dd);
k=
m;
skip
=dd[1]
+1;
while(k
<=
n)
/*
Search
*/
j=
m;
while
(j
>0
&&
text[k]
==
pat[j])
j--;
k--;
if
(j
==
0)
Report_match_at_position(k
+1);
k+=
skip;
else
k+=
max(d[text[k]],
dd[j]);
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
62/181
Aufw
andsa
bsc
hatz
ungen
•wor
stca
se:O
(n+
rm)
mit
r=
Anza
hlTre
ffer
(im
ungu
nst
igst
enFal
lw
ienai
ver
Alg
orithm
us)
•unte
reSch
ranke
fur
groß
eA
lphab
ete
und
m
n:
Cn n≥
1 m+
m(m
+1)
2m2c
+O
(c−
2)
•bei
ungl
eich
erAuftre
tensw
ahrs
chei
nlic
hke
itder
Zei
chen
gilt
Cn/n
<1
unte
r
der
Vor
auss
etzu
ng
c
( 1−
c ∑ i=1
p2 i
) >1
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
63/181
10.4
.1.6
Der
Boye
r-M
oore
-Hors
pool-A
lgorith
mus
vere
infa
chte
,bes
chle
unig
teVar
iante
des
Boy
er-M
oor
e-A
lgor
ithm
us’
nur
Vor
kom
men
sheu
rist
ik:
ber
echne
Shift
mit
dem
Zei
chen
imTex
t,des
sen
Pos
itio
nm
omen
tan
mit
dem
letz
ten
Zei
chen
des
Pat
tern
sko
rres
pon
die
rt
Bei
spie
l
..xaxxrbxdabracadabra
ra
a
a
a
adabra
a
abracadabra
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
64/181
Son
der
fall:
wen
nTex
t-Zei
chen
mit
dem
letz
ten
Zei
chen
des
Pat
tern
suber
einst
imm
t
(aber
wei
ter
vorn
eist
eine
Ungl
eich
hei
tau
fget
rete
n):
Set
zezu
erst
korr
espon
die
rendes
Zei
chen
inder
Shift-
Tab
elle
aufden
Wer
tm
und
ber
echne
dan
ndie
Shift-
Tab
elle
fur
die
erst
enm−
1Zei
chen
des
Pat
tern
s:
d[x
]=
mins|s
=m
or(1≤
s<
mand
patt
ern[m−
s]=
x)
Bei
spie
l:Tab
elle
dfu
rden
Pat
tern
abracadabra:
d[′ a
′ ]=
3d[′ b
′ ]=
2d[′ c
′ ]=
6d[′ d
′ ]=
4d[′ r
′ ]=
1
(fur
alle
ander
enZei
chen
xistd[x]
=11)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
65/181
Alg
orith
mus
bmhsearch(char
text[],
int
n,
char
pat[],
int
m)
/*
Search
pat[1..m]
in
text[1..n]
*/
int
d[MAX_ALPHABET_SIZE],
i,
j,
k;
/*
Preprocessing
*/
for
(j
=0;
j<
MAX_ALPHABET_SIZE;
j++)
d[j]
=m;
for
(j
=1;
j<
m;
j++)
d[pat[j]]
=m
-j;
/*
To
avoid
having
code
*/
pat[0]
=CHARACTER_NOT_IN_THE_TEXT;
/*
for
special
cases
*/
text[0]
=CHARACTER_NOT_IN_THE_PATTERN;
i=
m;
while(i
<=
n)
/*
Search
*/
k=
i;
for
(j
=m;
text[k]
==
pat[j];
j--,
k--);
if
(j
==
0)
Report_match_atposition(k
+1);
i+=
d[text[i]];
/*
restore
pat[0]
and
text[0]
if
necessary
*/
N
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
66/181
asym
pto
tisc
her
Aufw
and
fur
nund
c(m
itc
nund
m>
4):
Cn n
=1 m
+m
+1
2mc
+O
(c−
2)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
67/181
10.4
.1.7
Der
Shift-
Or-
Alg
orith
mus
Ech
tzei
t-Alg
orithm
us,
ohne
Zw
isch
ensp
eich
erung
des
Tex
tes
→fu
rhar
dwar
emaß
ige
Imple
men
tier
ung
geei
gnet
bas
iert
aufder
Theo
rie
der
endlic
hen
Auto
mat
en:
Vek
tor
von
mve
rsch
ieden
eZust
andsv
aria
ble
n,
ite
Var
iable
gibt
den
Zust
and
des
Ver
glei
chs
zwisch
enden
Pos
itio
nen
1,..
.,i
des
Pat
tern
sund
den
Pos
itio
nen
(j−
i+
1),.
..,j
des
Tex
tes
an
(j=
aktu
elle
Tex
tpos
itio
n)
ite
bin
are
Zust
andsv
aria
ble
s i:
=0,
falls
letz
tei
Zei
chen
uber
einst
imm
en
=1,
sonst
Rep
rase
nta
tion
des
Zust
andsv
ekto
rsst
ate
als
Bin
arza
hl:
state
=m−
1 ∑ i=0
s i+
1·2
i
Mat
chen
den
dan
der
aktu
elle
nPos
itio
n,wen
ns m
=0
(bzw
.st
ate
<2m
−1)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
68/181
Updat
edes
Sta
tusv
ekto
rsbei
mLes
enei
nes
neu
enZei
chen
sau
sdem
Tex
t:
•Sta
tusv
ekto
rum
1nac
hlin
kssh
ifte
nund
s 1=
0se
tzen
•A
ktual
isie
ren
des
Sta
tusv
ekto
rsen
tspr
echen
ddem
nac
hst
enei
nge
lese
nen
Zei
chen
(mit
Hilf
eei
ner
Tab
elle
Tm
itEin
trag
enfu
rje
des
Zei
chen
des
Alp
hab
ets)
neu
erSta
tusv
ekto
rer
gibt
sich
aus
Oder
-Ver
knupfu
ng
von
alte
mVek
tor
mit
Tab
elle
nei
ntr
ag
For
mal
:
state
=(s
tate
<<
1)or
T[c
urr
char]
(<<
=Lin
kssh
ift)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
69/181
Bei
spie
lfu
rTab
elle
T:
Alp
hab
et:a
,b,c
,d
Pat
tern
:aba
bc
T[a]=11010
T[b]=10101
T[c]=01111
T[d]=11111
Defi
nitio
nder
Tab
elle
T:
Tx
=m−
1 ∑ i=0
δ(pat i
+1
=x)·2
i
mit
δ(C
)=
0,fa
llsdie
Bed
ingu
ng
Cer
fullt
ist
(son
st1)
Bei
spie
lfu
rdie
Such
enac
hababc
imTex
tabdabababc:
Text
:a
bd
ab
T[x]
:11010
10101
11111
11010
10101
state:
11110
11101
11111
11110
11101
Text
:a
ba
bc
T[x]
:11010
10101
11010
10101
01111
state:
11010
10101
11010
10101
01111
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
70/181
Alg
orith
mus
sosearch(register
char
*text,
int
n,
char
pat[],
int
m)
/*
Search
pat[1..m]
in
text[1..n]
*/
register
char
*end;
register
unsigned
int
state,
lim;
unsigned
int
T[MAXSYM],
i,
j=
1;
if(m
>WORD)
Abort("Use
pat
size
<=
word
size");
/*
Preprocessing
*/
for
(lim
=0,
i=
0;
i<
MAXSYM;
i++)
T[i]
=0;
for
(i
=1;
i<=
m;
lim
|=
j,
j<<=
B,
i++)
T[pat[i]]
&=
j;
lim
=(lim
>>
B);
text++;
end
=text
+n
+1;
/*
Search
*/
state
=0;
/*
Initial
state
*/
for
(char
*start
=text;
text
<end;
text++)
/*
Next
state
*/
state
=(state
<<
B)
|T[*text];
if
(state
<lim)
Report_match_at_position(text-start-m+2);
N
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
71/181
Kom
ple
xita
t:O
(dm wen
)(d
abei
istdm we
der
Aufw
and
zur
Ber
echnung
eines
Shifts
bzw
.zu
rO
der
-
Ver
knupfu
ng
von
Bitst
rings
der
Lan
gem
bei
einer
Wor
tlan
gevo
nw
)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
72/181
Shi
ft−O
r
Knu
th−
Mor
ris−
Pra
tt
Nai
ve
Boy
er−
Moo
re
Boy
er−
Moo
re−
Hor
spoo
l
101520253035404550556065707580859095100
34
56
78
910
1112
1314
1516
1718
1920
2
(sec
)
time
Leng
th o
f Pat
tern
(m
)
Abbild
ung
6:Exp
erim
ente
lleErg
ebnisse
fur
engl
isch
spra
chig
enTex
t
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
73/181
10.4
.1.8
Erw
eite
rungen
des
Shift-
Or-
Alg
orith
mus’
Zei
chen
kla
ssen
:
xbes
tim
mte
sZei
chen
.bel
iebig
esZei
chen
[Z]
Zei
chen
aus
der
Men
geZ
CK
omple
men
tmen
geder
Kla
sse
C
Bei
spie
l:
M[a
e][ij]
.[g−
ot−
z]m
atch
tM
eier
,M
ajer
,M
eise
,ab
ernic
ht
Mal
eroder
Mai
en
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
74/181
Beh
andlu
ng
durc
hA
nder
ung
der
Defi
nitio
nder
Tab
elle
T:
Tx
=m−
1 ∑ i=0
δ(pat i
+16∈
Cla
ssi+
1)·2
i
→M
odifi
kation
der
Pra
proz
essier
ung
des
Pat
tern
sA
lgor
ithm
us
sonst
unve
rander
t!
Bei
spie
l:T
zum
Pat
tern
ab[
ab]
b[a−
c]:
T[a
]=
1100
0
T[b
]=
1001
1
T[c
]=
1110
1
T[d
]=
0110
1
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
75/181
Zei
chen
kett
ensu
che
mit
erla
ubte
nFeh
lern
Max
imal
zahler
laubte
rFeh
ler
vorg
egeb
en
→er
setz
eB
its
imSta
tusv
ekto
rdurc
hZah
ler
fur
Anza
hlder
Feh
ler,
Additio
nder
Ein
trag
eau
sT
stat
tO
R-V
erkn
upfu
ng
Bei
spie
lfu
rdie
Such
enac
hababc
mit
hoc
hst
ens
2Feh
lern
imStr
ingabdabababc:
text
:a
bd
ab
ab
ab
c
T[x
]:11010
10101
11111
11010
10101
11010
10101
11010
10101
01111
state
:99990
99901
99121
92220
32301
34020
50301
14020
50301
04121
**
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
76/181
Alter
native
Patt
erns
Such
enac
hp1∨
...∨
pl
a)m
itei
genem
Sta
tusv
ekto
rfu
rje
des
Pat
tern
Sei
mm
ax
=m
axi(|p
i|).
Aufw
and:O
(dm
ma
x
wel
n)
b)
Ver
kett
ung
alle
rSta
tusv
ekto
ren
Sei
msu
m=∑ i|p
i|.A
ufw
and:O
(dm
su
m
wen
)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
77/181
10.4
.1.9
Ahnlic
hke
itvo
nZei
chen
kett
en
(insb
eson
der
efu
rdie
Such
enac
hEig
ennam
enund
zur
Kor
rekt
ur
von
Tip
pfe
hle
rn,
erse
tzt
nic
ht
die
lingu
istisc
he
Gru
ndfo
rm-bzw
.Sta
mm
form
redukt
ion)
•phon
etisch
eG
leic
hhei
t:
Wor
ter
wer
den
durc
hei
nen
Phon
etisie
rungs
algo
rith
mus
auf
einen
inte
rnen
Code
abge
bild
et,phon
etisch
glei
che
Wor
ter
dab
eiau
fden
glei
chen
Code
(z.B
.SO
UN
DEX
-Alg
orithm
us
bild
etden
glei
chen
Code
fur
die
engl
isch
spra
-
chig
enW
orte
r”D
ixon
“,”D
ikse
n“und
”Dic
kson
“)
aber
:
ahnlic
hge
schrieb
ene
Wor
ter
wer
den
hau
fig
aufunte
rsch
iedlic
he
Codes
abge
-
bild
et
z.B
.”R
odge
rs“
und
”Rog
ers“
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
78/181
•D
amer
au-L
even
stei
n-M
etrik:
Ahnlic
hke
itsm
aßfu
rZei
chen
kett
en,so
llZah
lder
Tip
pfe
hle
ran
nah
ern
vier
mog
liche
Feh
ler:
Ein
fugu
ng,
Los
chung,
Subst
itution
,Tra
nsp
ositio
n
DL-M
etrik
ber
echnet
fur
zwei
Zei
chen
kett
endie
min
imal
eA
nza
hlFeh
ler,
mit
der
die
sein
einan
der
uber
fuhrt
wer
den
konnen
Zei
chen
Oper
atio
nK
oste
n
MC
Subst
itution
1
OE
Subst
itution
1
NN
=0
S–
Ein
fugu
ng
1
TT
=0
ER
hal
be
Tra
nsp
os.
1/2
RE
hal
be
Tra
nsp
os.
1/2
Sum
me
4
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
79/181
Nac
hte
ileder
DL-M
etrik:
–re
lativ
aufw
endig
zuber
echnen
–B
esch
leunig
ung
der
bes
t-m
atch
-Such
enur
durc
hClu
ster
ing
mog
lich
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
80/181
•A
hnlic
hke
itss
uch
euber
Trigr
ams
(Trigr
am=
Zei
chen
folg
eder
Lan
ge3)
einfa
ches
,ab
erw
irku
ngs
volle
sA
hnlic
hke
itsm
aß
Wor
ter
wer
den
aufdie
Men
geder
enth
alte
nen
Trigr
ams
abge
bild
et
‘MEN
GE’→‘
ME’,
‘MEN
’,‘E
NG
’,‘N
GE’,
‘GE
’A
hnlic
hke
itss
uch
e=
Such
enac
hW
orte
rn,
die
inm
oglic
hst
viel
enTrigr
ams
mit
dem
gege
ben
enW
ort
uber
einst
imm
en
Bes
chle
unig
ung
durc
hsp
ezie
lleZugr
iffsp
fade:
inve
rtie
rte
Liste
noder
Sig
nat
ure
n
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
81/181
10.4
.2In
vert
iert
eListe
n
10.4
.2.1
Prinzipie
ller
Aufb
au
aufs
teig
end
sort
iert
eListe
nvo
nD
okum
entn
um
mer
n,in
den
enei
nTer
mvo
rkom
mt:
t 1d2
d15
d23
d89
...
t 2d5
d15
d89
...
Spei
cher
pla
tzbed
arf:
3B
ytes
fur
dund
1Byt
efu
rf d
,t→
4B
ytes
/Ein
trag
Bei
spie
l:2
GB
TREC-K
olle
ktio
n→
733
MB
inv.
Liste
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
82/181
Anwen
dung
fur
Boole
sches
Ret
riev
al:
∨—
Ver
einig
ender
Liste
n
∧—
Sch
nei
den
der
Liste
n
∧¬—
Diff
eren
zbild
ung
Erg
ebnislis
tefu
rt 1∨
t 2
d2
d5
d15
d23
d89
...
Erg
ebnislis
tefu
rt 1∧
t 2
d15
d89
...
Erw
eite
rung
der
Ein
trag
efu
rdie
Wor
tabst
andss
uch
e:
Anga
ben
uber
alle
Vor
kom
men
inei
nem
Dok
um
ent
wer
den
mit
abge
legt
(z.B
.Fel
dke
nnung,
Sat
znum
mer
,W
ortn
um
mer
)
fuhrt
aber
zuhoh
emSpei
cher
pla
tzbed
arf
(bis
zu10
0%der
Prim
ardat
en)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
83/181
10.4
.2.2
Rankin
gm
itin
vert
iert
enListe
n
Aufg
aben
stel
lung:
Bes
tim
mung
der
kD
okum
ente
mit
dem
hoc
hst
enRet
riev
alge
wic
ht
Annahm
en:
•Ska
larp
rodukt
als
Ret
riev
alfu
nkt
ion
•Ein
trag
ein
der
inve
rtie
rten
Liste
enth
alte
nzu
satz
lich
das
Index
ieru
ngs
gew
icht
des
Ter
ms
Zie
l:
Anza
hlder
Pla
tten
zugr
iffe
soll
min
imie
rtwer
den
(dah
erB
erec
hnung
nur
uber
die
inve
rtie
rten
Liste
n)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
84/181
Naiv
erA
lgorith
mus
Prinzipie
lleVorg
ehen
swei
se:
Misch
ender
inve
rtie
rten
Liste
nw
iebei
OD
ER-V
erkn
upfu
ng,
dab
eizu
satz
lich
Ber
echnung
der
Ret
riev
alge
wic
hte
t 1d2,u
12,
d15,u
115
d23,u
123
d89,u
189
...
t 2d5,u
25
d15,u
215
d89,u
289
...
Erg
ebnis:
d2:w
1·u
12,d5:w
2·u
15,d15:w
1·u
115+
w2·u
115,d23:w
1·u
123,
d89:w
1·u
189+
w2·u
189
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
85/181
Alg
orith
mus
fur
Ska
larp
rodukt
1.Fur
jedes
Dok
um
ent
der
Kol
lekt
ion:Set
zeAkk
um
ula
tor
Ad
auf0
2.Fur
jeden
Ter
mder
Anfrag
e:
(a)
Hol
eI t
,die
inve
rtie
rte
Liste
fur
t.
(b)
Fur
jedes
Paa
r〈
Dok
um
entn
um
mer
d,
Index
ieru
ngs
gew
icht
ud,t〉
inI t
setz
eA←
Ad
+w
q,t·u
d,t.
3.Bes
tim
me
die
khoc
hst
enW
erte
Ad
4.Fur
jedes
die
ser
kD
okum
ente
d:
•a)
Hol
edie
Adre
sse
von
Dok
um
ent
d.
•b)
Hol
eD
okum
ent
dan
dpr
asen
tier
ees
dem
Ben
utz
er.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
86/181
10.4
.2.3
Kom
prim
ieru
ng
inve
rtie
rter
Liste
n
Idee
:Lau
flan
genco
die
rung
Bei
spie
l:
5,8,
12,13
,15
,18
,23
,28
,29
,40
,60
Lau
flan
gen:
5,3,
4,1,
2,3,
5,5,
1,11
,20
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
87/181
Codes
fur
Lauflangen
Codie
rung
einer
nat
urlic
hen
Zah
lx:
γ-C
ode:
1.bl
og2xc+
1im
1er-
Code
(d.h
.bl
og2xc
1-B
its
gefo
lgt
von
einem
0-B
it)
2.x−
2blo
g2
xc
imBin
arco
de
δ-Code:
1.γ-C
odie
rung
vonbl
og2xc+
1
2.x−
2blo
g2
xc
imBin
arco
de
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
88/181
Bei
spie
l:
Codie
rungs
met
hode Gol
omb,
xγ
δb
=3
10,
0,0,
0
210
,010
0,0
0,10
310
,110
0,1
0,11
411
0,00
101,
0010
,0
511
0,01
101,
0110
,10
611
0,10
101,
1010
,11
711
0,11
101,
1111
0,0
811
10,0
0011
000,
000
110,
10
•δ-
Code
ben
otigbl
og2xc
+O
(log
log
x)
Bits
•fu
rx
<15
γ-C
ode
mei
st
bes
ser,
dan
ach
δ-Code
nie
schle
chte
r
•γ-
und
δ-Code
sind
Pra
fix-
frei
(kei
ne
zusa
tzlic
hen
Bits,
kein
Bac
ktra
ckin
gbei
Dec
odie
-
rung)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
89/181
gen
erel
les
Codie
rungss
chem
a
NA
nza
hlD
okum
ente
der
Kol
lekt
ion
V=
(v1,v
2,v
3,.
..)
Vek
tor
nat
urlic
her
Zah
len
mit
v j≤
N
Codie
rung
von
Lau
flan
gex≥
1:
1.finde
k≥
1m
itk−
1 ∑ j=
1
v j<
x≤
k ∑ j=
1
v j
2.co
die
rek
inge
eign
eter
Rep
rase
nta
tion
3.ber
echne
Res
tr
=x−
k−
1 ∑ j=
1
v j−
1
4.Codie
rer
bin
ar:
•m
itbl
og2v kc
Bits
fur
r<
2dlo
g2
vke−
v k,
•m
itdl
og2v ke
Bits
sonst
.
(γ-C
ode
ents
pric
ht
Codie
rung
mit
V=
(1,2
,4,8
,16,
...)
)N
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
90/181
Golo
mb-C
ode
ben
utz
tVek
tor
VG
=(b
,b,b
,...
)
Codie
rung
ist
optim
alfu
rb
=⌈ lo
g(2−
p)
−lo
g(1−
p)
⌉A
nnah
me:
geom
etrisc
he
Ver
teilu
ng
mit
p=
Wah
rsch
einlic
hke
itfu
rdas
Auft
rete
n
eines
Ter
ms
inei
nem
Dok
um
ent
→W
ahrs
chei
nlic
hke
itfu
rLuck
eder
Lan
gex:(1−
p)x−
1p
Effek
tive
Kom
prim
ieru
ng:
•G
olom
b-C
ode
fur
Lau
flan
gen
•γ-C
ode
fur
Vor
kom
men
shau
figk
eite
nf d
,t
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
91/181
10.4
.2.4
Boole
sches
Ret
riev
al
1.For
each
quer
yte
rmt,
(a)
Sea
rch
the
voca
bula
ryfo
rt.
(b)
Rec
ord
f tan
dth
ead
dre
ssif
I t,th
ein
vert
edlis
tfo
rt.
2.Id
entify
the
quer
yte
rmt
with
the
smal
lest
f t.
3.Rea
dth
eco
rres
pon
din
gin
vert
edlis
t.U
seit
toin
itia
lize
C,th
elis
tof
candid
ates
.
4.For
each
rem
ainin
gte
rmt,
inin
crea
sing
order
off t
,
(a)
Rea
dth
ein
vert
edlis
t,I t
.
(b)
For
each
d∈
C,if
d6∈
I t,th
ense
tC←
C−
dd.
(c)
If|C|=
0,re
turn
,since
ther
ear
eno
answ
ers.
5.For
each
d∈
C,
(a)
Look
up
the
addre
ssof
docu
men
td.
(b)
Ret
riev
edocu
men
td
and
pres
ent
itto
the
use
r.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
92/181
Zwei
stufige
Str
uktu
rin
vert
iert
erListe
n
Pro
zess
ieru
ng
konju
nkt
iver
Anfrag
en:
kA
nza
hlD
okum
ente
imZw
isch
ener
gebnis
pH
aufigk
eit
des
nac
hst
enzu
ber
uck
sich
tige
nden
Ter
ms
(Anza
hlEin
trag
ein
der
inve
rtie
rten
Liste
)
t dRec
hen
zeit
zur
Dec
odie
rung
eines
Ein
trag
s
Td
Rec
hen
zeit
zur
Dec
odie
rung
der
inve
rtie
rten
Liste
:
Td
=t d
p
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
93/181
Ver
bes
seru
ng:Spru
nglis
te
inve
rtie
rte
Liste
:
〈5,1〉〈
8,1〉〈1
2,2〉〈1
3,3〉〈1
5,1〉〈1
8,1〉〈2
3,2〉〈2
8,1〉〈2
9,1〉
....
Lau
flan
genco
die
rung:
〈5,1〉〈
3,1〉〈4
,2〉〈
1,3〉〈2
,1〉〈
3,1〉〈5
,2〉〈
5,1〉〈1
,1〉..
..
Spr
unge
uber
je3
Dok
um
ente
:
〈〈5,
a2〉〉〈5
,1〉〈
3,1〉〈4
,2〉〈〈1
3,a3〉〉〈1
,3〉〈
2,1〉〈3
,1〉
〈〈23
,a4〉〉〈5
,2〉〈
5,1〉〈1
,1〉〈〈4
0,a5〉〉
....
Codie
rung
der
Adre
ssen
als
Diff
eren
zen,
Weg
lass
ender
Num
mer
des
erst
en
Dok
um
ente
sje
der
Gru
ppe:
〈〈5,
a2〉〉〈1〉〈
3,1〉〈4
,2〉〈〈8
,a3−
a2〉〉〈3〉〈
2,1〉〈3
,1〉
〈〈10
,a4−
a3〉〉〈2〉〈
5,1〉〈1
,1〉〈〈1
7,a5−
a4〉〉
....
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
94/181
Aufw
andsa
bsc
hatz
ung
kA
nza
hlD
okum
ente
imZw
isch
ener
gebnis
pH
aufigk
eit
des
nac
hst
enzu
ber
uck
sich
tige
nden
Ter
ms
(Anza
hlEin
trag
ein
der
inve
rtie
rten
Liste
)
LA
nza
hlEin
trag
epr
oG
ruppe
p1
Anza
hlSpr
unge
intr
age
inder
Liste
:p1
=dp
/Le
t dRec
hen
zeit
zur
Dec
odie
rung
eines
Ein
trag
sder
inv.
Liste
Td
Rec
hen
zeit
zur
Dec
odie
rung
der
inve
rtie
rten
Liste
:
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
95/181
Annah
men
:
1.Anza
hlzu
dec
odie
render
Gru
ppen
:k/2
2.Aufw
and
zur
Dec
odie
rung
eines
Spr
ung-
Ein
trag
s:2t
d
Ges
amta
ufw
and
zur
Dec
odie
rung:
Td
=t d
( 2p1
+kp
2p1
)w
ird
min
imal
fur
p1
=√
kp
2
Bei
spie
l:
k=
60,p
=60
000,
L=
63,t d
=2.
5µs
ohne
Spr
ungl
iste
:0.
150
s
mit
Spr
ungl
iste
:0.
009
s
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
96/181
Ber
uck
sich
tigung
der
zusa
tzlic
hen
Ein
lese
zeit
(fur
L=
63w
achst
inve
rtie
rte
Liste
um
ca.3
%)
t rZei
tzu
mEin
lese
nei
nes
Ein
trag
esder
inve
rtie
rten
Liste
TVer
wei
lzei
tzu
mEin
lese
nund
Dec
odie
ren
einer
Liste
:
T=
t d
( 2p1
+kp
2p1
) +t r
(p+
2p1)
wird
min
imal
fur
p1
=
√ kp/(1
+t r
/t d
)2
Bei
spie
l:
k=
60,p
=60
000,
L=
63,t d
=2.
5µs,
t r=
0.5µ
s
ohne
Spr
ungl
iste
:0.
180
s,m
itSpr
ungl
iste
:0.
040
s,unko
mpr
imie
rte
Liste
:0.
120
s
Spei
cher
pla
tzbed
arf:
kom
prim
iert
ein
vert
iert
eListe
:10
%des
Tex
tes
mit
Spr
ungl
iste
:11
-12%
des
Tex
tes
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
98/181
10.4
.2.5
Rankin
gm
itin
vert
iert
enListe
n
Naiv
erA
lgorith
mus
(Alg
orithm
us
fur
Cos
inusm
aß)
1.For
each
docu
men
td
inth
eco
llect
ion,se
tac
cum
ula
tor
Ad
toze
ro.
2.For
each
term
tin
the
quer
y,
(a)
Ret
riev
eI t
,th
ein
vert
edlis
tfo
rt.
(b)
For
each〈d
ocu
men
tnum
ber
d,
wor
dfreq
uen
cyf d
,t〉
poi
nte
rin
I tse
t
A←
Ad
+w
q,t·w
d,t.
3.For
each
docu
men
td,
calc
ula
teC
d←
Ad/W
d,
wher
eW
dis
the
lengt
hof
docu
men
td,an
dC
dis
the
final
valu
eof
cosi
ne(
d,q
).
4.Id
entify
the
rhig
hes
tva
lues
ofC
d,w
her
er
isth
enum
ber
ofre
cord
sto
be
pres
ente
dto
the
use
r.
5.For
each
docu
men
td
sose
lect
ed,
(a)
Look
up
the
addre
ssof
docu
men
td.
(b)
Ret
riev
edocu
men
td
and
pres
ent
itto
the
use
r.N
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
99/181
Rankin
gm
itSpru
nglis
ten
a)
Quit-A
lgorith
mus
Idee
:H
aufige
Ter
me
(mit
nie
drige
mid
f-Gew
icht)
ignor
iere
n
1.O
rder
the
wor
ds
inth
equer
yfrom
hig
hes
tto
lowes
t.
2.Set
A←∅
Ais
the
curr
ent
set
ofac
cum
ula
tors
.
3.For
each
term
tin
the
quer
y,
(a)
Ret
riev
eI t
,th
ein
vert
edlis
tfo
rt.
(b)
For
each〈d
,fd,t〉
poi
nte
rin
I t,
i.If
Ad∈
A,ca
lcula
teA
d←
A+
wq,t·w
d,t.
ii.O
ther
wise,
set
A←
A+A
d,
calc
ula
teA
d←
wq,t·w
d,t.
(c)
If|A|>
K,go
tost
ep4
4.For
each
docu
men
td
such
that
Ad∈
A,ca
lcula
teC
d←
Ad/W
d.
5.Id
entify
the
rhig
hes
tva
lues
ofC
d.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
100/181
b)
Continue-
Alg
orith
mus
Idee
:H
aufige
Ter
me
nur
zur
Ret
riev
alwer
tber
echnung
ber
uck
sich
tige
n,ab
ernic
ht
zur
Dok
um
ents
elek
tion
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
101/181
1.O
rder
the
wor
ds
inth
equer
yfrom
hig
hes
tto
lowes
t.
2.Set
A←∅.
3.For
each
term
tin
the
quer
y,
(a)
Ret
riev
eI t
.
(b)
For
each〈d
,fd,t〉
poi
nte
rin
I t,
i.If
Ad∈
A,ca
lcula
teA
d←
A+
wq,t·w
d,t.
ii.O
ther
wise,
set
A←
A+A
d,
calc
ula
teA
d←
wq,t·w
d,t.
(c)
If|A|>
K,go
tost
ep4
4.For
each
rem
ainin
gte
rmt
inth
equer
y,
(a)
Ret
riev
eI t
.
(b)
For
each
dsu
chth
atA
d∈
A,
if〈d
,fd,t〉∈
I d,ca
lcula
teA
d←
Ad
+w
q,t·w
q,t.
5.For
each
docu
men
td
such
that
Ad∈
A,ca
lcula
teC
d←
Ad/W
d.
6.Id
entify
the
rhig
hes
tva
lues
ofC
d.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
104/181
10.4
.3PAT
-Tre
es
Gru
ndko
nze
pte
•D
okum
entk
olle
ktio
nal
sei
nStr
ing
Doc1()
Doc2()
Doc3(
Ch1()
Ch2()
)Doc4(
Tit()
Abstr()
Sec1(
Subs1()
Subs2())
Sec2()
)Doc5()
•B
eruck
sich
tigu
ng
der
Dok
um
ents
trukt
ur
bei
der
Such
eSuch
eSec
tion
,in
der
“PAT
”vo
rkom
mt
•Pos
itio
n=
sist
ring
(sem
i-in
finite
string)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
105/181
Defi
nitio
nen
•sist
ring
=Str
ing
abPos
itio
nbis
Ende
des
Ges
amts
trin
gs,
ID=
Pos
itio
n
Str
ing:
THIS
IS
ASAMPLE
STRING
sist
rings
:
01
-THIS
IS
ASAMPLESTRING
02
-HIS
IS
ASAMPLE
STRING
03
-IS
IS
ASAMPLE
STRING
04
-S
IS
ASAMPLE
STRING
05
-IS
ASAMPLE
STRING
06
-IS
ASAMPLE
STRING
07
-S
ASAMPLE
STRING
07
-A
SAMPLE
STRING
...
•le
xiko
grap
hisch
eO
rdnung
aufden
sist
rings
“ASA
...”
<“A
MP”
<“E
ST
”N
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
106/181
•PAT
-Tre
e=
Pat
rici
a-Tre
eal
ler
sist
rings
eines
Tex
tes
•Pat
rici
a-Tre
e:
–B
inar
erD
igital
Bau
m
–n
exte
rne
Knot
enm
itSch
luss
elwer
ten
(ID
s)
–n−
1in
tern
eK
not
en
(Wer
t=
abso
lute
/re
lative
Pos
itio
nim
sist
ring)
01
10
01
00
01
01
11
−−
Te
xt1
23
45
67
89
01
23
4 −
− P
osi
tion
2
7
3
5
48
01
0
3
511
00
100
2
360
1
100 4
2
11 1
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
107/181
Alg
orith
men
aufPAT
-Tre
es
Pra
fix-
Such
e
01
10
01
00
01
01
11
−−
Te
xt1
23
45
67
89
01
23
4 −
− P
osi
tion
2
7
3
5
48
01
0
3
511
00
100
2
360
1
100 4
2
11 1
Pref
ix =
100
Such
enac
h10
0*lie
fert
Tei
lbau
mm
it3
und
6
(Such
em
uß
uber
spru
nge
ne
Bits
kontr
ollie
ren)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
108/181
Rei
hen
folg
e
01
10
01
00
01
01
11
−−
Te
xt1
23
45
67
89
01
23
4 −
− P
osi
tion
2
7
3
5
48
01
0
3
511
00
100
2
360
1
100 4
2
11 1
"01"
,*,"
00"
1.Such
eder
einze
lnen
Wor
ter
(lie
fert
Tei
lbau
me)
2.Bild
ung
alle
rko
rrek
ten
Kom
bin
atio
nen
von
exte
rnen
Knot
en
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
109/181
Ber
eich
ssuch
e
01
10
01
00
01
01
11
−−
Te
xt1
23
45
67
89
01
23
4 −
− P
osi
tion
2
7
3
5
48
01
0
3
511
00
100
2
360
1
100 4
2
11 1
"001
0 ...
100
1"
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
110/181
Langst
eW
ieder
holu
ng
01
10
01
00
01
01
11
−−
Te
xt1
23
45
67
89
01
23
4 −
− P
osi
tion
2
7
3
5
48
01
0
3
511
00
100
2
360
1
100 4
2
11 1
Such
enac
hin
tern
emK
not
enm
itdem
groß
ten
Abst
and
zur
Wurz
el
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
111/181
Haufigke
itss
uch
e
01
10
01
00
01
01
11
−−
Te
xt1
23
45
67
89
01
23
4 −
− P
osi
tion
2
7
3
5
48
01
0
3
511
00
100
2
360
1
100 4
2
11 1
Such
enac
hin
tern
emK
not
enm
itden
mei
sten
Knot
enim
zuge
hor
igen
Tei
lbau
m
hau
figs
tes
Big
ram
=00
kom
mt
3mal
vor
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
112/181
Reg
ula
reA
usd
ruck
e 01
10
01
00
01
01
11
−−
Te
xt1
23
45
67
89
01
23
4 −
− P
osi
tion
2
7
3
5
48
01
0
3
511
00
100
2
360
1
100 4
2
1
Reg
exp
0 [0
1]*1
1,
8
01
0,1
1 1
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
113/181
PAT
Arr
ays
•Sor
tier
tesist
rings→
Arr
aym
itID
s
•B
aum
stru
ktur
imA
rray→
O(n
log
n)
Zugr
iffe
•Sch
nel
lePra
fix-
und
Ber
eich
ssuch
en
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
114/181
10.4
.4Sig
natu
ren
10.4
.4.1
Das
Sig
natu
rkonze
pt
Gru
ndid
ee
Abbild
ung
von
Wor
tern
und
Tex
ten
aufB
itst
rings
fest
erLan
ge(=
Sig
nat
ure
n)
Such
oper
atio
nen
aufSig
nat
ure
neffi
zien
teral
sau
fden
Tex
ten,wei
tere
Bes
chle
uni-
gung
durc
hsp
ezie
lleSpei
cher
ungs
form
enfu
rdie
Sig
nat
ure
nm
oglic
h
Sig
nat
ur:
S:=
<b 1
,b2,.
..,b
L>
mit
b i∈0
,1,
L∈N
Erz
eugu
ng
von
Sig
nat
ure
ndurc
hsu
rjek
tive
Abbild
ung
von
Wor
tern
aufB
itst
rings
(i.a
.durc
hH
ashin
g)
Hom
onym
e:gl
eich
eSig
nat
ure
nfu
rve
rsch
ieden
eW
orte
r
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
115/181
Art
envo
nSig
natu
ren:
a)
Bin
ars
ignatu
ren:
Abbild
ung
von
Wor
tern
aufal
le2L
mog
lichen
Sig
nat
ure
n
Sig
nat
uro
per
ator
=S
pruft
die
Gle
ichhei
tvo
nA
nfrag
e-und
Sat
zsig
nat
ur
b)
uber
lager
ungsf
ahig
eSig
natu
ren:
Wer
tei
ner
Sig
nat
ur
wird
nur
durc
hdie
gese
tzte
nB
its
bes
tim
mt
g=
Sig
nat
urg
ewic
ht
=#
gese
tzte
rB
its
(fur
alle
Wor
ter
glei
ch)
→A
bbild
ung
von
Wor
tern
auf( L g
) vers
chie
den
eSig
nat
ure
n
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
116/181
Uber
lager
ung
:
durc
hO
DER-V
erkn
upfu
ng
der
Sig
nat
ure
n
text
010010001000
S1
sear
ch010000100100
S2
met
hods
100100000001
S3
110110101101
S1∨
S2∨
S3
Vor
-und
Nac
hte
ileuber
lage
rungs
fahig
erSig
nat
ure
n:
–Ents
tehung
von
Phanto
men
(ges
etzt
eB
its
sind
nic
ht
meh
rei
ndeu
tig
den
Ausg
angs
sign
ature
nzu
zuor
dnen
)
+Bild
ung
von
Index
stru
kture
nm
oglic
h
+Blo
ckSuper
impos
edCodin
gzu
rA
bbild
ung
einer
Men
gevo
nW
orte
rnau
fei
ne
einzi
geSig
nat
ur
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
117/181
Sig
nat
uro
per
ator⊇
S
pruft
das
Enth
alte
nse
inder
Anfrag
esig
nat
ur
inei
ner
Sat
zsig
nat
ur:
S⊇
SS
Q⇔
(∀)(
(1≤
i≤
L)∧
((bQ i
=1)⇒
(bi=
1)))
,
S,S
Q∈
SL.
Zuru
ckfu
hru
ng
aufeffi
zien
teB
itop
erat
ionen
:
S⊇
SS
Q⇔
S∧
SQ
=S
Q⇔
(¬S
)∧
SQ
=0 S
text
sear
chm
ethods
1101
1010
1101
inse
arch
ofkn
owle
dge
-bas
edIR
0101
1010
1110
anop
tica
lsy
stem
for
full
text
sear
ch01
0110
1011
00
the
lexi
con
and
IR10
1001
0010
01
Anfrag
e:
text
sear
ch01
0010
1011
00
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
118/181
false
dro
ps:
fehle
rhaf
teA
ntw
orte
n(e
nts
tehen
durc
hH
omon
yme
und
Phan
tom
e)
ImFol
genden
nur
uber
lage
rungs
fahig
erSig
nat
ure
n
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
119/181
Prinzipie
lleO
rganisation
eines
Sig
natu
r-Sys
tem
s
Zug
riffs
−m
anag
er
Mas
ken−
gene
rato
r
Adr
ess−
Aus
wah
l−K
ompo
nent
e
Ver
glei
chs−
kom
pone
nte
Sig
natu
r−
Dat
ei
Dat
en−
Dat
ei
Q SR
DD
F
K
KF
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
120/181
10.4
.4.2
Codie
rungsm
ethoden
Disjo
int
Codin
g
(auch
wor
dco
din
gge
nan
nt,
wen
nau
fW
orte
ran
gewen
det
)
Jedes
Wor
tw
ird
einze
lnau
fei
ne
Sig
nat
urab
gebild
et,die
indie
serFor
mge
spei
cher
t
wird
(abge
sehen
von
einer
mog
lichen
ansc
hlie
ßenden
Kom
prim
ieru
ng,
hie
rnic
ht
bet
rach
tet)
Not
atio
nen
:
LLan
geder
Sig
nat
ur
gSig
nat
urg
ewic
ht
(Anza
hlge
setz
ter
1-B
its)
SP
=S
P(L
,g):
Sig
nat
urp
oten
tial
=#
vers
chie
den
erer
zeugb
arer
Kodie
runge
n
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
121/181
Maxi
mie
rung
des
Sig
natu
rpote
ntials
fur
vorg
egeb
ene
Sig
nat
urlan
geL
:
SP
=( L g
) =L
!g!(
L−
g)!
max
imal
fur
g=
L 2
Bew
eiss
kizz
e:
Da( L g
) =( L L
−g
) ,nur
Bet
rach
tung
von
g≤bL 2c
not
wen
dig
.
Annah
me,
daß
SP
1=
SP
(L,b
L 2c)
und
SP
2=
SP
(L,b
L 2c−
1)=
SP
1·
g
L−
(g−
1).
Weg
eng≤
L 2fo
lgt
SP
2≤
SP
1·( ⌊
L 2
⌋⌊ L 2
⌋ +1
) <S
P1
Ansc
hlie
ßend
Indukt
ionsb
ewei
suber
gund
uber
L
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
122/181
Feh
lerr
ate
FFeh
lerr
ate
=#
zuer
war
tende
Feh
ler
(fal
schlic
her
wei
sege
funden
eSig
nat
ure
n)
WW
orte
rbuch
groß
e
(#Typ
es=
#ve
rsch
ieden
erW
orte
r)
N#
Sat
zsig
nat
ure
n
Abbild
ung
der
Wor
ter
aufSig
nat
ure
n:
Wve
rsch
ieden
eW
orte
rau
fS
P=( L b
L 2c) ve
rsch
ieden
eSig
nat
ure
n
→ei
ner
Sig
nat
ur
sind
imM
itte
lW SP
Typ
eszu
geor
dnet
Ret
riev
alfu
rei
nbes
tim
mte
sW
ort
liefe
rtW SP−
1Sig
nat
ure
nzu
ander
enW
orte
rn
→Erw
arte
teFeh
lerr
ate:
F=( W S
P−
1) N W(1
)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
123/181
Fes
tleg
ung
der
Sig
natu
rlange
fur
eine
bes
tim
mte
Anwen
dung
Sig
nat
urp
oten
tial
als
Funkt
ion
der
Feh
lerr
ate,
der
Wor
terb
uch
groß
eund
des
Dat
envo
lum
ens:
SP
=W·N
F·W
+N
dar
aus
Ber
echnung
der
Sig
nat
urlan
gem
oglic
h
Lg
SP
84
70
168
1287
0
2412
270
415
6
3216
601
08039
0
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
124/181
Blo
ckwei
seCodie
rung
von
Wort
ern
Abbild
ung
der
Men
geder
Wor
ter,
die
inei
nem
Tex
tblo
ckau
ftre
ten,au
fei
ne
Fol
ge
von
Sig
nat
ure
n
BA
nza
hlder
Blo
cke
wA
nza
hl(v
ersc
hie
den
er)
Wor
ter
pro
Blo
ck
Feh
lerr
ate
bei
blo
ckwei
ser
Codie
rung
bei
zufa
llige
rVer
teilu
ng
von
xTok
enei
nes
Wor
tes
uber
BB
lock
e:
Erw
artu
ngs
wer
tfu
rdie
Anza
hlB
lock
e,in
den
endas
Wor
tau
ftritt
:
B
( 1−( 1−
1 B
) x)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
125/181
ImM
itte
lB
w SP
Tok
enpr
oSig
nat
ur
mit
x=
Bw SP
folg
tfu
rer
folg
lose
Anfrag
en
F≈
B
( 1−( 1−
1 B
) Bw SP
)≈
B( 1−
exp( −w S
P
))≈
Bw SP
Feh
lerw
ahrs
chei
nlic
hke
it:
f≈
1−
exp( −w S
P
)≈
w SP
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
126/181
Blo
ckSuper
impose
dCodin
g
Uber
lage
rung
meh
rere
rSig
nat
ure
n(d
urc
hO
DER-V
erkn
upfu
ng)
erla
ubt
Abbild
ung
einer
Men
gevo
nW
orte
rn
(z.B
.ei
nes
Tex
tblo
cks)
aufei
ne
einzi
geSig
nat
ur
LLan
geder
Sig
nat
ur
gG
ewic
ht
(=Anza
hlge
setz
ter
Bits)
fur
ein
einze
lnes
Wor
t
λA
nza
hluber
lage
rte
Wor
tsig
nat
ure
n
tA
nza
hlge
setz
ter
Bits
inder
uber
lage
rten
Sig
nat
ur
Wah
rsch
einlic
hke
it,daß
durc
hU
ber
lage
rung
von
λW
orts
ignat
ure
nder
Lan
geL
mit
Gew
icht
gei
ne
Sig
nat
ur
ents
teht,
die
ant
bes
tim
mte
nSte
llen
eine
1en
thal
t:
p(L
,g,λ
,t)
=t ∑ j=
1
(−1)
j
( t j)( (L−
jg
) ( L g
)) λ
Fur
klei
ne
t,λ:
p(L
,g,λ
,t)≈
[p(L
,g,λ
,1)]
t=
(1−
(1−
g L)λ
)t
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
127/181
Absc
hat
zung
der
Feh
lerw
ahrs
chei
nlic
hke
it:
FA
nza
hlFeh
ler
NA
nza
hlD
aten
satz
e
f(t
)Feh
lerw
ahrs
chei
nlic
hke
it,f(t
)=
F/N
Annah
me
daß
sich
kein
Tre
ffer
unte
rden
Dat
ensa
tzen
befi
ndet
→.f(t
)=
p(L
,g,λ
,t)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
128/181
Bes
tim
mung
der
optim
ale
nSig
natu
rlange
fur
eine
vorg
egeb
ene
max
imal
enFeh
lerr
ate
am
ittler
eA
nza
hlW
orte
rin
einer
Anfrag
e
γdurc
hsc
hnittlic
hes
Sig
nat
urg
ewic
ht
einer
Anfrag
e
γ=
L ∑ i=1
p(1
)=
L·(
1−
(1−
g L)a
)
Ein
setz
enin
die
Appr
oxim
atio
nder
Feh
lerw
ahrs
chei
nlic
hke
it:
f≈
(1−
(1−
g L)λ
)γ(2
)
lnf≈
L·(
1−
(1−
g L)a
)·l
n(1−
(1−
g L)λ
)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
129/181
Ers
etze
(1−
g L)a
durc
hex
p( a λ·l
n(1−
g L)λ)
und
setz
ey
=(1−
g L)λ
:
lnf≈
L·( 1−
exp( a λ
lny)) ·
ln(1−
y)
Nah
erung
durc
hPot
enzr
eihe ex
=∞ ∑ i=
0
xi i!
mit
x=
a λ
Da
a λ
1,nur
Ber
uck
sich
tigu
ng
der
erst
enbei
den
Glie
der
:
lnf≈−
L·a λ·l
ny·l
n(1−
y)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
130/181
Min
imie
rung
der
Feh
lerw
ahrs
chei
nlic
hke
it
(L,a
und
λko
nst
ant)→
y=
1 2.
Ein
setz
envo
nf
=F N
und
y=
1 2lie
fert
ln(F N
)≈−
L·a λ·(
ln1 2)2
→optim
ale
Sig
natu
rlange
Lopt=
λ
a·l
n2·l
og2
N F
y=
1 2=
(1−
g L)λ
→optim
ale
sW
ort
gew
icht
g opt=
L·(
1−
2−1 λ)
→Erw
artu
ngsw
ert
des
Satz
signatu
rgew
ichts
:
Γ=
L ∑ i=1
p(g
opt)
=L·(
1−
(1−
g opt
L)λ
)=
L 2N
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
131/181
Abhangig
keit
der
Feh
lerw
ahrs
chei
nlic
hke
itvo
nder
Anza
hlW
ort
erin
der
Anfrage:
Ein
setz
envo
ng o
pt
indie
Appr
oxim
atio
nder
Feh
lerw
ahrs
chei
nlic
hke
itlie
fert
:
f(t
)=
2−t
und
F(t
)=
N·2
−t
wob
eifu
ra
qW
orte
rin
der
Anfrag
et
Bits
gese
tzt
sind:
t=
g(a
q)
=λ
a·l
n2·l
og2
N F·(
1−
2−a
q λ)
—fu
ra
q=
aist
f(g
(aq))
=F
/N
—f(g
(aq))
fallt
expon
entiel
lm
itwac
hse
ndem
aq
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
132/181
Sig
natu
rentw
urf
setz
tD
aten
anal
yse
vora
us.
Pro
ble
me:
1.D
efinitio
nei
ner
mog
lichst
glei
chve
rtei
lten
Abbild
ung
der
Att
ributw
erte
aufdie
Sig
nat
ur
2.Fes
tleg
enei
ner
mittler
enA
nza
hla
Att
ributw
erte
inder
Anfrag
e.
Bea
chte
:
•er
ford
erlic
he
Sig
nat
urlan
geist
um
geke
hrt
prop
ortion
alzu
a
•Feh
lerw
ahrs
chei
nlic
hke
itfa
lltm
it2e
r-Pot
enz
von
aq
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
133/181
Codie
rung
fur
den
Subst
ring
Matc
h
Rep
rase
nta
tion
eines
Str
ings
durc
hdie
Men
geder
enth
alte
nen
n-g
ram
s
(Ublic
her
wei
sen
=2
oder
n=
3)er
gibt
fur
Str
ingl
ange
lν
=l−
n+
1n-g
ram
s
Abbild
ung
aufSig
natu
ren
(mit
g=
1)
Feh
lerw
ahrs
chei
nlic
hke
itfu
rν Q
n-g
ram
sin
der
Anfrag
e:
f(ν
Q)
=(1−
(1−
1 L)ν
)γ,γ
=L·(
1−
(1−
1 L)ν
Q).
Erw
.G
ewic
ht
einer
Str
ings
ignat
ur
Γ=
L ∑ i=1
f(1
)=
L·(
1−
(1−
1 L)ν
).
Γ=
L/2
liefe
rtal
sop
tim
ale
Sig
nat
urlan
geL
=1
1−
2−1 ν
mit
der
Feh
lerw
ahrs
chei
nlic
hke
itf(ν
Q)
=2−
γ=
21−
2ν
Q/
ν
1−
21
/ν≈
2−ν
Q
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
134/181
Pro
ble
m:hau
fig
Feh
lerr
ate
zuhoch
(Subst
ring
mit
ν Q=
6lie
fert
Feh
lerw
ahrs
chei
nlic
hke
it>
1%)
→B
estim
mung
der
Sig
nat
urlan
geuber
die
akze
ptier
teFeh
lerw
ahrs
chei
nlic
hke
it:
f(ν
Q)≈
( 1−( 1−
1 L
) ν)γ
≈( 1−( 1−
ν L
)) ν Q=
( ν L
) ν Qer
gibt
Sig
nat
urlan
ge
L=
ν·( N F
)1 νQ
→Sig
nat
urlan
gesinkt
dra
stisch
mit
wac
hse
nder
Such
stringl
ange
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
135/181
Wah
lvo
nn:
•n
=1
wurd
eν
und
ν Qm
axim
iere
nund
dad
urc
hStr
ingl
ange
min
imie
ren.
Aber
:
1.Sig
nat
urp
oten
tial
wird
nur
ausg
enutz
t,wen
nfu
rdie
Kar
din
alitat
Ωdes
vorlie
genden
Alp
hab
ets
L≤
Ωn
gilt.
2.ungl
eich
eH
aufigk
eite
nvo
nn-g
ram
sin
Tex
ten
(Wid
ersp
ruch
zuran
genom
men
enG
leic
hve
rtei
lung,
fuhrt
zurErh
ohung
der
Feh
lerr
ate)
•zu
groß
esn:
Sig
nat
urv
erfa
hre
nist
erst
aufStr
ings
abLan
gen
anwen
dbar
(son
stse
quen
tiel
leSuch
enot
wen
dig
)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
136/181
empirisch
eStr
euung
von
n-g
ram
sin
deu
tsch
spra
chig
enTex
ten:
10.3
4%
35,8
2%
20.6
8%
Buch
stab
en55
.26
%al
ler
Vor
kom
men
31.0
2%
70.6
7%
1.00
%19
.69
%
2.00
%B
igra
ms
29.6
9%
alle
rVor
kom
men
3.00
%37
.57
%
1.00
%12
.82
%
2.00
%Trigr
ams
19.9
2%
alle
rVor
kom
men
3.00
%25
.03
%
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
137/181
Pro
ble
me:
1.U
ngl
eich
vert
eilu
ng
→A
bbild
ungs
tabel
len
zur
Gla
ttung
not
wen
dig
(Bild
ung
von
Kla
ssen
mit
glei
chgr
oßer
Wah
rsch
einlic
hke
it)
IBuch
stab
enH
aufigk
eit
0e
17.3
%
1a,
j,n,p
,x,y
11.8
%
2r,u
11.8
%
3c,
i,k
11.8
%
4h,o
,s11
.8%
5m
,o,t,w
11.8
%
6d,g
,l,q
11.8
%
7a,
b,u
,v,z
,f11
.8%
Tab
elle
1:A
bbild
ungs
tabel
lefu
rBuch
stab
enin
der
deu
tsch
enSpr
ache
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
138/181
2.au
fein
ander
folg
ende
Zei
chen
(und
dam
itau
chn-g
ram
s)sind
nic
ht
unab
han
gig
vonei
nan
der
:
→n
mog
lichst
groß
wah
len
Nac
hte
il:
Abbild
ungs
tabel
lem
itΩ
nEin
trag
ennot
wen
dig
Los
ungs
mog
lichke
it:
t-gr
am-C
odie
rung
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
139/181
t-gra
m-C
odie
rung
Zer
legu
ng
von
n-g
ram
sin
nic
ht-
uber
lappen
de
t-gr
ams
(mit
1≤
t≤
n)
Tra
nsf
orm
atio
n: T(n−
gram
)=
T(t−
gram
n t−
1,.
..,t−
gram
0)
=
n t−
1 ∑ i=0
ci·I
(t−
gram
i)
Dab
eibild
etI(t−
gram
)je
des
t-gr
amau
fei
nen
der
cK
lass
enin
dic
es0
...c−
1ab
→n-g
ram
swer
den
inZah
len
aus
dem
Inte
rval
l[0
,cn t−
1]um
gese
tzt
→w
ahle
cso
,daß
cdie
groß
tega
nze
Zah
list,
fur
die
gilt
cn t≤
L.
Bild
ung
von
cm
oglic
hst
glei
chwah
rsch
einlic
he
Kla
ssen
ist
einNP
-vol
lsta
ndig
es
Pro
ble
mN
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
140/181
Heu
rist
ik:
1.Sor
tier
enal
ler
Sym
bol
enac
hih
ren
Hau
figk
eite
n
2.Ber
echne
Hau
figk
eits
schra
nke
als
Quot
ient
aus
der
Sum
me
der
Vor
kom
-
men
shau
figk
eite
nder
noch
nic
ht
vert
eilten
Sym
bol
eund
der
Anza
hlnoch
offen
erK
lass
en
3.W
enn
Sym
bol
existier
t,das
die
seSch
ranke
uber
schre
itet
,so
bild
etes
eine
eige
ne
Kla
sse;
wei
ter
mit
2
4.Ver
teilu
ng
der
rest
lichen
Sym
bol
ein
der
Rei
hen
folg
eab
stei
gender
Hau
figk
eite
n,
indem
jewei
lsdie
hau
figs
ten
Sym
bol
eso
zusa
mm
enge
faßt
wer
den
,daß
sie
die
letz
teH
aufigk
eits
schra
nke
einhal
ten
5.D
urc
hAust
ausc
hen
einze
lner
Sym
bol
eka
nn
die
Ein
teilu
ng
noch
verb
esse
rt
wer
den
.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
141/181
Ver
bes
seru
ngs
mog
lichke
itdurc
hFilt
ern:
Nic
htb
eruck
sich
tigu
ng
sehr
hau
fige
rt-
gram
s
(max
imal
1-3
%der
Typ
es)
→er
hoh
tdie
Sel
ektivi
tat
von
Sig
nat
ure
nfu
rA
nfrag
en,
die
die
set-
gram
snic
ht
enth
alte
n
aber
:
Feh
lerr
ate
fur
Anfrag
enm
itdie
sen
t-gr
ams
nim
mt
zu.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
142/181
10.4
.4.3
Spei
cher
ungss
truktu
ren
Seq
uen
tiel
leSig
natu
ren
b∗ 1b∗ 2
b∗ 3b∗ 4
b∗ 5b∗ 6
b∗ 7b∗ 8
@R
S1
00
10
10
11
@r 1
S2
10
11
10
00
@r 2
S3
01
10
01
10
@r 3
S4
10
01
01
11
@r 4
S5
11
10
01
00
@r 5
S6
01
10
01
01
@r 6
S7
10
00
10
10
@r 7
S8
00
01
11
01
@r 8
Seq
uen
tiel
leSpei
cher
ung
der
Sig
nat
ure
nzu
sam
men
mit
den
Adre
ssen
der
Da-
tensa
tze
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
143/181
LLan
geder
Sig
nat
ur
(in
Bits)
size @
Lan
geei
ner
Adre
sse
size p
Sei
tengr
oße
size r
Gro
ßeei
nes
Dat
ensa
tzes
NA
nza
hlD
aten
satz
e
MA
nza
hlD
aten
seiten
M=
N ⌊ siz
ep
siz
er
⌋ F
Anza
hlfa
lse
dro
ps
DA
nza
hlec
hte
rTre
ffer
Pla
tzbed
arffu
rei
ne
Sig
nat
ur
mit
Adre
sse:⌈ L 8
⌉ +si
ze @
Anza
hlEin
trag
epr
oSei
te:
K=
⌊si
ze P
⌈ L 8
⌉ +si
ze @
⌋N
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
144/181
Anza
hlSei
tenzu
griffe
fur
Date
nbank-O
per
ationen
Ret
riev
e:
Seq
R=⌈ N K
⌉ +F
+D
Inse
rt:
Bei
Fre
ispei
cher
verw
altu
ng
inListe
nfo
rmje
ein
Les
e-und
Sch
reib
zugr
iff
fur
Sig
nat
ur-
und
Dat
ense
ite
Seq
I=
2+
2=
4
Del
ete:
Annah
me:
Adre
sse
des
Dat
ensa
tzes
bek
annt→
sequen
tiel
leSuch
ein
den
Sig
nat
urs
eite
n
Seq
D=⌈ N
2·K
⌉ +1
+2
=⌈ N
2·K
⌉ +3
Spei
cher
pla
tzbed
arf
(in
Sei
ten) S
eqS
=⌈ N K
⌉ +M
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
145/181
Bitsc
hei
ben
org
anisation
b∗ 1b∗ 2
b∗ 3b∗ 4
b∗ 5b∗ 6
b∗ 7b∗ 8
@R
S1
00
10
10
11
@r 1
S2
10
11
10
00
@r 2
S3
01
10
01
10
@r 3
S4
10
01
01
11
@r 4
S5
11
10
01
00
@r 5
S6
01
10
01
01
@r 6
S7
10
00
10
10
@r 7
S8
00
01
11
01
@r 8
Spei
cher
ung
jeder
Bitsc
hei
be
alle
inau
fei
ner
Sei
te,
Vek
tor
mit
Dat
ensa
tzad
ress
enge
tren
nt
Anfrag
e:S
i⊇
S<
1010
0000
>
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
146/181
b∗ r=
b∗ 1∧
b∗ 3=
0 1 0 1 1 0 1 0
∧
1 1 1 0 1 1 0 0
=
0 1 0 0 1 0 0 0
Erg
ebnisbitlis
te:
b∗ r=
qγ(S
Q) ∧ j
=q1
b j,
q i∈q|(1≤
q≤
L)∧
bQ q=
1
Adre
sse
der
Tre
ffer
kandid
aten
:R
=i|b
i r=
1
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
147/181
disju
nkt
ive
Anfrag
enS
(Q1)∨
S(Q
2)∨
...S
(Qd):
ImPrinzi
pge
tren
nte
Pro
zess
ieru
ng,
nur
Ein
spar
ung
bei
uber
einst
imm
enden
1-Bits
inden
S(Q
i)m
oglic
h
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
148/181
Anza
hlSei
tenzu
griffe
fur
Date
nbank-O
per
ationen
Spei
cher
bed
arffu
rei
ne
Bitsc
hei
be:d
N8·s
ize
pe
•Ret
riev
e
γ(Q
):A
nfrag
egew
icht
Zugr
iffe
aufdie
ange
spro
chen
enB
itsc
hei
ben
+
Zuor
dnungs
tabel
leund
Dat
ense
iten
fur
alle
Tre
ffer
BS
R=
T·( γ
(Q)⌈
N
8·s
ize p
⌉ +Z
+F
+D
)Z
:A
nza
hlSei
tenzu
griff
eau
fdie
Zuor
dnungs
tabel
le
R:#
Sei
ten
der
Zuor
dnungs
tabel
le
R=
N ⌊ siz
ep
siz
e@
⌋ Z
=R·( 1
−( 1−
1 R
) (F+D
))
→in
effizi
ent
bei
hoh
enAnfrag
egew
ichte
nN
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
149/181
•In
sert
:
γ(S
):Sig
nat
urg
ewic
ht
des
Dat
ensa
tzes
Bitsc
hei
ben
blo
cke
vorh
erm
it0
initia
lisie
rt→
Zu
ander
n:
γ(S
)B
itsc
hei
ben
seiten
+Zuor
dnungs
tabel
le+
Dat
ense
ite
BS
I=
2·γ
(S)+
2+
2.
•D
elet
e:
Such
edes
Ein
trag
es(m
itbek
annte
rSat
zadre
sse)
uber
die
Sig
nat
ur
Zu
ander
n:
1er-
Bitsc
hei
ben
seiten
+Zuor
dnungs
tabel
le+
Dat
ense
ite
BS
D=
γ·(⌈
N
8·s
ize p
⌉ +1) +
Z+
2
•Spei
cher
pla
tzbed
arf(in
Sei
ten)
BS
S=
L·⌈
N
8·s
ize p
⌉ +⌈ N·si
ze @
size p
⌉ +M
.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
150/181
Zwei
stufiges
Sig
natu
rver
fahre
n
Kom
bin
atio
nvo
nBitsc
hei
ben
-und
sequen
tiel
ler
Org
anisat
ion
Zwei
Sig
nat
ure
nfu
rje
den
Dat
ensa
tz:
(mit
unab
han
gige
nSig
nat
urfunkt
ionen
ber
echnet
)
1.Sig
nat
ur
wie
bei
sequen
tiel
ler
Org
anisat
ion
als
Bitst
ring
inSei
ten
gesp
eich
ert.
Sig
nat
ur-
Sei
ten
wer
den
inSeg
men
teunte
rtei
lt
2.Sig
nat
ure
nwer
den
segm
entw
eise
uber
lage
rt,bild
enSeg
men
tsig
nat
ur.
Seg
men
tsig
nat
ure
nwer
den
inB
itsc
hei
ben
orga
nisat
ion
verw
alte
t
Anfrag
epro
zess
ieru
ng:
1.Ber
echnung
der
bei
den
Anfrag
esig
nat
ure
n
2.Bes
tim
mung
der
zudurc
hsu
chen
den
Seg
men
teuber
die
Seg
men
tsig
nat
ur
3.Seq
uen
tiel
les
Durc
hsu
chen
der
Seg
men
tem
itder
1.Sig
nat
ur
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
151/181
10.4
.4.4
S-B
aum
dyn
amisch
hoh
enbal
anci
erte
rSig
nat
urb
aum
N1
011010
11011
N2
101110
10101
N3
001101
11101
N4
200011
11110
N5
N2
310010
10010
N6
310010
01010
N7
300010
00011
N8
311010
00010
N9
N3
101110
10001
N10
201110
00101
N11
N5
200010
11110
N15
400011
00110
N16
300010
10110
N17
N4
201101
10100
N12
300101
01000
N13
201101
00101
N14
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
152/181
KK
not
enka
paz
itat
(max
.#
Ein
trag
e(S
ignat
ur,
Adre
sse)
)
km
in.#
Ein
trag
ein
einem
Knot
en
hH
ohe
des
Bau
ms
RM
enge
der
Dat
ensa
tze
ESig
nat
ur-
Ein
trag
(Sig
nat
ur,
Adre
sse)
E.S
Sig
nat
ur
E.p
Adre
sse
Ni p
Men
geder
Ein
trag
edes
Knot
ens
aufder
Stu
fei
mit
der
Adre
sse
p
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
153/181
Ein
Sig
nat
urb
aum
istei
nm
itte
lbar
erS-B
aum
vom
Typ
(K,k
,h)m
itK
,k,h∈
IN0,
wen
ner
die
folg
enden
Eig
ensc
haf
ten
bes
itzt
:
1.Je
der
Nic
ht-
Bla
ttkn
oten
der
Stu
fei
enth
alt
Sig
nat
ure
nfu
rK
not
ender
Stu
fe
i−
1ge
maß
der
Gle
ichung
Ni p
=
Ej|1≤
j≤
K∧
Ej.S
=∨
E∈
Ni−
1E
j.P
E.S
fu
r1
<i≤
h.
(3)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
154/181
2.Je
des
Bla
tten
thal
tSat
zsig
nat
ure
nge
maß
der
Gle
ichung
N1 p
=E
j|1≤
j≤
K∧
Ej.S
=S
(rj)∧
Ej.p
=@
r j∧
r j∈
R.
(4)
3.Je
der
Knot
enhat
hoc
hst
ens
KEin
trag
e:
(∀p)(|N
p|≤
K).
4.Je
der
Pfa
dvo
nder
Wurz
elzu
einem
Bla
tthat
die
selb
eLan
geh.
5.D
ieW
urz
elen
thal
tm
indes
tens
2Ein
trag
e:|N
h w|≥
2.
6.Je
der
Nic
ht-
Wurz
elkn
oten
hat
min
des
tens
kEin
trag
e:
(∀p6=
w)(|N
p|≥
k≤bK
2c)
.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
155/181
Hoh
eei
nes
Sig
nat
urb
aum
s:
hm
in=dl
ogK
Ne≤
h≤bl
ogkNc
=h
max
max
imal
eAnza
hlder
Knot
enim
S-B
aum
:
1+
2
⌊ h max−
1 ∑ i=1
N ki
⌋ +h
max−
1
=h
max
+2
⌊( (1 k
) h max−
11 k−
1−
1) N
⌋ .
Spei
cher
pla
tzbed
arfS
S(in
Sei
ten):
⌈( (1 K
) h min−
11 K−
1−
1) N
⌉ ≤S
S≤
hm
ax
+2
⌊( (1 k
) h max−
11 k−
1−
1) N
⌋ .
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
156/181
Oper
atio
nen
aufdem
S-B
aum
:
•Ret
riev
e:re
kurs
ives
Durc
hsu
chen
des
Bau
mes
,wob
eim
ehre
reTei
lbau
me
Tre
ffer
enth
alte
nko
nnen
proce
dure
RET
RIE
VE(S
Q:Sig
nat
ur;
p:Sei
tennum
mer
);
with
Ni p
do
for
each
non-e
mpty
Ein
Ni p
do
ifE
.S⊇
SS
Qth
endo
ifi>
1
then
RET
RIE
VE
(SQ
,E.p
)
else
DELIV
ER
(E.p
)
end;
end;
end;
end;
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
157/181
•In
sert
:
1.Such
enei
nes
geei
gnet
enK
not
ens
heu
rist
isch
esK
rite
rium
:
Min
imie
rung
des
Gew
ichts
zuwac
hse
sin
den
Vat
erkn
oten
Vor
gehen
swei
se:B
reiten
such
e
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
158/181
funct
ion
CH
OO
SE(S
:Sig
nat
ur,
P:M
enge
Sei
tennum
mer
n):
Sei
tennum
mer
;
ifi>
1th
endoε m
in:=
maxin
t;
for
each
p∈
Pdo
with
Ni p
do
for
each
non
empty
E(j
)∈
Ni p
do
e:=
ε(E
(j).
S,S
);
ife
<ε m
inth
endo
Pm
in:=
p;
ε min
:=e;
Lin
kson
(Tre
e,p,j
,E(j
).p);
end
else
do
ife
=ε m
inth
endo
Pm
in:=
Pm
in∪
p;
Lin
kson
(Tre
e,p,j
,E(j
).p);
end;en
d;en
d;en
d;
CH
OO
SE
:=CH
OO
SE(S
,Pm
in);
end
else
CH
OO
SE
:=firs
tp∈
P;en
d;
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
159/181
2.gg
fs.Split
ting
eines
Knot
ens
optim
aler
Split
istNP
-vol
lsta
ndig
esPro
ble
m→
heu
rist
isch
erA
lgor
ithm
us
nac
hdem
Gre
edy-
Prinzi
p:
1.Bes
tim
mung
von
zwei
Saa
tsig
nat
ure
nal
sIn
itia
lisie
rung
der
bei
den
neu
en
Knot
en(P
roze
dur
INIT
SPLIT
)
2.Ver
teilu
ng
der
ubr
igen
Sig
nat
ure
nau
fdie
bei
den
Knot
en
proce
dure
INIT
SPLIT
;(∗
loka
l∗)
p1
:=new
pag
e;p2
:=new
pag
e;
Ni p:=
Ni p∪
E;(∗
virt
uel
les
Ein
fugen∗)
seed
1,s
eed2
:=PIC
KSEED
S(p
);
Ni p1
:=N
i p1.E
(see
d1);
Ni p2
:=N
i p2.E
(see
d2);
Sseed1
:=N
i p.E
(see
d1).
S;S
seed2
:=N
i p.E
(see
d2).
S;
Ni p:=
Ni p\N
i p1.E
(see
d1)\
Ni p2.E
(see
d2);
end;
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
160/181
funct
ion
PIC
KSEED
Sli
n(p
:Sei
tennum
mer
):
(see
d1,s
eed2
:Ein
trag
snum
mer
);
with
Ni p
do
seed
1:=
firs
tj∈j|m
axj(γ
(E(j
).S
));
seed
2:=
firs
tj∈j|m
axj(ε
(E(s
eed1).
S,E
(j).
S));
PIC
KSEED
S:=
(see
d1,s
eed2);
end;
end;
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
161/181
Ver
teilu
ng
der
Sig
natu
ren
aufdie
bei
den
Knote
n:
Str
ateg
ie:Ausg
eglic
hen
eZuor
dnung
zur
Knot
ensign
atur
nac
hG
ewic
hts
zuwac
hs
1.ab
wec
hse
lnd
fur
jeden
Knot
enSig
nat
ur
mit
der
hoc
hst
enPrior
itat
einfu
gen
2.bet
roffen
eK
not
ensign
atur
aktu
alisie
ren
3.Prior
itat
enneu
ausw
erte
n
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
162/181
funct
ion
SPLIT
(E:Ein
trag
,p:Sei
tennum
mer
):(E
intr
ag,Ein
trag
);
INIT
SPLIT
;
with
Ni p
do
for
l:=
1to⌈ K−1 2
⌉ do
j:=
firs
tj∈j|m
axj(ε
(S(N
i p2),
E(j
).S
)−
ε(S
(Ni p1),
E(j
).S
));
Ni p1
:=N
i p1∪
E(j
);
Ni p:=
Ni p\E
(j);
if|N|>
0th
endo
j:=
firs
tj∈j|m
axj(ε
(S(N
i p1),
E(j
).S
)−
ε(S
(Ni p2),
E(j
).S
));
Ni p2
:=N
i p2∪
E(j
);
Ni p:=
Ni p\E
(j);
end;
end;
Ni p:=
Ni p2;
SPLIT
:=((
p,S
(Ni p))
,(p1,S
(Ni p1))
);
end;
end;
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
163/181
Quic
kFilt
er
Kom
bin
atio
nvo
nSig
nat
ure
nm
itH
ashin
g
•Sig
nat
ure
nsind
inSei
ten
orga
nisie
rt
•Zuor
dnung
der
Sig
nat
ure
nzu
den
Sei
ten
uber
Has
hin
g
Lin
eare
sH
ash
ing
linea
reH
ash-F
unkt
ion
gbild
etSch
luss
elau
fden
Adre
ßrau
m(0
,1,.
..,n−
1)ab
,
wob
ei2h
−1
<n≤
2hfu
rei
nh∈
IN
h:#
Anza
hlStu
fen
der
Sig
nat
urd
atei
gm
uß
Split
-Funkt
ion
sein
,die
fur
jeden
Sch
luss
elK
die
Bed
ingu
ng
erfu
llt:
g(K
,h,n
)=
g(K
,h−
1,n)
oder
g(K
,h−
1,n)+
2h
nPrim
arse
iten
jede
Prim
arse
ite
hat
0oder
meh
rU
ber
laufs
eite
n(m
itder
Prim
arse
ite
verk
ette
t)N
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
164/181
Ein
fugen
eines
neu
enSch
luss
els:
1.Ber
echnung
der
Sei
tennum
mer
p=
g(K
,h,n
).
2.W
enn
mog
lich,Ein
fuge
ndes
Sch
luss
els
indie
Sei
tep.
3.Son
stAbsp
eich
ern
inei
ner
Uber
laufs
eite
zup.
4.Bei
Uber
laufw
ird
der
Adre
ßrau
mvo
nn
aufn
+1
verg
roße
rt
Ver
gro
ßer
ung
des
Adre
ßra
um
s:
SP
:Zei
ger
aufdie
nac
hst
ezu
split
tende
Sei
te
1.Anle
gen
einer
neu
enPrim
arse
ite
n
2.Ver
teilu
ng
des
Inhal
tsder
Sei
teS
Pund
der
zuge
hor
igen
Uber
laufs
eite
ndurc
h
neu
eH
ashfu
nkt
ion
aufdie
Sei
ten
SP
und
n.
3.n
:=n
+1
4.h
wird
erhoh
t,wen
ndie
Sei
te0
gesp
litte
twer
den
soll.
5.S
P:=
(SP
+1)
mod
2h−
1
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
165/181
Hash
-Funktion
fur
Sig
natu
ren
NSig
nat
ure
nS
i=
<b 1
,...
,bL
>
g(S
i,h,n
)=
∑ h−1
r=
0b L
−r2r
,fa
lls∑ h−
1r=
0b L
−r2r
<n
∑ h−2
r=
0b L
−r2r
,so
nst
(5)
Zu
Beg
inn
seih
=0,
n=
1und
g(S
i,0,
1)=
0
b 1b 2
b 3b 4
b 5b 6
b 7b 8
S1
00
01
11
10
S2
11
01
00
01
S3
00
11
11
00
S4
11
00
00
11
S5
00
11
01
10
S6
11
00
10
01
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
166/181
Ste
p0.
P0:em
pty
SP
=0,h
=0,n
=1
Ste
p1.
P0:S1
SP
=0,h
=0,n
=1
Ste
p2.
P0:S1
S2
SP
=0,h
=0,n
=1
Ste
p3.
P0:S1
S3
P1:S2
SP
=0,h
=1,n
=2
Ste
p4.
P0:S1
S3
P1:S2
S4
SP
=0,h
=1,n
=2
Ste
p5.
P0:S3
P1:S2
S4
P2:S1
S5
SP
=1,h
=2,n
=3
Ste
p6.
P0:S3
P1:S2
S6
P2:S1
S5
P3:S4
SP
=0,h
=2,n
=4
P0:00111100
P1:11010001
11001001
P2:00011110
00110110
P3:11000011
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
167/181
Ret
riev
al
Bes
tim
mung
der
mog
lichen
Sig
nat
urs
eite
nau
sder
Anfrag
esig
nat
ur:
Anza
hlzu
lese
nder
Sei
ten
han
gtvo
mG
ewic
ht
der
Anfrag
esig
nat
ur
Qab
,ge
nau
er:
enth
altQ
jEin
sen
imh-B
it-S
uffi
xh(Q
),dan
nm
uss
enhoc
hst
ens2h
−j
Prim
arse
iten
und
die
zuge
hor
igen
Uber
laufs
eite
nge
lese
nwer
den
Alg
orithm
us:
1.P
:=g(Q
,h,n
)
2.if
h(Q
)∩
P=
h(Q
)th
en
Sig
nat
urs
eite
Ple
sen
3.P
:=P
+1
4.if
P<
nth
engo
to2
5.en
d
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
168/181
10.4
.4.5
Ver
gle
ich
der
Spei
cher
ungss
truktu
ren Pro
fil
Str
ukt
ur
Ret
riev
eIn
sert
Del
ete
Spei
cher
sequen
tiel
lse
lten
dom
inan
t!se
lten
dom
inan
t
Bitsc
hei
ben
dom
inan
twen
igwen
igwen
ig
zwei
stufig
dom
inan
twen
igwen
igirre
leva
nt
Quic
kFilt
er,S-B
aum
wen
igvi
elvi
elwen
ig
Tab
elle
2:A
nfrag
epro
file
der
Spei
cher
ungs
stru
kture
n
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
169/181
10.4
.4.6
Rankin
gm
itSig
natu
ren
Org
anisat
ion
?
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
170/181
Mes
smet
hode
S−
Ba
um
Erg
eb
nis
liste
SMART Ergebnisliste
10 Dokumente
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
171/181
CACM
Kol
lekt
ion
Dok
um
ente
Fra
gen
Anza
hl
3200.
64.
#Ter
me:
9669.
Med
ian
15.
9.
Mitte
lwer
t23.19
10.59
Sta
ndar
dab
wei
chnung
19.87
6.26
Var
ianz
395.
1539.21
Min
imum
2.2.
Max
imum
139.
24.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
172/181
Not
atio
n
LLan
geder
Sig
nat
ur
inB
its.
gTer
mge
wic
ht;
Anza
hl
der
pro
Ter
mge
setz
ten,
unte
rsch
iedli-
chen
Bitpos
itio
nen
.
λA
nza
hlder
uber
lage
rten
Ter
msign
ature
n
q kFra
ge,re
pras
entier
tdurc
hFra
gete
rme
q k,i
nk
Anza
hlFra
gete
rme
der
Fra
geq k
dm
Dok
um
ent,
repr
asen
tier
tdurc
hIn
dex
ieru
ngs
term
ed
m,i
S(·)
Funkt
ion,
die
fur
einen
einze
lnen
Ter
mbzw
.ei
n/e
Dok
u-
men
t/Fra
geei
ne
Sig
nat
ur
ber
echnet
:S
(dm
)=
S(d
m,1
)∨
S(d
m,2
)∨,.
..,S
(dm
,n),
wen
nn
die
Anza
hlder
Index
ieru
ngs
-
term
edes
m-t
enD
okum
ents
ist.
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
173/181
Con
tain
s
%P
arti
al-
Bit(q
k,d
m)
:=S
(qk)⊆
S(d
m)
wob
eider⊆
-Oper
ator
uber
pruft,ob
das
erst
eSig
nat
ura
rgum
ent
imzw
eite
nen
thal
ten
ist:
⊆:s
1×
s 2→0
,1
s 1⊆
s 2=
1fa
llss 1∧
s 2=
s 1
0so
nst
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
174/181
Bes
t-M
atch
Mit
%B
est-
Bit
wird
imfo
lgen
den
eine
Ahnlic
hke
itsf
unkt
ion
fur
Sig
nat
ure
nbe-
zeic
hnet
,die
die
Anza
hlder
gem
einsa
men
Bits
der
Sig
nat
ure
nfu
rq k
und
dm
ber
echnet
:
%B
est-
Bit(q
k,d
m)
:=|S
(qk)∧
S(d
m)|
p(L
,g,λ
)=
1−
(1−
g L)λ
.
f e(L
,g,n
k,i
)=
( n k·g i
) ·p(L
,g,λ
)i·
(1−
p(L
,g,λ
))n
k·g−
i
DB
(j)
=∑ j
≤i≤
nk·g
f e(L
,g,n
k,i
)
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
175/181
Anza
hlFal
se-D
rops
inAbhan
gigk
eit
vom
Ter
mge
wic
ht
g
12
34
56
78
9101112
Termgewicht
0
50
100
150
200
False Drops
%B
est-
Term
(qk,1
,qk,2
,...
,qk,n
qk,d
m)
:=n
qk ∑ i=1
(S(q
k,i)⊆
S(d
m))
(p(L
,g,λ
)g)q
dT(i
)=( q i) (p
(L,g
,λ)g
)i·(
1−
p(L
,g,λ
)g)q−
i .
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
176/181
Ver
teilu
ngs
funkt
ionen
fur
q=
10und
g=
1,10
,20,
30,4
0,50
12
34
56
78
910
0.2
0.4
0.6
0.81
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
177/181
Fla
chen
unte
rnden
Gra
phen
fur
g=
1,..
.,12
12
34
56
78
9101112
Termgewicht
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
False Drops
Anza
hlFal
se-D
rops
inAbhan
gigk
eit
vom
Ter
mge
wic
ht
gN
.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
178/181
12
34
56
78
9101112
Termgewicht
05
10
15
20
25
30
False Drops
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
179/181
Bes
uch
teK
not
enbei
%B
est-
Bit,g
=1
0
100
200
300
400
500
600
700
800
900
05
10
15
20
25
Anzahl besuchter Knoten (Best Match)
Anzahl Frageterme
cacm1.dat
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
180/181
Bes
uch
teK
not
enbei
%B
est-
Term
,g
=6
0
100
200
300
400
500
600
700
800
900
05
10
15
20
25
Anzahl besuchter Knoten (Best Match)
Anzahl Frageterme
contains-cacm6.dat
N.Fuhr
11.Ju
ni2004
Info
rmation
Ret
riev
al
181/181
Ein
spar
ung
anbes
uch
ten
Knot
enbei
Ver
wen
dung
von
%B
est-
Term
anst
att%
Best-
Bit
als
Ahnlic
hke
itsf
unkt
ion
0.4
0.5
0.6
0.7
0.8
0.91
02
46
810
12
Durchschnittlicher Anteil gelesener Knoten
Termgewicht
Best-Term first
Best-Term last
Best-Bit first
Best-Bit last
N.Fuhr
11.Ju
ni2004