Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie,...

41
Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006

Transcript of Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie,...

Page 1: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

Teoria e tecniche della catalogazione e classificazione

Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca

Prof.ssa Elisa GrignaniUniversità degli studi di Parma

aa. 2005/2006

Page 2: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

2

Abbiamo visto:

• Informazione• Gerarchia dell’informazione• Teoria dell’informazione (C. Shannon)

• Ciclo di trasferimento dell’informazione• Sistemi IR• Alcuni concetti base IR• Cataloghi

Page 3: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

3

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

Page 4: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

4

OGGIConcetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

Page 5: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

5

OGGI:Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

Page 6: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

6

Processo di ricerca e recupero dell’informazione: modello standard

Page 7: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

7

Modello standard: problemi

• Gli utenti apprendono nel corso del processo di ricerca– attraverso le voci di soggetto assegnate– leggendo i documenti trovati– navigando attraverso gli hyperlink– ...

Page 8: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

8

IR è un processo iterativo

Repositories

Workspace

Goals

Page 9: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

9

IR è un dialogo

– Lo scambio non termina alla prima risposta

– L’utente può riconoscere elementi utili di una risposta

– Le domande si modificano nel corso del processo

Page 10: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

10

“Raccolta delle bacche” come strategia IR (Bates ‘90)

• Modello standard– Assume che il bisogno informativo rimanga statico nel corso del processo

di ricerca

• “Raccolta delle bacche”– Interessanti informazioni sono sparpagliate in giro, come le bacche tra i

cespugli– La richiesta si modifica gradualmente– Nuove informazioni possono portare a nuove idee e a nuove direzioni di

ricerca– Il bisogno informativo

• non viene soddisfatto da un unico insieme finale di risposte recuperate

• viene soddisfatto attraverso una serie di scelte e pezzi di informazione raccolti nel corso della ricerca, “lungo la strada”

Page 11: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

11

Schizzo di un ricercatore … “moving through many actions towards a general goal of satisfactory

completion of research related to an information need.” (Bates ‘89)

Q0

Q1

Q2

Q3

Q4

Q5

Page 12: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

12

Tattiche vs. Strategie

• Tattica: azione a breve termine per raggiungere un determinato obiettivo (goal)– operazioni, azioni

• Strategia: pianificazione complessiva per raggiungere uno determinato scopo (objective)– una serie di operazioni e di azioni collegati tra loro

Page 13: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

13

Tattiche di ricerca dell’info.

• Formulare la ricerca– Individuare una formulazione della ricerca– Selezionare e riformulare gli specifici termini

• Monitoraggio– Tenere una traccia dei passi della ricerca

• Fonti di informazione– Navigare verso e all’interno delle fonti

(cfr. L’opuscolo di Jenny RYAN, Steph CAPRA. Research Projects:An Information Literacy Planner For Students. American Library Association, 2001)

Page 14: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

14

Formulare la ricerca

• Specificità / Ambito– Usare i termini più specifici; ma anche:– Tenere conto dell’ambito generale in cui ci colloca la ricerca

• Esaustività– Considerare tutti gli elementi implicati

• Filtro– Sottrarre progressivamente alcuni elementi

• Formulazione parallela– Usare sinonimi e termini paralleli

• Controllo terminologico– Verificare la coerenza dei termini usati con quelli adottati dal sistema IR

(p.e., voci da un thesauro, soggettario, authority file)

Page 15: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

15

Monitoraggio (anche a livello di strategia)

• Confrontare– Comparere lo stato attuale della ricerca con il suo scopo

originario• Pesare

– Fare una analisi costi/benefici delle azioni in atto o programmate

• Corregere gli errori• Registrare

– Tenere traccia - un “diario” – dei passi della ricerca

Page 16: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

16

Fonti di informazione

• La “Bibbia”:– Un autorevole punto di partenza

• p.e., un “classico” sull’argomento, una pagina web fatta bene

• Ricercare/indagare:– Ricercare e verificare tra opzioni diverse

• p.e., a partire da una lista di documenti ottenuta da una ricerca in OPAC, o da una citazione in un documento

• Tagliare/filtrare:– Non considerare ciò che non ci serve e delimitare il

settore di ricerca

Page 17: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

17

Paradosso

• Paradosso di base della ricerca/recupero dell’informazione (Roland Hjerrpe)– The need to describe that which you do not

know in order to find it– Il bisogno di descrivere ciò che non conoscete

in modo da trovarlo

Page 18: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

18

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

Page 19: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

19

Valutazione

• Perché valutare?

• Che cosa?

• Come?

Page 20: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

20

Perché valutare?

• Verificare se il sistema è accettabile

• Formulare giudizi comparativi

• Altro?

Page 21: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

21

Che cosa valutare?

• In che misura il bisogno informativo è stato soddisfatto.

• Quanta informazione nuova e corretta si è acquisita sull’argomento.

• Apprendimento occasionale:– Quanto si è appreso sulla collezione.– Quanto si è appreso su altri argomenti.

• Quanto il sistema è invitante e amichevole.

Page 22: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

22

Come valutare?

Misure di riferimento per valutare l’efficacia e l’efficienza di un sistema IR:

• richiamo• precisione• rilevanza

– Richiamo• Proporzione del materiale rilevante di fatto recuperato

– Precisione• Proporzione del materiale recuperato di fatto rilevanteef

fect

iven

ess

Page 23: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

23

Doc. Rilevanti vs. Recuperati

Rilevanti

Recuperati

Tutti i doc.

Page 24: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

24

Precisione vs. Richiamo|Collectionin Rel|

|edRelRetriev| Recall

|Retrieved|

|edRelRetriev| Precision

Rilevanti

Recuperati

Tutti i doc.

Page 25: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

25

Precisione: doc. rilev. recuperati/totale doc. recuperati

Precisione vs. RichiamoRichiamo:

doc. rilev. recuperati/totale doc. rilevanti

Rilevanti

Recuperati

Tutti i doc.

Page 26: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

26

Perchè precisione e richiamo?

“Get as much good stuff as possible while at the same time getting as little junk as possible” (Larson, 2004)

Page 27: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

27

Documenti Ritrovati vs. Rilevanti

Precisione molto alta, richiamo molto basso

Rilevanti

Page 28: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

28

Documenti Ritrovati vs. Rilevanti

Precisione e richiamo molto bassi (di fatto, recupero 0)

Rilevanti

Page 29: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

29

Documenti Ritrovati vs. Rilevanti

Richiamo alto, ma bassa precisione

Rilevanti

Page 30: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

30

Documenti Ritrovati vs. Rilevanti

Precisione e richiamo alti (finalmente!)

Rilevanti

Page 31: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

31

Curva Precisione/Richiamoin riferimento al n.o dei documenti

• Curva di tipo Zipf

precision

recall

x

x

x

x

Page 32: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

32

Curva Precisione/Richiamo

• Difficile stabilire quale di questi due ipotetici risultati sia il migliore:

precision

recall

x

x

x

x

Page 33: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

33

Livelli di “Cutoff”

Fissare il numero dei documenti RILEVANTI che si intende recuperare, p.e.:

• Top 5 (solo i primi 5)

• Top 10

• Top 20

• ...

Page 34: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

34

Problemi con Precisione/Richiamo• Non siamo in grado di valutare il vero valore

del richiamo (solo se i documenti della raccolta sono molto pochi)

• Precisione/Richiamo sono correlati in modo inverso

• Si dà per scontata l’importanza di un ordinamento dei risultati secondo il livello di rilevanza

Page 35: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

35

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione

• Rilevanza

Page 36: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

36

Information Retrieval (IR)

• Obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i documenti “rilevanti” per un particolare utente con una particolare richiesta informativa

• The goal is to search large document collections (millions of documents) to retrieve small subsets relevant to the user’s information need

• Rilevanza è un concetto chiave dell’IR, che ora cercheremo di chiarire

Page 37: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

37

Rilevanza

• “Intuitively, we understand quite well what relevance means. It is a primitive ‘y’ know’ concept, as is information for which we hardly need a definition. … if and when any productive contact [in communication] is desired, consciously or not, we involve and use this intuitive notion of relevance.”

(Saracevic, 1975)

Page 38: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

38

Rilevanza

• In che misura un documento è rilevante– per questo utente, per questo bisogno informativo

• Quello di rilevanza è un giudizio soggettivo, ma:

• in qualche misura calcolabile– Quanto spesso la gente concorda sul fatto che un certo

documento è rilevante per una certa domanda ? (criterio della popolarità)

Page 39: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

39

Rilevanza• In quali modi un documento può essere rilevante

al fine di soddisfare un bisogno informativo?– Fornisce in modo preciso risposte dettagliate

Quando è morto Dante Alighieri? Nel 1321

– Risponde in modo preciso ma parzialeDove si trova Stradella? Vicino a Pavia

– Suggerisce una diversa fonte di informazioneDove si trova Stradella? Guarda su un atlante geografico

– Altro …

Page 40: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

40

Alcuni studi sul tema della rilevanza

• Rassegna bibliografica: Saracevic, 1975

• Riconsiderazione dell’idea di rilevanza come centrata sull’utente: Schamber, Eisenberg, Nilan, 1990

• Numero speciale sulla di rilevanza in “JASIS”, Aprile 1994

Page 41: Teoria e tecniche della catalogazione e classificazione Processo di ricerca, tattiche e strategie, valutazione, rilevanza ricerca7ricerca Prof.ssa Elisa.

41

Prossimamente:

• …