Do it ourselves : Social Technologies for Information Retrieval

17
Workshop Workshop Do It Ourselves: Social Do It Ourselves: Social Technologies for Technologies for Information Retrieval Information Retrieval 2008 ELISAD MEETING 2008 ELISAD MEETING Gruppo Abele Gruppo Abele Torino – 9/10 ottobre 2008 Torino – 9/10 ottobre 2008

Transcript of Do it ourselves : Social Technologies for Information Retrieval

Page 1: Do it ourselves : Social Technologies for Information Retrieval

WorkshopWorkshop

Do It Ourselves: Social Do It Ourselves: Social Technologies forTechnologies for

Information RetrievalInformation Retrieval

2008 ELISAD MEETING2008 ELISAD MEETINGGruppo AbeleGruppo Abele

Torino – 9/10 ottobre 2008Torino – 9/10 ottobre 2008

Page 2: Do it ourselves : Social Technologies for Information Retrieval

ProgramProgramo Little intro to Web 2.0 concepts and information Little intro to Web 2.0 concepts and information

scenarioscenarioo Tools to select and filter information online -> Tools to select and filter information online ->

Customised Search EnginesCustomised Search Engineso How Google CSE worksHow Google CSE workso Y O U and Google CSEY O U and Google CSEo Outcomes sharing Outcomes sharing

Page 3: Do it ourselves : Social Technologies for Information Retrieval

Web 2.0 = Read/Write WebWeb 2.0 = Read/Write Webo Il Web di Il Web di seconda generazioneseconda generazione (che in realtà (che in realtà

invera il Web 1.0)invera il Web 1.0)o Non più Non più spettatori isolati spettatori isolati che isolatamente che isolatamente

fruiscono e consumano informazionefruiscono e consumano informazioneo Ma Ma collaboratoricollaboratori nella creazione di conoscenza nella creazione di conoscenza

online (blog, wiki, social network, folksonomy online (blog, wiki, social network, folksonomy etc.)etc.)

o Tutte leTutte le attività umane attività umane sono toccate da questo sono toccate da questo cambiamento: il giornalismo, la politica, cambiamento: il giornalismo, la politica, l'economia etc. ma è chiaramente il mondo l'economia etc. ma è chiaramente il mondo dell'informazione che subisce i contraccolpi più dell'informazione che subisce i contraccolpi più evidentievidenti

Page 4: Do it ourselves : Social Technologies for Information Retrieval

Qualità dalla quantitàQualità dalla quantità

o Uno degli inconvenienti del Read/Write Web è la Uno degli inconvenienti del Read/Write Web è la crescita indiscriminata e incontrollabile di siti che porta crescita indiscriminata e incontrollabile di siti che porta all'all'information overloadinformation overload

o Essere sovrastati Essere sovrastati da così tanta informazione da non da così tanta informazione da non riuscire a trovare le risorse di interesseriuscire a trovare le risorse di interesse

o Il modello della Il modello della directorydirectory che categorizza (v. Yahoo!) che categorizza (v. Yahoo!) ha dovuto lasciare il posto agli indici dei motori di ha dovuto lasciare il posto agli indici dei motori di ricercaricerca

o Il cui processo, che determina una Il cui processo, che determina una rilevanza generalerilevanza generale basata su algortimi, non riesce però a determinare la basata su algortimi, non riesce però a determinare la rilevanza per ognuno dei ricercantirilevanza per ognuno dei ricercanti

Page 5: Do it ourselves : Social Technologies for Information Retrieval

Collaborative FilteringCollaborative Filtering

o Invece di (oltre che) affidarsi ai soli algoritmi, il Invece di (oltre che) affidarsi ai soli algoritmi, il social websocial web ha puntato sulla capitalizzazione ha puntato sulla capitalizzazione delle conoscenze implicite ed esplicite delle delle conoscenze implicite ed esplicite delle massemasse

o Harness collective intelligence, Wisdom of Harness collective intelligence, Wisdom of crowds, Long Tail, Architecture of crowds, Long Tail, Architecture of Participation etc.Participation etc.

o Attraverso strumenti di Attraverso strumenti di selezione collaborativaselezione collaborativa delle informazioni, gli utenti hanno cominciato a delle informazioni, gli utenti hanno cominciato a trarre vantaggio dalla proprie stesse esperienze trarre vantaggio dalla proprie stesse esperienze e conoscenzee conoscenze

Page 6: Do it ourselves : Social Technologies for Information Retrieval

Collaborative FilteringCollaborative Filtering

o La La comunicazionecomunicazione è il più valido è il più valido strumento contro l'strumento contro l'information overloadinformation overload!!

o SocializzareSocializzare la qualità, condividere le la qualità, condividere le responsabilitàresponsabilità di una navigazione di una navigazione consapevoleconsapevole

o Reputation/recommendation systemsReputation/recommendation systemso Social tagging/bookmarking (folksonomy)Social tagging/bookmarking (folksonomy)o Newsmastering (RSS feeds)Newsmastering (RSS feeds)o Customised Search Engines (CSEs)Customised Search Engines (CSEs)

Page 7: Do it ourselves : Social Technologies for Information Retrieval

Informazione medico-socialeInformazione medico-socialeo ““The healthcare knowledge base is expanding at an unprecedented rateThe healthcare knowledge base is expanding at an unprecedented rate

o Approximately 50,000 new records are added annually to Medline Approximately 50,000 new records are added annually to Medline database alonedatabase alone

o Open Access publishers such as BioMed Central have growing Open Access publishers such as BioMed Central have growing collections of full-text scientific articlescollections of full-text scientific articles

o Only 20% of biological knowledge and data is available in structured Only 20% of biological knowledge and data is available in structured format or databaseformat or database

o The remaining 80% is hidden in the unstructured, free text of scientific The remaining 80% is hidden in the unstructured, free text of scientific publications”publications”

o Il Deep Web nuoce al reperimento di conoscenza e dunque alla Il Deep Web nuoce al reperimento di conoscenza e dunque alla generazione di nuova conoscenza (alla formazione corretta degli generazione di nuova conoscenza (alla formazione corretta degli operatori, alla scoperta di nuovi farmaci, alla sperimentazione di cure più operatori, alla scoperta di nuovi farmaci, alla sperimentazione di cure più efficaci etc.).efficaci etc.).

o Di conseguenza la perdita di informazione può essere intesa come una Di conseguenza la perdita di informazione può essere intesa come una perdita per l'intera societàperdita per l'intera società

citations from C. Galvez, citations from C. Galvez, Knowledge management for biomedical literature

“ a) Information Retrieval (IR)to gather, select and filter documents

that may prove usefulb) Natural Language Processing (NLP)

c) Information Extraction (IE) ”

Page 8: Do it ourselves : Social Technologies for Information Retrieval

Informazione medico-socialeInformazione medico-socialeo Grande varietà di fonti – da quelle governative ai siti personaliGrande varietà di fonti – da quelle governative ai siti personali

o Grande varietà di formati: pagine Web, schede di database, Grande varietà di formati: pagine Web, schede di database, bibliografie su pdf, video, cataloghi online, statistiche, articoli in bibliografie su pdf, video, cataloghi online, statistiche, articoli in Word etc.Word etc.

o Grande varietà di modalità di ricerca, ognuna dedicata a un Grande varietà di modalità di ricerca, ognuna dedicata a un sito o a un segmentosito o a un segmento

o Rischio elevatissmo di informazioni distorte o non Rischio elevatissmo di informazioni distorte o non correttamente dimensionate rispetto all'utenza, bufale, spam, correttamente dimensionate rispetto all'utenza, bufale, spam, siti “canaglia” (vendita di prodotti o servizi contraffatti o siti “canaglia” (vendita di prodotti o servizi contraffatti o inesistenti)inesistenti)

o Necessità di strumenti di IR che aiutino i professionisti a Necessità di strumenti di IR che aiutino i professionisti a vagliare l'immane letteratura pubblicata sul Webvagliare l'immane letteratura pubblicata sul Web

o Necessità di portali affidabili e certificati che espongano Necessità di portali affidabili e certificati che espongano informazioni specialistiche e di qualità ma in grado di informazioni specialistiche e di qualità ma in grado di soddisfare anche le esigenze dei profanisoddisfare anche le esigenze dei profani

Ruolo delle biblioteche e dei

centri di doumentazione

Page 9: Do it ourselves : Social Technologies for Information Retrieval

Customised Search EnginesCustomised Search Engineso Elenco di siti e risorse accreditatiElenco di siti e risorse accreditatio Ricerca full-text nei documenti (.pdf, .doc etc.)Ricerca full-text nei documenti (.pdf, .doc etc.)o Indicizzazione di (meta)repertori (directory, enciclopedie Indicizzazione di (meta)repertori (directory, enciclopedie

online, basi di dati, open archive etc.)online, basi di dati, open archive etc.)o Risorse ad integrazione nel tempo (censimento Risorse ad integrazione nel tempo (censimento

continuo)continuo)o Selezione collaborativaSelezione collaborativao Possibilità di (dis)approvare i risultatiPossibilità di (dis)approvare i risultatio Inclusione delle maschere di ricerca in siti Web e blogInclusione delle maschere di ricerca in siti Web e blogo Tag/Label per restringere il focus della ricercaTag/Label per restringere il focus della ricercao Upload/download del knowledge baseUpload/download del knowledge base

Page 10: Do it ourselves : Social Technologies for Information Retrieval

Customised Search EnginesCustomised Search Engineso Swickio Rollyoo Live Search Macros

o Altri servizi disponibili online (Altri servizi disponibili online (Yahoo! BOSS, per , per esempio!)esempio!)

o Grandi siti fanno uso abitualmente, da qualche fanno uso abitualmente, da qualche anno, di motori specializzati invece del vecchio anno, di motori specializzati invece del vecchio Google Search sul sitoGoogle Search sul sito

o Il Il gadget è utile per “spread the search” è utile per “spread the search”

Page 11: Do it ourselves : Social Technologies for Information Retrieval

Google CSEGoogle CSEo Librarian's E-library (Google CSE) - - Selected resources Selected resources

on Libraries and Librarianship from the American on Libraries and Librarianship from the American Library Association (ALA) Library and a growing list of Library Association (ALA) Library and a growing list of volunteersvolunteers

o Addiction Search Engine - - Designed to help people find Designed to help people find the information (...) relating to addiction and drug related the information (...) relating to addiction and drug related issuesissues

o LIS-ITA-EJ - LIS italian electronic journals- LIS italian electronic journalso SO-LIB Social software for libraries (Google CSE) - -

Online resources and information on social software Online resources and information on social software applications in librariesapplications in libraries

Page 12: Do it ourselves : Social Technologies for Information Retrieval

Google CSE - FunzionalitàGoogle CSE - Funzionalitào Configurazione (interfaccia, scelta tipologia, collaboratori Configurazione (interfaccia, scelta tipologia, collaboratori

etc.)etc.)

o Elenchi di siti preferitiElenchi di siti preferiti

o Pattern URL per specificare siti (e parti di essi) da includere Pattern URL per specificare siti (e parti di essi) da includere nel knowledge basenel knowledge base

o Perfezionamenti: label utili a restringere la ricerca su alcuni Perfezionamenti: label utili a restringere la ricerca su alcuni siti + possibilità di aggiungere parole alla stringa di ricercasiti + possibilità di aggiungere parole alla stringa di ricerca

o Import/export siti (“annotazioni”) e configurazioni (“contesto”) Import/export siti (“annotazioni”) e configurazioni (“contesto”) via TSV e XML (anche feed RSS, OPML, file .html)via TSV e XML (anche feed RSS, OPML, file .html)

o Attribuzione di uno score di rilevanza tra -1 e +1 per stabilire Attribuzione di uno score di rilevanza tra -1 e +1 per stabilire una gerarichia delle fontiuna gerarichia delle fonti

o Possibilità di embeddare il motore di ricerca in pagine Web Possibilità di embeddare il motore di ricerca in pagine Web come un qualsiasi gadgetcome un qualsiasi gadget

o Stored o Linked CSEStored o Linked CSE

Page 13: Do it ourselves : Social Technologies for Information Retrieval

Google CSE - FunzionalitàGoogle CSE - Funzionalitào Google Marker per aggiungere on the fly un sito al knowledge Google Marker per aggiungere on the fly un sito al knowledge

basebase

o StatisticheStatistiche

o Esclusione di annunci pubblicitari (enti non profit) o guadagno con Esclusione di annunci pubblicitari (enti non profit) o guadagno con Google AdsGoogle Ads

o Messa a punto di parole chiave, punteggio, redirect e gestione Messa a punto di parole chiave, punteggio, redirect e gestione dei sinonimi (solo) nel file XML di contestodei sinonimi (solo) nel file XML di contesto

o API e AjaxAPI e Ajax

o Subscribed links: funzionalità utile a creare risultati integrati che Subscribed links: funzionalità utile a creare risultati integrati che vengono presentati in testa all‘elenco dei risultati della query. vengono presentati in testa all‘elenco dei risultati della query. Possono essere associati e quindi richiamati (triggered) da Possono essere associati e quindi richiamati (triggered) da specifiche parole chiavespecifiche parole chiave

o Integrazione con terze parti per aumentare le funzionalità (es.: Integrazione con terze parti per aumentare le funzionalità (es.: upload bookmark da del.icio.us)upload bookmark da del.icio.us)

In definitiva Google CSE è molto semplice ma anche

sufficientemente elaborato da costituire un ottimo (il migliore IMHO) strumento per la ricerca in biblioteca o in un centro di

documentazione

Drawback: la ricerca viene effettuata solo in Google Web e

Scholar (a parte i “redirect”); disallineamenti con Google; funzioni “sinonimi”, “score”,

upload file .hmtl, redirect vanno effettuate attraverso il file XML

Page 14: Do it ourselves : Social Technologies for Information Retrieval

Creazione di un repertorio di Creazione di un repertorio di risorse utilirisorse utili

o Per i Per i vostri colleghivostri colleghi che lavorano nello stesso enteche lavorano nello stesso ente che lavorano in altri enti ma sulle stesse tematicheche lavorano in altri enti ma sulle stesse tematiche con cui partecipate a determinati progetticon cui partecipate a determinati progetti

o Per gli Per gli utentiutenti come motore di partenza per interrogare tutte le vostre risorsecome motore di partenza per interrogare tutte le vostre risorse per information literacy e referenceper information literacy e reference come knowledge base di una disciplina o di un percorso come knowledge base di una disciplina o di un percorso

tematicotematico come strumento metodologico generale da sostituire a Google come strumento metodologico generale da sostituire a Google

per una navigazione consapevole (siti anti-bufale etc.)per una navigazione consapevole (siti anti-bufale etc.)

o L'elenco potrebbe essere collaborativo, aggiornato nel corso del L'elenco potrebbe essere collaborativo, aggiornato nel corso del tempo, condiviso con altri utenti Internet etc.tempo, condiviso con altri utenti Internet etc.

Page 15: Do it ourselves : Social Technologies for Information Retrieval

Valutazioni paralleleValutazioni parallele

o Target di riferimentoTarget di riferimento

o Livello di approfondimentoLivello di approfondimento

o Obiettivi (v. slide precedente)Obiettivi (v. slide precedente)

o Criteri di inclusione ed esclusione dei siti e delle altre risorseCriteri di inclusione ed esclusione dei siti e delle altre risorse

o Valenza interna alla biblioteca, all'ente, nazionale, Valenza interna alla biblioteca, all'ente, nazionale, internazionale (-> relativamente a ciò sceglierete anche la internazionale (-> relativamente a ciò sceglierete anche la lingua)lingua)

o Tipologia dei contenuti (solo siti o anche video, podcast etc.)Tipologia dei contenuti (solo siti o anche video, podcast etc.)

o Apertura ai collaboratori:Apertura ai collaboratori: Sì -> chi (policy chiara: solo colleghi, solo utenti, libero etc.)Sì -> chi (policy chiara: solo colleghi, solo utenti, libero etc.) NoNo

o ......

Page 16: Do it ourselves : Social Technologies for Information Retrieval

SitografiaSitografia

o Google CSEo Google CSE Blogo Google CSE Forumo Directory dei CSEo Swickio Rollyoo Live Search Macroso Comparazione dei software per creare dei software per creare

motori personalizzatimotori personalizzati

Page 17: Do it ourselves : Social Technologies for Information Retrieval

Bonaria BiancuBiblioteca Università di Milano-Bicocca

Web: http://www.biblio.unimib.it/Blog: http//bonariabiancu.wordpress.com

Email: [email protected]

Grazie e buon lavoro!