T.Sharon-A.Frank 1 Internet Resources Discovery (IRD) Harvest/Katsir.
-
date post
21-Dec-2015 -
Category
Documents
-
view
223 -
download
3
Transcript of T.Sharon-A.Frank 1 Internet Resources Discovery (IRD) Harvest/Katsir.
T.Sharon-A.Frank2
Harvested Digital Library (HDL)
Does not contain data, just metadata
Objects harvested into summaries
Regular DL characteristics:
• Fine granularity• Rich library services• High quality control• Annotated
T.Sharon-A.Frank3CacheCache
HarvesterHarvester
GathererGatherer
ProvidersProviders
FilterFilter
SummarizerSummarizer
Digital Digital LibraryLibrary
BrokerBroker
UsersUsers
Digital Digital LibraryLibrary
Harvesting Paradigm
T.Sharon-A.Frank4
• Harvester
• Locator
• Gatherer
• ISPs
• Library Profile
• Thesaurus
• Filterer
• Cataloger
• Summarizer
• Broker/Agent
• Retriever
Harvesting model components
רכיבי מודל קצירה:
קוצר מסנן
מאתר מקטלג
אספן תמצת
ספקים ברשת סוכן
פרופיל ספריה מאחזר
אגרון
T.Sharon-A.Frank5
Harvesting Model Components
ThesaurusThesaurus
Information maps& User ProfilesInformation maps
& User Profiles
User ProfileUser Profile
Harvesting Processin Internet/Intranet
Harvesting Processin Internet/Intranet
Digital Library Services for the user
Digital Library Services for the user
HarvestingIS Request
LocatingWeb Consulting
Gathering
Filtering
Summarization
Broker: Borrow/DistributeStorage/Indexing
RetrieverBrowsing/Navigation
T.Sharon-A.Frank6
Harvest Architecture
Harvest
Locator
Gatherer
Summarizer
Broker
RetrieverInformation
Scienti stUser
Filter
Provides
Internet
Local DataBase
RepositoryProfile
DedicatedRespository
Thesaurus
Legend:
Repository
Module
Interface
InformationFiltering Process
NewComponent in
the Research
LogicalRepository
No Link Defind
Defined link
Thesaurus
T.Sharon-A.Frank7
Seven components of the Harvest architecture
LOCATORLOCATOR
GATHERERGATHERER
FILTERERFILTERER
SUMMARIZERSUMMARIZER
BROKERBROKER
RETRIEVER
HARVESTER
Collector
Broker & Interface
user
News ServicesNewspapers
Other Resources
ProvidersProviders
HTML PagesRelevant HTML Pages
T.Sharon-A.Frank9
1996 המערכת הושקה בקולורדו, טקסס בשנת באוניברסיטת
. קולורדו, טקסס
הפרויקט פעל כשרת ברשת במטרה להשיג את שלושת הדברים
הבאים:
א. איסוף מידע מאונדקס מבוזר מהרשת באופן יעיל
. ומינימום העמסה על הרשת
.ב. טיפול במאנדקסים שונים של מאגרי מידע
.ג. תמיכה בזיכרון זמני מקומי ומאחזרים
System Harvest
T.Sharon-A.Frank10
Harvesting Harvesting QueryQuery
Many Many URLsURLs
FilteringFiltering
User QueryUser Query
CACHECACHEConstruction Construction processprocess
Retrieval Retrieval processprocess
SummarySummary
Digital Digital LibraryLibrary
RetrieveRetrieve
Harvesting Subsystems
T.Sharon-A.Frank11
Index/Search
GathererGatherer Broker Broker
Locator Provider
Summarizer Caching
Digital Library
Harvest Components
T.Sharon-A.Frank12
Client
Client
Client
Client Client
Replicator
Gatherer
Object Cache
Provider
BrokerSummary
Summary
[local or
remote]
1. Search
2. Retrieve object & access methods
Harvest Architecture
T.Sharon-A.Frank13
Harvest מבוסס על א.
תמיכה בשילוב עברית/אנגלית )“גיור ב.כהלכה”(
הוספת עץ נושאים ג.
תמיכה בשרותי מידען ד.
Katsir System
T.Sharon-A.Frank14
Katsir Requirements
סיפוק מנשק ידידותי למידעןידידותי למידען - . תהליך יצירת ספריה דיגיטלית צריך שקוף -
.אוטומטי ברובו להיות תהליך של שמירת מסמכים רלוונטיים איכותי -
.בלבד יצירת רכיב אשר אחראי להגדרת ממוקד וייעודי -
אפיון סוג ספריה דיגיטלית .רצויה
נתינת מנשק ידידותי ידידותי למשתמש - .למשתמש
T.Sharon-A.Frank15
Dynamic Harvest Model
מסנן מסמכים רלוונטיים
מאחזר
ספקים ברשת ספקים ברשת
1משתמש 1משתמש מידען מידען
בקשת קצירה
העברת מעני אתרים
מסמכים לבדיקה
שמירת מידע-על
שאילתא
תשובות
N משתמשN משתמש
מאגרי מידעמקומיים אינטרנט
תמצת
מאתאספר
ן
סוכן
אינטראנט
מסמכים
סוכן-משתמש
מקטלג פרופילספריה
אגרון
ספרייה דיגיטליתספרייה דיגיטלית
קוצר
T.Sharon-A.Frank19
Katsir URLs
• Katsir at Bar-Ilan University– http://bicsir.cs.biu.ac.il:8088/katsir/docs/pres/– http://bicsir.cs.biu.ac.il:8070/Harvest/brokers/taly
• Harvest– Obsolete - http://www.tardis.ed.ac.uk/harvest/– http://webharvest.sourceforge.net/ng/
T.Sharon-A.Frank20
Harvester-LocatorHarvester-Locator Semantic Environment for DL Initialization
Gatherer-FiltererGatherer-Filterer Dynamic validation of summaries and URLs Semantic filtering based on DL profiles
Summarizer-BrokerSummarizer-Broker Intelligent information extraction from Web resources a semi-automatic construction of metadata/topic-tree Use knowledge management to support rich integrated services
RetrieverRetriever Advanced visualization Enhancement user queries by thesaurus & ontologies Personalization: user profiles & sociological stereotypes Knowledge rich library services: consultation, user collaboration,
annotation and workflow (with API)
Expected Features of Next Generations DLs
Evolution of SEs & DLsEvolution of SEs & DLs
Markets TermsMarkets Terms 2nd Generation SE and DL
3rd Generation SE and DL
1st Generation SE and DL
Indexing Indexing Broker including
Indexing &Push Tech. Indexing
Spiders, Robots
Initialization
Farming
Locating
Initialization
LocatingLocating
Filtering Gathering
Filtering
Gathering
Filtering
Gathering
Filtering
Annotation Summarizing Summarizing
Retrieval & Browsing
Retrieval & Browsing
Retrieval & Browsing
Retrieval &
KM Services