Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.
-
Upload
michelle-noel -
Category
Documents
-
view
106 -
download
0
Transcript of Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.
![Page 1: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/1.jpg)
Présentation Biblio. (DESS IIR)Présentation Biblio. (DESS IIR)
Les moteurs de recherche WebLes moteurs de recherche Web
Jérémy CLUZEL
Philippe ROCHEBLOINE
![Page 2: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/2.jpg)
Les moteurs de recherche web
SommaireSommaire
IntroductionDéfinitionPrésentationFonctionnementArchitectureConclusion
![Page 3: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/3.jpg)
Les moteurs de recherche web
IntroductionIntroduction
![Page 4: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/4.jpg)
Les moteurs de recherche web
IntroductionIntroduction
Internet en croissance exponentielle.
Source importante d’informations ne pouvant être ignorée (même si utilisée en complément…).
Données et documents pertinents noyés dans l’immensité du réseau.
Utilisation d’outils de recherche quasi-obligatoire.
![Page 5: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/5.jpg)
Les moteurs de recherche web
DéfinitionDéfinition
![Page 6: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/6.jpg)
Les moteurs de recherche web
DéfinitionDéfinition
Expression « moteur de recherche » souvent employée à tord.
Importance de la différenciation entre les différents outils existants
Diversité plus complémentaire que concurrentielle
![Page 7: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/7.jpg)
Les moteurs de recherche web
PrésentationPrésentation
![Page 8: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/8.jpg)
Les moteurs de recherche web
PrésentationPrésentation
moteursméta–moteursannuairesportailsanneaux« web invisible »autres…
![Page 9: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/9.jpg)
Les moteurs de recherche web
MoteursMoteurs
Outil permettant de rechercher les pages comportant une expression donnée.
Ex: AltaVista, Excite, Google, Lycos…
+ Exhaustif, options de recherche utiles, indexation de chaque mot.
– Nombre de réponses souvent élevé, une certaine expérience d’utilisation est requise.
![Page 10: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/10.jpg)
Les moteurs de recherche web
Moteurs (suite) – les catégoriesMoteurs (suite) – les catégories
Sémantiques : intégration du sens du langage au processus de recherche (dictionnaires de concepts, thésaurus).
Multi-dimensionnels : paramétrage poussé, affinage de la catégorisation des documents, et des procédés de requêtes croisées.
Verticaux : adaptation à des problématiques métier bien particulières.
![Page 11: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/11.jpg)
Les moteurs de recherche web
Méta-moteursMéta-moteurs
« Super-moteurs » permettant d’effectuer simultanément une recherche sur plusieurs moteurs et annuaires.
Ex: Debriefing, MetaCrawler, Savvy Search.
+ Puissance cumulée de plusieurs outils, efficacité croissante.
– Longueur de la recherche, fantaisie de certains résultats, efficacité moindre par rapport aux moteurs spécialisés.
![Page 12: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/12.jpg)
Les moteurs de recherche web
Annuaires (ou répertoire)Annuaires (ou répertoire)
C’est un catalogue de sites, ne recensant que certains sites seulement.
Création de fiches descriptives avec titre, URL, et bref descriptif (15 à 25 mots).
Utilisation de bases de données décrivant une sélection de sites indexée par une liste arborescente de catégories (ou rubriques).
Ex: Francité, Nomade, Yahoo...
![Page 13: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/13.jpg)
Les moteurs de recherche web
Annuaires (suite)Annuaires (suite)
+ Utilisation simple, encadrement de l’internaute dans sa recherche à l’aide de raffinements successifs.
– Non-exhaustif (seule une petite partie du réseau est référencée) nécessité de mettre à jour très régulièrement le contenu des rubriques.
![Page 14: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/14.jpg)
Les moteurs de recherche web
PortailsPortails
Site offrant un ensemble de ressources et de services (généraux ou propres à un domaine) à un ensemble d'utilisateurs défini (grand public, membre d'une profession, d'une branche d'activité...).
Ex: Cuisinons, Visioweb.
+ Navigation et recherche d'information facilitées, services à valeur ajoutée.
– Sites cloisonnant…
![Page 15: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/15.jpg)
Les moteurs de recherche web
Portails (suite)Portails (suite)
![Page 16: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/16.jpg)
Les moteurs de recherche web
Portails (suite) – les servicesPortails (suite) – les services
Outils de recherche, Information (actualité, finance, météo, etc.), Outils de communication (E-mail, listes de
diffusion, groupes de discussion), Outils de consommation (vente en ligne,
publicité, etc.), Personnalisation, Du contenu...
![Page 17: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/17.jpg)
Les moteurs de recherche web
Anneaux (« WebRings »)Anneaux (« WebRings »)
Communauté (de sites) décentralisée à l'extrême, liée par un thème commun.
L'anneau sélectionne et contrôle humainement la qualité des sites proposés.
+ Qualité et fiabilité de l'information.– Recherche du « bon » anneau laborieuse.
http://nav.webring.yahoo.com
![Page 18: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/18.jpg)
Les moteurs de recherche web
« Web invisible »« Web invisible »
Partie du Web contenant des documents n’ayant pas été indexés.
Origines : Type de fichiers, données dynamiques, robot de recherche bridé, documents « interdits de référencement »…
Outils :, All-One-Search, AlphaSearch, Fossick, Invisibleweb, Searchability…
![Page 19: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/19.jpg)
Les moteurs de recherche web
Autres…Autres…
Impossibilité de citer, et de classer la totalité des outils de recherche existants.
Quelques exemples de ces catégories difficilement « classables » :
Recherche d'adresses classées par zone géographique (FinderSeeker, Excite Travel).
Recherche d‘objets perdus (Yellowtag).
![Page 20: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/20.jpg)
Les moteurs de recherche web
FonctionnementFonctionnement
![Page 21: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/21.jpg)
Les moteurs de recherche web
FonctionnementFonctionnement
Vue d’ensemble,
Le robot – explorateur,
Le système d’indexation,
Le module de recherche,Modes d’interrogation,Techniques utilisées.
![Page 22: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/22.jpg)
Les moteurs de recherche web
Vue d’ensembleVue d’ensemble
Le « spider » récupère et analyse le maximum d’informations provenant des pages qu’il visite.
Le système d’indexation s’occupe de stocker, et classer ces informations dans une base de données.
Le « searcher » est chargé de retrouver dans cette base, les documents qui correspondent le mieux à la requête émise.
![Page 23: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/23.jpg)
Les moteurs de recherche web
Fonctionnement généralFonctionnement général
![Page 24: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/24.jpg)
Les moteurs de recherche web
Le robot – explorateur (« spider Le robot – explorateur (« spider »)») C’est un robot logiciel qui explore de façon
autonome le « Web ». Son efficacité est capitale pour le moteur. Identifie les liens des pages, puis les visite
à son tour, parcourant ainsi rapidement la totalité du site, puis ceux qui lui sont rattachés.
Examine périodiquement des millions de pages et constitue de cette façon une base de données de celles déjà visités.
![Page 25: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/25.jpg)
Les moteurs de recherche web
Le système d’indexationLe système d’indexation
Analyse les informations collectées, construit un index des mots rencontrés (et des pages correspondantes), puis stocke l’ensemble dans une base de données.
Convertit certains fichiers ne pouvant pas être indexés à cause de leur format.
Utilise des outils d’extraction pour ne récupérer que « l’essence » des documents.
Ex: Fulcrum, Infoseek, Intelliserv, Livelink.
![Page 26: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/26.jpg)
Les moteurs de recherche web
Le système d’indexation (suite)Le système d’indexation (suite)
Les techniques d’indexation :
Au début, seulement les titres des documents,
Puis, tous les mots du premier paragraphe,
Aujourd’hui : les méta-données (ou metatags), ex: balise HTML <META>.
![Page 27: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/27.jpg)
Les moteurs de recherche web
Module de recherche (« searcher »)Module de recherche (« searcher »)
Le searcher est le frontal de l'utilisateur. Grâce à son interface graphique, on peut
poser une question, sélectionner les options disponibles, et lancer une recherche.
Un script faisant alors appel au système d'indexation pour qu’il exécute la requête sur la base de données.
Les résultats affichés sous forme de page Web intégrant généralement les réponses sous forme de liste.
![Page 28: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/28.jpg)
Les moteurs de recherche web
Module de recherche – modes d’interro.Module de recherche – modes d’interro.
Booléen : utilisation des opérateurs logiques (AND, OR, NOT, NEAR, etc.),
Liste de mots : requête retranscrite en une expression booléenne,
En langage naturel (expérimental).
![Page 29: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/29.jpg)
Les moteurs de recherche web
Module de recherche - techniquesModule de recherche - techniques
Documentaire classique : utilisant des fichiers d'index de type mots-clés (mots ou expressions normalisés).
Textuelle : cherchant à retrouver les documents " ressemblant " le plus à la question posée.Pour cela, on utilise des techniques linguistiques (question posée en langue naturelle) ou statistiques (pondération des valeurs des mots et des documents)
Floue : autorisant les erreurs (OCR)
![Page 30: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/30.jpg)
Les moteurs de recherche web
ArchitectureArchitecture
![Page 31: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/31.jpg)
Les moteurs de recherche web
ArchitectureArchitecture
Architecture Générale
Exemple de base de données (DILIB)
Exemple d’architectures (ALTAVISTA)
![Page 32: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/32.jpg)
Les moteurs de recherche web
Architecture GénéraleArchitecture Générale
P ages W eb
BD
Robots
Indexation
Recherche
Serveur W eb
N av iga teu rC lien t
M o teu r d e rech erch e
R e c h e rc h e
![Page 33: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/33.jpg)
Les moteurs de recherche web
DILIBDILIB
DILIB est une plate-forme pour l'Ingénierie du Document et de l'Information Scientifiques et Techniques
partie recherche
![Page 34: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/34.jpg)
Les moteurs de recherche web
Structure base de données (DILIBStructure base de données (DILIB))
Données Source
Génération
Fichier D irect
Consignes
Fichiers Inverse
Fichiers Param ètre
![Page 35: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/35.jpg)
Les moteurs de recherche web
Fichier direct / inverseFichier direct / inverse
N° enregistrement Titre Auteur Mots clés
000000 Tintin au Congo Herge Tintin, Milou, chien
000001 Tintin en Amérique Herge Tintin, Milou, cheval, chien
000003 Les Dalton Morris, Goscinny Lucky Luke, cheval
000004 Astérix le Gaulois Goscinny, Uderzo Asterix, Idefix, chien
Asterix 000004
Cheval 000002, 000003
Chien 000001, 000002, 000004
Idefix 000004
Lucky Luke 000003
Milou 000001, 000002
Tintin 000001, 000002
Goscinny 000003, 000004
Herge 000001, 000002
Morris 000004
Uderzo 000004
M ots clés Auteurs
Fichier direct
Fichier inverse
![Page 36: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/36.jpg)
Les moteurs de recherche web
Architecture moteur ALTAVISTAArchitecture moteur ALTAVISTA
![Page 37: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/37.jpg)
Les moteurs de recherche web
Deux serveursDeux serveurs
![Page 38: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/38.jpg)
Les moteurs de recherche web
Serveurs en parallèlesServeurs en parallèles
![Page 39: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/39.jpg)
Les moteurs de recherche web
Serveurs IndépendantsServeurs Indépendants
![Page 40: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/40.jpg)
Les moteurs de recherche web
ConclusionConclusion
Accroissement important de la quantité d’informations disponible sur le réseau.
Progression notable (mais pas encore suffisante) des performances des outils de recherche.
Nouvelles technologies intelligentes prometteuses : agents, recherche en langage naturel.
![Page 41: Présentation Biblio. (DESS IIR) Les moteurs de recherche Web Jérémy CLUZEL Philippe ROCHEBLOINE.](https://reader038.fdocuments.net/reader038/viewer/2022110304/551d9d84497959293b8bf22a/html5/thumbnails/41.jpg)
Les moteurs de recherche web
BibliographieBibliographie
Glossaire spécialisé dans le domaine :
http://www.idf.net/mdr/glossaire.html
Divers sites explicatifs :
http://www.decisionnel.net/recherche/
http://www-dist.cea.fr/ext/neuf/moteur/
Sur le Web invisible :
http://www.asktibbs.com/web_invisible.html
Sur les Anneaux:
http://2sevres.clipewebring.free.fr/quoi.html
Liste de discussions :