Master IDEMM - Fonctionnement des moteurs de recherche

12
LES OUTILS DE RECHERCHE Auteur : Sébastien Billard ([email protected])

description

Second cours du module référencement du Master IDEMM Lille. Les différents outils de recherche, le fonctionnement des moteurs, anatomie des pages de résultats, éléments d'interface, personnalisation des résultats, présentation du concept de recherche universelle

Transcript of Master IDEMM - Fonctionnement des moteurs de recherche

Page 1: Master IDEMM - Fonctionnement des moteurs de recherche

LES OUTILS DE RECHERCHE

Auteur : Sébastien Billard ([email protected])

Page 2: Master IDEMM - Fonctionnement des moteurs de recherche

TYPOLOGIE DES OUTILS DE RECHERCHE : MOTEURS ET ANNUAIRES

Auteur : Sébastien Billard ([email protected])

Moteurs- Gestion automatisée- Entrée par indexation- Tout le web a vocation à être indexé- Tout le contenu des pages est indexé- Navigation par requêtes

Annuaires- Gestion humaine- Entrée par soumission- Des choix éditoriaux sont faits- Seules les références aux sites sont indexées- Navigation arborescente (recherche possible)

Page 3: Master IDEMM - Fonctionnement des moteurs de recherche

FONCTIONNEMENT D'UN MOTEUR DE RECHERCHE (VERSION SIMPLE)

Auteur : Sébastien Billard ([email protected])

Index

Moteurde recherche

IndexeurWeb

Page 4: Master IDEMM - Fonctionnement des moteurs de recherche

FONCTIONNEMENT D'UN MOTEUR (VERSION MOINS SIMPLE)

Auteur : Sébastien Billard ([email protected])

Web

CrawlersServeur d'URLs Serveur tampon

DépôtIndexeur

Dicte les URLs à crawler Indexent, envoient le contenu des pages

Compresse, numérote et envoie

Décompresse, parse

Résolveur d'URLsAncres

Silos

Stocke les liens et ancres associées

Convertit les URLs en URLs absolues, et lie les documents entre eux

Liens Index des documents

Pagerank

Trieur

Moteur de recherche

LexiqueTrie le contenu des silos et produit un index inversé

Répond aux requêtes des utilisateurs

Contient une copie de chaque page HTML indexée (cache)

Stocke une cartographie du web

Répertories l'ensemble des documents indexés(index direct)

SilosSilosMaintient une correspondance mots / documents (index inversé)

(Schema basé sur l'article « The Anatomy of a Large-Scale Hypertextual Web Search Engine », par Sergey Brin et Lawrence Page)

Page 5: Master IDEMM - Fonctionnement des moteurs de recherche

COMMENT PENSE UN MOTEUR ?

Auteur : Sébastien Billard ([email protected])

Juger de la pertinence d'une page web, c'est un peu comme juger du contenu d'un livre dans une bibliothèque :

Contenu Titre4ème de couvertureTable des matièreContenu général

Balise <title>Balise <meta> descriptionTitraille (balises <h1> à <h6>)Ensemble des textes

Structure Lisibilité Accessibilité technique et structuration

Popularité Recommandations Quantité, qualité et teneur des liens entrants

Page 6: Master IDEMM - Fonctionnement des moteurs de recherche

ANATOMIE GENERALE D'UNE PAGE DE RESULTATS

Auteur : Sébastien Billard ([email protected])

Résultats « Onebox »

Résultats naturels

Liens sponsorisés

Page 7: Master IDEMM - Fonctionnement des moteurs de recherche

ELEMENTS D'INTERFACE GOOGLE

Auteur : Sébastien Billard ([email protected])

- Déterminés algorithmiquement- Jusque 8 éléments

Sitelinks

Classic sitelinks

Jumplinks

Résultats indentés

Hiérarchie de site- Déterminés algorithmiquement- Jusque 4 éléments

- Contextuels- Basés sur les ancres

- Contextuels

- Basées sur les fils d'ariane des sites

Page 8: Master IDEMM - Fonctionnement des moteurs de recherche

RECHERCHE UNIVERSELLE

Auteur : Sébastien Billard ([email protected])

Objectif : « faire tomber les silos de l'information qui existent sur le web » (Marissa Mayer, 16/05/07)

Actualités

Pages web

Billets de blogs

Images

Vidéos

Page 9: Master IDEMM - Fonctionnement des moteurs de recherche

PERSONNALISATION DES RESULTATS DE RECHERCHE

Auteur : Sébastien Billard ([email protected])

Localisation de l'utilisateur(IP, langue du navigateur)

Comportement del'utilisateur(loggé ou non)

Personnalisationspar l'utilisateur(Searchwiki)

Interface utilisée(.com, .fr...)

Plusieurs critères concourent la personnalisation des résultats :

Page 10: Master IDEMM - Fonctionnement des moteurs de recherche

PERSONNALISATION POUR TOUT LE MONDE !

Auteur : Sébastien Billard ([email protected])

Page 11: Master IDEMM - Fonctionnement des moteurs de recherche

LES OPERATEURS UTILES AU REFERENCEUR : GOOGLE

Auteur : Sébastien Billard ([email protected])

Guillemets "

Pour rechercher une chaine de mots

Tiret -

Pour exclure des mots ou sites

Site:

Pour rechercher sur un domaine, un sous-domaine, un répertoire

Filetype:

Pour rechercher un type de fichier donné

Inurl: et allinurl:

Pour rechercher les pages dont l'URL contient une expression

Intitle: et allintitle:

Pour rechercher les pages dont le <title> contient une expression

Link:

Pour recherche des pages pointant vers une URL donnée

Page 12: Master IDEMM - Fonctionnement des moteurs de recherche

LES OPERATEURS UTILES AU REFERENCEUR : BING

Auteur : Sébastien Billard ([email protected])

Linkfromdomain:

Pour rechercher les liens sortants d'un domaine

Ip:

Pour rechercher les sites hébergés sur une IP

Inanchor:

Pour rechercher les sites liés avec une ancre donnée