Master IDEMM - Fonctionnement des moteurs de recherche

Post on 05-Dec-2014

5.875 views 0 download

description

Second cours du module référencement du Master IDEMM Lille. Les différents outils de recherche, le fonctionnement des moteurs, anatomie des pages de résultats, éléments d'interface, personnalisation des résultats, présentation du concept de recherche universelle

Transcript of Master IDEMM - Fonctionnement des moteurs de recherche

LES OUTILS DE RECHERCHE

Auteur : Sébastien Billard (s.billard@free.fr)

TYPOLOGIE DES OUTILS DE RECHERCHE : MOTEURS ET ANNUAIRES

Auteur : Sébastien Billard (s.billard@free.fr)

Moteurs- Gestion automatisée- Entrée par indexation- Tout le web a vocation à être indexé- Tout le contenu des pages est indexé- Navigation par requêtes

Annuaires- Gestion humaine- Entrée par soumission- Des choix éditoriaux sont faits- Seules les références aux sites sont indexées- Navigation arborescente (recherche possible)

FONCTIONNEMENT D'UN MOTEUR DE RECHERCHE (VERSION SIMPLE)

Auteur : Sébastien Billard (s.billard@free.fr)

Index

Moteurde recherche

IndexeurWeb

FONCTIONNEMENT D'UN MOTEUR (VERSION MOINS SIMPLE)

Auteur : Sébastien Billard (s.billard@free.fr)

Web

CrawlersServeur d'URLs Serveur tampon

DépôtIndexeur

Dicte les URLs à crawler Indexent, envoient le contenu des pages

Compresse, numérote et envoie

Décompresse, parse

Résolveur d'URLsAncres

Silos

Stocke les liens et ancres associées

Convertit les URLs en URLs absolues, et lie les documents entre eux

Liens Index des documents

Pagerank

Trieur

Moteur de recherche

LexiqueTrie le contenu des silos et produit un index inversé

Répond aux requêtes des utilisateurs

Contient une copie de chaque page HTML indexée (cache)

Stocke une cartographie du web

Répertories l'ensemble des documents indexés(index direct)

SilosSilosMaintient une correspondance mots / documents (index inversé)

(Schema basé sur l'article « The Anatomy of a Large-Scale Hypertextual Web Search Engine », par Sergey Brin et Lawrence Page)

COMMENT PENSE UN MOTEUR ?

Auteur : Sébastien Billard (s.billard@free.fr)

Juger de la pertinence d'une page web, c'est un peu comme juger du contenu d'un livre dans une bibliothèque :

Contenu Titre4ème de couvertureTable des matièreContenu général

Balise <title>Balise <meta> descriptionTitraille (balises <h1> à <h6>)Ensemble des textes

Structure Lisibilité Accessibilité technique et structuration

Popularité Recommandations Quantité, qualité et teneur des liens entrants

ANATOMIE GENERALE D'UNE PAGE DE RESULTATS

Auteur : Sébastien Billard (s.billard@free.fr)

Résultats « Onebox »

Résultats naturels

Liens sponsorisés

ELEMENTS D'INTERFACE GOOGLE

Auteur : Sébastien Billard (s.billard@free.fr)

- Déterminés algorithmiquement- Jusque 8 éléments

Sitelinks

Classic sitelinks

Jumplinks

Résultats indentés

Hiérarchie de site- Déterminés algorithmiquement- Jusque 4 éléments

- Contextuels- Basés sur les ancres

- Contextuels

- Basées sur les fils d'ariane des sites

RECHERCHE UNIVERSELLE

Auteur : Sébastien Billard (s.billard@free.fr)

Objectif : « faire tomber les silos de l'information qui existent sur le web » (Marissa Mayer, 16/05/07)

Actualités

Pages web

Billets de blogs

Images

Vidéos

PERSONNALISATION DES RESULTATS DE RECHERCHE

Auteur : Sébastien Billard (s.billard@free.fr)

Localisation de l'utilisateur(IP, langue du navigateur)

Comportement del'utilisateur(loggé ou non)

Personnalisationspar l'utilisateur(Searchwiki)

Interface utilisée(.com, .fr...)

Plusieurs critères concourent la personnalisation des résultats :

PERSONNALISATION POUR TOUT LE MONDE !

Auteur : Sébastien Billard (s.billard@free.fr)

LES OPERATEURS UTILES AU REFERENCEUR : GOOGLE

Auteur : Sébastien Billard (s.billard@free.fr)

Guillemets "

Pour rechercher une chaine de mots

Tiret -

Pour exclure des mots ou sites

Site:

Pour rechercher sur un domaine, un sous-domaine, un répertoire

Filetype:

Pour rechercher un type de fichier donné

Inurl: et allinurl:

Pour rechercher les pages dont l'URL contient une expression

Intitle: et allintitle:

Pour rechercher les pages dont le <title> contient une expression

Link:

Pour recherche des pages pointant vers une URL donnée

LES OPERATEURS UTILES AU REFERENCEUR : BING

Auteur : Sébastien Billard (s.billard@free.fr)

Linkfromdomain:

Pour rechercher les liens sortants d'un domaine

Ip:

Pour rechercher les sites hébergés sur une IP

Inanchor:

Pour rechercher les sites liés avec une ancre donnée