Deck seo campus 2011 utiliser les logs serveurs

Utiliser les logs serveurs

Philippe YONNETGlobal SEO StrategistEasyRoommate / [email protected]

Les logs serveurs c’est quoi ?

-------------------------------------------------------

Enregistrement dela requête = ajout d’une ligne dans le fichier de logs

Log

Les logs serveurs c’est quoi ?

Les « logs » sont des fichiers texte créés par les serveurs web.

Chaque requête envoyée à un serveur web est enregistrée dans le fichier log.

Chaque ligne du fichier de logs représente une requête http

A quoi cela ressemble ?

194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644

Format Apache par défaut

Remarque : on ajoute en général d’autres champs comme :- Le referrer (et le query string : la chaine de paramètres)- Le User Agent- L’hôte

Quelles informations y trouve-t’on ?

• L’adresse IP de la source

• L’identité du client

• Le nom de l’utilisateur distant (si http auth)

• Date, heure, fuseau de la requête

• La requête http://

• Le code réponse renvoyé par le serveur

• La taille du bloc de données retourné par le serveur en octets

• Les “-” symbolisent une information manquante

Pourquoi pas une solution de web analytics

Deux types de mesure différents et

complémentaires

Le problème des « signaux faibles »

Le problème de la volumétrie des

rapports

Tracker correctement un robot avec un tag

javascript : impossible

Les « autres »

Pb spécifique à Google Analytics : la source « autres »

Près de 10% d’ « autres »…Comment fait-on si on veut justement

analyser ces urls là ?

Usage n°1 : connaître les pages crawlées

Homes / Rubriques

Pages catégories

Fiches Produits

Pages recherches

Pages Tags Divers0

200000

400000

600000

800000

1000000

1200000

1400000

1600000

1800000

Non crawlées

Crawlées

Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …

Usage n°1ter : caractériser le comportement de crawl

Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées

23-J

un-1

0

24-J

un-1

0

25-J

un-1

0

26-J

un-1

0

27-J

un-1

0

28-J

un-1

0

29-J

un-1

0

30-J

un-1

0

01-J

ul-10

02-J

ul-10

03-J

ul-10

04-J

ul-10

05-J

ul-10

06-J

ul-10

07-J

ul-10

08-J

ul-10

09-J

ul-10

10-J

ul-10

11-J

ul-10

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

Crawl des fiches produits : pages uniques

Crawl des fiches produits : avec recrawl

L’analyse des logs permet d’analyser les logs

templates par template et de savoir si les pages sont crawlées plus souvent ou si

plus de pages sont crawlées

Usage n°2 : déterminer les pages qui reçoivent du trafic organique

Homes / Rubriques

Pages catégories

Fiches Produits

Pages recherches

Pages Tags

Divers0

200000

400000

600000

800000

1000000

1200000

1400000

1600000

1800000

Non crawlées

Crawlées

Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées

Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements

Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée

Ratios intéressant :

Longueur des requêtes / type de pagesNombre d’expressions différentes / page

Usage n°4 : identifier les pb techniques

Erreurs 404, 403Pics d’erreur 500 si Asp .NETPics de 301 non prévus après une mise à jour de site

Usage n°5 : monitorer les perfs côté serveur

Apache 2 : temps pour délivrer la page mesuré en microsecondes

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T/%D" combined

Résultat[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491

Soit 0,095491 secondes

Avec Apache 1,3 seul le temps en sec est disponible

Ne pas confondre avec le temps de génération de la page

COMMENT FAIRE ?

1. Vérifier que vos logs sont bien générés

Les logs prennent de la place

Personne ne les consulte

Les logs finissent par être désactivés volontairement ou involontairement

2. Vérifiez le format de vos logs

HostSéparer

correctement les données des sous domaines

ReferrerIdentifier les

visites organiques

Identifier les backlinks

User Agent

Identifier les visites des

robots

Les trois champs indispensables qui, pourtant, peuvent manquer dans vos logs

3. Utiliser une application du marché

Awstats / Webalizer : peu d’infos SEO

3. Utiliser une application du marché : Urchin

3. Utiliser une application du marché : Urchin

Rapports riches, graphes

Relativement facile à installer et à utiliser

QualitésGourmand en ressources

Plante facilement sur des logs corrompus

Analyse SEO limitée

Défauts


SawMill


Gère des volumétries importantes

API disponible

QualitésGraphes intégrés indigents

Plus fiable en version Linux

Analyse SEO limitée

Défauts

Sawmill


Analogx http://www.analog.cx/


Analogx http://www.reportmagic.org/index.html

4. Créer ses propres outils

Permet de créer un monitoring personnalisé

Alertes pb de crawl Alertes rescodes

Permet de s’adapter à tous les contextes

CDN, proxies, load balancers Formats exotiques, lignes corrompues

Permet de réaliser toutes les analyses détaillées

Rescodes Crawl Referrers Visites organiques Mots clés

4. Créer ses propres outils : les obstacles

Utiliser les bons algorithmes

Utiliser un langage bas niveau

(langage C par exemple)

Utiliser une machine puissante

(système 64 bits, gros proc, mémoire >

4 Go)

Stocker des volumes impressionnant de

données

(téraoctets)

Etre rigoureux(nombreuses sources

d’erreur possibles)

La volumétrie importante des données représente souvent un défi insurmontablepour le développeur du dimanche

5. Utiliser des outils spécialisés

ssed et nawk : Outils Unix / Linux

Awk, Nawk, Gawk sont des langages de

traitement de lignes• Awk : l’ancêtre (se trouve plutôt sur plateforme Unix)

• Nawk : New Awk => disponible sur plateformes Linux (Ubuntu)

• Gawk : GNU Awk => version en licence GNU, disponible sur plateforme Linux

Quelques exemples de commandes awk

awk -F\" '{print $6}' combined_log | sort | uniq -c | sort –fr

Affiche la liste des user agents triées par ordre décroissant de nombre de hits

awk -F\" '($6 ~ /Googlebot/){print $2}' combined_log | awk '{print $2}‘

Affiche la liste des hits (visites) de Googlebot

awk '($9 ~ /404/)' combined_log

Liste les erreurs 404

Merci !

Si vous avez des questions, n’hésitez pas

Deck seo campus 2011 utiliser les logs serveurs

Technology

Transcript of Deck seo campus 2011 utiliser les logs serveurs