Deck seo campus 2011 utiliser les logs serveurs
-
Upload
philippe-yonnet -
Category
Technology
-
view
6.394 -
download
0
Transcript of Deck seo campus 2011 utiliser les logs serveurs
Utiliser les logs serveurs
Philippe YONNETGlobal SEO StrategistEasyRoommate / [email protected]
Les logs serveurs c’est quoi ?
-------------------------------------------------------
Enregistrement dela requête = ajout d’une ligne dans le fichier de logs
Log
Les logs serveurs c’est quoi ?
Les « logs » sont des fichiers texte créés par les serveurs web.
Chaque requête envoyée à un serveur web est enregistrée dans le fichier log.
Chaque ligne du fichier de logs représente une requête http
A quoi cela ressemble ?
194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644
Format Apache par défaut
Remarque : on ajoute en général d’autres champs comme :- Le referrer (et le query string : la chaine de paramètres)- Le User Agent- L’hôte
Quelles informations y trouve-t’on ?
• L’adresse IP de la source
• L’identité du client
• Le nom de l’utilisateur distant (si http auth)
• Date, heure, fuseau de la requête
• La requête http://
• Le code réponse renvoyé par le serveur
• La taille du bloc de données retourné par le serveur en octets
• Les “-” symbolisent une information manquante
Pourquoi pas une solution de web analytics
Deux types de mesure différents et
complémentaires
Le problème des « signaux faibles »
Le problème de la volumétrie des
rapports
Tracker correctement un robot avec un tag
javascript : impossible
Les « autres »
Pb spécifique à Google Analytics : la source « autres »
Près de 10% d’ « autres »…Comment fait-on si on veut justement
analyser ces urls là ?
Usage n°1 : connaître les pages crawlées
Homes / Rubriques
Pages catégories
Fiches Produits
Pages recherches
Pages Tags Divers0
200000
400000
600000
800000
1000000
1200000
1400000
1600000
1800000
Non crawlées
Crawlées
Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …
Usage n°1ter : caractériser le comportement de crawl
Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées
23-J
un-1
0
24-J
un-1
0
25-J
un-1
0
26-J
un-1
0
27-J
un-1
0
28-J
un-1
0
29-J
un-1
0
30-J
un-1
0
01-J
ul-10
02-J
ul-10
03-J
ul-10
04-J
ul-10
05-J
ul-10
06-J
ul-10
07-J
ul-10
08-J
ul-10
09-J
ul-10
10-J
ul-10
11-J
ul-10
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
Crawl des fiches produits : pages uniques
Crawl des fiches produits : avec recrawl
L’analyse des logs permet d’analyser les logs
templates par template et de savoir si les pages sont crawlées plus souvent ou si
plus de pages sont crawlées
Usage n°2 : déterminer les pages qui reçoivent du trafic organique
Homes / Rubriques
Pages catégories
Fiches Produits
Pages recherches
Pages Tags
Divers0
200000
400000
600000
800000
1000000
1200000
1400000
1600000
1800000
Non crawlées
Crawlées
Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées
Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements
Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée
Ratios intéressant :
Longueur des requêtes / type de pagesNombre d’expressions différentes / page
Usage n°4 : identifier les pb techniques
Erreurs 404, 403Pics d’erreur 500 si Asp .NETPics de 301 non prévus après une mise à jour de site
Usage n°5 : monitorer les perfs côté serveur
Apache 2 : temps pour délivrer la page mesuré en microsecondes
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T/%D" combined
Résultat[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491
Soit 0,095491 secondes
Avec Apache 1,3 seul le temps en sec est disponible
Ne pas confondre avec le temps de génération de la page
COMMENT FAIRE ?
1. Vérifier que vos logs sont bien générés
Les logs prennent de la place
Personne ne les consulte
Les logs finissent par être désactivés volontairement ou involontairement
2. Vérifiez le format de vos logs
HostSéparer
correctement les données des sous domaines
ReferrerIdentifier les
visites organiques
Identifier les backlinks
User Agent
Identifier les visites des
robots
Les trois champs indispensables qui, pourtant, peuvent manquer dans vos logs
3. Utiliser une application du marché
Awstats / Webalizer : peu d’infos SEO
3. Utiliser une application du marché : Urchin
3. Utiliser une application du marché : Urchin
Rapports riches, graphes
Relativement facile à installer et à utiliser
QualitésGourmand en ressources
Plante facilement sur des logs corrompus
Analyse SEO limitée
Défauts
3. Utiliser une application du marché
SawMill
3. Utiliser une application du marché
Gère des volumétries importantes
API disponible
QualitésGraphes intégrés indigents
Plus fiable en version Linux
Analyse SEO limitée
Défauts
Sawmill
3. Utiliser une application du marché
Analogx http://www.analog.cx/
3. Utiliser une application du marché
Analogx http://www.reportmagic.org/index.html
4. Créer ses propres outils
Permet de créer un monitoring personnalisé
Alertes pb de crawl Alertes rescodes
Permet de s’adapter à tous les contextes
CDN, proxies, load balancers Formats exotiques, lignes corrompues
Permet de réaliser toutes les analyses détaillées
Rescodes Crawl Referrers Visites organiques Mots clés
4. Créer ses propres outils : les obstacles
Utiliser les bons algorithmes
Utiliser un langage bas niveau
(langage C par exemple)
Utiliser une machine puissante
(système 64 bits, gros proc, mémoire >
4 Go)
Stocker des volumes impressionnant de
données
(téraoctets)
Etre rigoureux(nombreuses sources
d’erreur possibles)
La volumétrie importante des données représente souvent un défi insurmontablepour le développeur du dimanche
5. Utiliser des outils spécialisés
ssed et nawk : Outils Unix / Linux
Awk, Nawk, Gawk sont des langages de
traitement de lignes• Awk : l’ancêtre (se trouve plutôt sur plateforme Unix)
• Nawk : New Awk => disponible sur plateformes Linux (Ubuntu)
• Gawk : GNU Awk => version en licence GNU, disponible sur plateforme Linux
Quelques exemples de commandes awk
awk -F\" '{print $6}' combined_log | sort | uniq -c | sort –fr
Affiche la liste des user agents triées par ordre décroissant de nombre de hits
awk -F\" '($6 ~ /Googlebot/){print $2}' combined_log | awk '{print $2}‘
Affiche la liste des hits (visites) de Googlebot
awk '($9 ~ /404/)' combined_log
Liste les erreurs 404
Merci !
Si vous avez des questions, n’hésitez pas