référencement SEO

Robots.txt : Configuration et validation du fichier robots.txt et Sitemaps xml

Configurer et valider le fichier robot.txt et le  sitemaps de site WordPress

Le fichier robots.txt est l’un des principaux moyens de dire à un moteur de recherche où il peut et ne peut pas aller sur votre site Web. Tous les principaux moteurs de recherche prennent en charge les fonctionnalités de base proposées. Il y a quelques règles supplémentaires qui sont utilisées par quelques moteurs de recherche qui peuvent être utiles aussi. Ce guide couvre toutes les utilisations de robots.txt pour votre site Web. Bien que cela semble trivialement simple, faire une erreur dans votre fichier robots.txt peut sérieusement nuire à votre site, alors assurez-vous de le lire et de le comprendre.

1. Qu’est-ce qu’un fichier robots.txt ?
2. Que fait le fichier robots.txt ?
3. Où dois-je mettre mon fichier robots.txt ?
4. Avantages et inconvénients de l’utilisation de robots.txt
4.1. Pro: budget d’exploration
4.2. Con: ne pas retirer une page des résultats de recherche
4.3. Con: ne pas diffuser la valeur de lien
5. Syntaxe du fichier robots.txt
6. Directive utilisateur-agent
7. Les agents utilisateurs les plus courants pour les moteurs de recherche
8. Directive de refus
9. Comment utiliser des caractères génériques / expressions régulières
10. Directives d’analyse robots.txt non standard
10.1. Autoriser la directive
10.2. directive hôte
10.3 directive crawl-delay
11. Réaliser le plan de votre site avec les fichiers sitemaps XML
12. Validez votre fichier robots.txt

1. Qu’est-ce qu’un fichier robots.txt ?

Un fichier robots.txt est un fichier texte, suivant une syntaxe stricte. Il va être lu par les moteurs de recherche. Ces araignées sont aussi appelés robots, d’où le nom. La syntaxe est stricte simplement parce qu’elle doit être lisible par ordinateur. Il n’y a pas de lecture entre les lignes ici, quelque chose est 1 ou 0.

Aussi appelé “Robots Exclusion Protocol”, le fichier robots.txt est le résultat d’un consensus entre les premiers développeurs de moteurs de recherche. Ce n’est pas une norme officielle par une organisation de normalisation, mais tous les principaux moteurs de recherche y adhèrent.

2. Que fait le fichier robots.txt ?

Les moteurs de recherche indexent le Web les pages grace aux bots. Ils suivent des liens pour aller du site A au site B au site C et ainsi de suite. Avant qu’un moteur de recherche n’accentue une page d’un domaine qu’il n’a pas rencontré auparavant, il ouvre le fichier robots.txt de ces domaines. Le fichier robots.txt indique au moteur de recherche quelles URL il est autorisé à indexer sur ce site.
Un moteur de recherche mettra en cache le contenu du fichier robots.txt, mais le rafraîchira généralement plusieurs fois par jour. Donc, les changements seront reflétés assez rapidement.

3. Où dois-je mettre mon fichier robots.txt ?

Le fichier robots.txt doit toujours être à la racine de votre site. Donc, si URL de votre site est www.example.com, il doit être trouvé à http://www.example.com/robots.txt. Sachez: si votre site répond sans www. aussi, assurez-vous qu’il a le même fichier robots.txt! La même chose est vraie pour http et https. Lorsqu’un moteur de recherche souhaite aiguiser l’URL http://example.com/test, il saisira http://example.com/robots.txt. Quand il veut spider cette même URL mais sur https, il récupèrera le fichier robots.txt sur votre site https aussi, donc https://example.com/robots.txt.

Il est également très important que votre fichier robots.txt s’appelle vraiment robots.txt. Le nom est sensible à la casse. Ne faites aucune erreur ou cela ne marchera pas.

4. Avantages et inconvénients de l’utilisation de robots.txt

4.1. Pro: budget d’exploration

Chaque site a une “allocation” dans combien de pages une araignée de moteur de recherche va ramper sur ce site, les SEO appellent cela le budget de crawl. En bloquant les sections de votre site à partir du moteur de recherche, vous autorisez l’utilisation de votre budget d’analyse pour d’autres sections. Surtout sur les sites où il faut faire beaucoup de SEO, il peut être très bénéfique d’abord de bloquer rapidement les moteurs de recherche à partir de quelques sections.

4.2. Con : ne pas retirer une page des résultats de recherche

En utilisant le fichier robots.txt, vous pouvez dire à un spider ( robot)  où elle ne peut pas aller sur votre site. Vous ne pouvez pas dire à un moteur de recherche quelles URL il ne peut pas afficher dans les résultats de la recherche. Cela signifie que le fait de ne pas autoriser l’exploration d’une URL par un moteur de recherche – appelé «bloquant» ne signifie pas que l’URL n’apparaîtra pas dans les résultats de la recherche. Si le moteur de recherche trouve suffisamment de liens vers cette URL, il l’inclura, il ne saura tout simplement pas ce qui se trouve sur cette page.

Screenshot of a result for a blocked URL in the Google search results

Si vous souhaitez bloquer une page de manière fiable dans les résultats de recherche, vous devez utiliser une balise meta robots noindex. Cela signifie que le moteur de recherche doit pouvoir indexer cette page et trouver la balise noindex, afin que la page ne soit pas bloquée par le fichier robots.txt.

4.3. Con : ne pas diffuser la valeur de lien

Parce que le moteur de recherche ne peut pas explorer la page, il ne peut pas distribuer la valeur de lien pour les liens vers vos pages bloquées. S’il pouvait explorer, mais pas indexer la page, il pourrait toujours étendre la valeur du lien sur les liens qu’il trouve sur la page. Lorsqu’une page est bloquée avec robots.txt, la valeur du lien est perdue.

5. Syntaxe du fichier robots.txt

Un fichier robots.txt est constitué d’un ou de plusieurs blocs de directives, chacun démarré par une ligne d’agent utilisateur. Le “user-agent” est le nom de robot ou spider spécifique qu’il adresse. Vous pouvez avoir un bloc pour tous les moteurs de recherche, en utilisant un caractère générique pour l’agent utilisateur ou des blocs spécifiques pour les moteurs de recherche spécifiques. Un moteur de recherche spider choisira toujours le bloc le plus spécifique qui correspond à son nom.
Ces blocs ressemblent à ceci (n’ayez pas peur, nous vous expliquerons ci-dessous) :

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

User-agent: bingbot
Disallow: /not-for-bing/

Les directives telles que Allow et Disallow ne doivent pas être sensibles à la casse, donc si vous les écrivez en minuscules ou les capitalisez, c’est à vous de décider. Les valeurs sont sensibles à la casse, cependant, / photo / n’est pas la même que / Photo /. Nous aimons capitaliser les directives pour des raisons de lisibilité dans le fichier.

6. Directive utilisateur-agent

Le premier bit de chaque bloc de directives est l’agent-utilisateur. Un agent utilisateur identifie un spider spécifique. Le champ utilisateur-agent est comparé à l’agent-utilisateur de cet araignée spécifique (généralement plus long). Par exemple, l’araignée la plus courante de Google a l’agent-utilisateur suivant:

Mozilla/5.0 (compatible; Googlebot/2.1; 
  +http://www.google.com/bot.html)

Un utilisateur-agent relativement simple: la ligne Googlebot fera l’affaire si vous voulez dire à cette araignée quoi faire.

Notez que la plupart des moteurs de recherche ont plusieurs araignées. Ils utiliseront des araignées spécifiques pour leur index normal, pour leurs programmes publicitaires, pour les images, pour les vidéos, etc.

Les moteurs de recherche choisissent toujours le bloc de directives le plus spécifique qu’ils peuvent trouver. Disons que vous avez 3 ensembles de directives: un pour *, un pour Googlebot et un pour Googlebot-News. Si un robot vient avec l’agent-utilisateur de Googlebot-Vidéo, il suivra les restrictions de Googlebot. Un bot avec l’agent-utilisateur Googlebot-News utiliserait les directives plus spécifiques de Googlebot-News.

7. Les agents utilisateurs les plus courants pour les moteurs de recherche

Vous trouverez ci-dessous une liste des agents utilisateur que vous pouvez utiliser dans votre fichier robots.txt pour les faire correspondre aux moteurs de recherche les plus utilisés:

Search engineFieldUser-agent
BaiduGeneralbaiduspider
BaiduImagesbaiduspider-image
BaiduMobilebaiduspider-mobile
BaiduNewsbaiduspider-news
BaiduVideobaiduspider-video
BingGeneralbingbot
BingGeneralmsnbot
BingImages & Videomsnbot-media
BingAdsadidxbot
GoogleGeneralGooglebot
GoogleImagesGooglebot-Image
GoogleMobileGooglebot-Mobile
GoogleNewsGooglebot-News
GoogleVideoGooglebot-Video
GoogleAdSenseMediapartners-Google
GoogleAdWordsAdsBot-Google
Yahoo!Generalslurp
YandexGeneralyandex

8. Directive de refus

La deuxième ligne de n’importe quel bloc de directives est la ligne Disallow. Vous pouvez avoir une ou plusieurs de ces lignes, en spécifiant les parties du site auxquelles l’araignée spécifiée ne peut pas accéder. Une ligne Disallow vide signifie que vous ne refusez rien, donc cela signifie que Spider peut accéder à toutes les sections de votre site.

User-agent: *
Disallow: /

L’exemple ci-dessus bloquerait tous les moteurs de recherche qui “écoutent” le fichier robots.txt d’explorer votre site

User-agent: *
Disallow:

L’exemple ci-dessus permettrait, avec un seul caractère de moins, à tous les moteurs de recherche d’explorer l’ensemble de votre site.

User-agent: googlebot
Disallow: /Photo

L’exemple ci-dessus empêcherait Google d’explorer le répertoire Photo sur votre site et tout ce qu’il contient. Cela signifie que tous les sous-répertoires du répertoire / Photo ne seront pas non plus spidered. Cela ne bloquerait pas Google d’explorer le répertoire des photos, car ces lignes sont sensibles à la casse.

9. Comment utiliser des caractères génériques / expressions régulières

“Officiellement”, la norme robots.txt ne prend pas en charge les expressions régulières ou les caractères génériques. Cependant, tous les principaux moteurs de recherche le comprennent. Cela signifie que vous pouvez avoir des lignes comme celle-ci pour bloquer des groupes de fichiers:

Disallow: /*.php
Disallow: /copyrighted-images/*.jpg

Dans l’exemple ci-dessus, * est étendu à tout nom de fichier qu’il correspond. Notez que le reste de la ligne est toujours sensible à la casse, de sorte que la deuxième ligne ci-dessus ne bloquera pas l’exploration d’un fichier appelé /copyrighted-images/example.JPG.

Certains moteurs de recherche, comme Google, permettent des expressions régulières plus complexes. Sachez que tous les moteurs de recherche ne comprennent pas cette logique. La fonctionnalité la plus utile ajoutée est le $, qui indique la fin d’une URL. Dans l’exemple suivant, vous pouvez voir ce que cela fait:

Disallow: /*.php$

Cela signifie que /index.php n’a pas pu être indexé, mais que /index.php?p=1 pourrait être indexé. Bien sûr, cela n’est utile que dans des circonstances très spécifiques et aussi assez dangereux: il est facile de débloquer des choses que vous ne vouliez pas débloquer

10. Directives d’analyse robots.txt non standard

En plus des directives Disallow et User-agent, vous pouvez utiliser d’autres directives d’analyse. Ces directives ne sont pas prises en charge par tous les moteurs de recherche, alors assurez-vous d’être conscient de leurs limitations.

10.1. directive  Allow

Bien que n’étant pas dans la “spécification” originale, on parlait très tôt d’une directive d’autorisation. La plupart des moteurs de recherche semblent le comprendre, et cela permet des directives simples et très lisibles comme celle-ci :

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

La seule autre façon d’obtenir le même résultat sans une directive allow aurait été d’interdire spécifiquement chaque fichier dans le dossier wp-admin

10.2. directive host

Pris en charge par Yandex (et non par Google même si certains messages le disent), cette directive vous permet de décider si vous souhaitez que le moteur de recherche affiche example.com ou www.example.com. Il suffit de le spécifier comme suit :

host: example.com

Parce que seul Yandex prend en charge la directive hôte, nous ne vous conseillons pas de vous en fier. D’autant que cela ne vous permet pas de définir un schéma (http ou https) non plus. Une meilleure solution qui fonctionne pour tous les moteurs de recherche serait de rediriger 301 les noms d’hôte que vous ne voulez pas dans l’index de la version que vous voulez. Dans notre cas, nous redirigeons www.yoast.com vers yoast.com.

10.3. directive crawl-delay

Soutenu par Yahoo !, Bing et Yandex, la directive crawl-delay peut s’avérer très utile pour ralentir ces trois moteurs de recherche, parfois assez crawl. Ces moteurs de recherche ont des façons légèrement différentes de lire la directive, mais le résultat final est fondamentalement le même.

Une ligne comme suit ci-dessous conduirait à Yahoo! et Bing attend 10 secondes après une action de crawl. Yandex n’accéderait à votre site qu’une fois tous les 10 secondes. Une différence sémantique, mais intéressant à savoir. Voici l’exemple de ligne de crawl-delay :

crawl-delay: 10
Faites attention en utilisant la directive crawl-delay. En définissant un délai d’analyse de 10 secondes, vous autorisez uniquement ces moteurs de recherche à indexer 8 640 pages par jour. Cela peut sembler beaucoup pour un petit site, mais sur de grands sites, ce n’est pas tout. D’un autre côté, si vous ne recevez aucun trafic de ces moteurs de recherche, c’est un bon moyen d’économiser de la bande passante.

11. Réaliser le plan de votre site avec les fichiers sitemaps XML

En utilisant la directive du plan du site, vous pouvez indiquer aux moteurs de recherche – en particulier Bing, Yandex et Google – l’emplacement de votre sitemap XML. Vous pouvez, bien sûr, également soumettre vos sitemaps XML à chaque moteur de recherche en utilisant leurs solutions respectives d’outils webmaster. En fait, nous vous recommandons vivement de le faire. Les programmes d’outils webmaster des moteurs de recherche vous donneront des informations très utiles sur votre site. Si vous ne voulez pas faire cela, ajouter une ligne de sitemap à votre fichier robots.txt est une bonne option rapide.

En savoir plus : ‘several articles about Webmaster Tools’ »

12. Validez votre fichier robots.txt

There are various tools out there that can help you validate your robots.txt, but when it comes to validating crawl directives, we like to go to the source. Google has a robots.txt testing tool in its Google Search Console (under the Crawl menu) and we’d highly suggest using that:

robots.txt tester

Assurez-vous de bien tester vos modifications avant de les mettre en ligne! Vous ne seriez pas le premier à accidentellement bloquer par robots.txt votre site entier dans l’oubli du moteur de recherche.

Traduction et adaptation de l’article robots.txt the ultime guide.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *