Comment mettre en place un robots.txt

Comment fonctionne robots.txt ?

Robots.txt est un petit fichier texte qui donne des instructions aux "robots" qui parcourent le web pour l'indexation. Les bots sont des araignées qui parcourent les sites web. Les moteurs de recherche ont tous leurs propres bots.

Google a toute une armée d'araignées qui parcourent toutes certaines parties, comme les images, AdSense, les publicités, etc. Avec robots.txt, vous pouvez communiquer avec tous les robots qui visitent votre site web, y compris ceux de Google.

A découvrir également : Stratégie d'image SEO : pourquoi votre entreprise en a besoin

Par exemple : un bot visite notre site web https://www.groupement-synergetic.com. Avant de parcourir le site, il consulte le fichier robots.txt https://www.groupement-synergetic.com/robots.txt. Chaque site web ne peut avoir qu'un seul robots.txt, qui doit également porter ce nom et se trouver sur le domaine racine. Si des sous-domaines sont concernés, créez un fichier robots.txt distinct pour chaque sous-domaine. Vous en aurez alors un par exemple https://www.groupement-synergetic.com et un pour le sous-domaine groupement-synergetic.com.

fichier robots.txt

Un fichier robots.txt est-il obligatoire ?
Non, l'ajout d'un fichier robots.txt n'est pas obligatoire, mais il est très important et conseillé pour le référencement. Un fichier robots.txt indique aux moteurs de recherche les pages qu'ils peuvent et ne peuvent pas explorer. Toutefois, il ne s'agit que d'une recommandation du webmaster. Les moteurs de recherche peuvent choisir de ne pas suivre ce conseil.

A voir aussi : 5 conseils de référencement simples mais efficaces pour votre site web

Quels sont les avantages de robots.txt ?

Robots.txt a trois fonctions :

Vous donnez aux moteurs de recherche l'accès à certaines parties de votre site web et pouvez également l'utiliser pour exclure des pages.
Vous évitez les problèmes de duplication de contenu
Vous assurez un crawl plus efficace de votre site web, car les moteurs de recherche n'ont qu'un temps de crawl limité.

Quel agent utilisateur dois-je ajouter ?

Un fichier robots.txt commence par "User-agent". Cela indique quels sont les robots qui peuvent explorer votre site. Il existe plusieurs robots qui s'identifient tous comme un utilisateur-agent particulier. Par exemple, un robot Google s'identifie avec "Google bot" et un robot Yahoo avec "Slurp". Si chaque bot a les mêmes droits de crawl, indiquez-le avec un *, également appelé "joker".

Donc : utilisateur-agent : * signifie : tous les robots peuvent explorer toutes les pages de mon site web. Si vous avez des directives différentes pour différents robots, mettez le nom du bot avec l'agent utilisateur. Les directives qui suivent ne s'appliqueront qu'à ce robot, jusqu'à ce que le prochain "User-agent" apparaisse. Par exemple : Agent utilisateur : Googlebot

Comment exclure des pages de mon site web pour Google/robots ?

Tout d'abord, je vais expliquer la différence entre ramper et indexer. Avec l'indexation, c'est l'URL des pages qui est mémorisée après la visite du site, et non le contenu des pages.

En rampant, l'araignée se souvient également de tout le contenu des pages qui comptent pour le pagerank.

Vous pouvez facilement utiliser un robots.txt pour exclure des sections, des catégories ou des pages des robots (araignées). Pour cela, vous utilisez la ligne directrice sur les interdictions. Il peut ressembler à ceci, par exemple : Refuser : /wp-admin/. Disallow" est la directive et /wp-admin/ est le chemin qui n'est pas accessible à l'utilisateur-agent.

Si vous voulez explorer un fichier particulier à partir d'une section exclue, utilisez la directive Autoriser. Cela peut ressembler à cela : Autorise : /dossier-exclus/fichier-dossier-qui-est-autorisé-à-dossier.html. Il est également possible d'exclure les URL comportant certains caractères grâce à la directive "Disallow". Par exemple, si vous souhaitez exclure toutes les URL comportant un caractère &, cela ressemblerait à ceci Refuser : /&. Il en va de même pour les URL ayant la même fin. Vous faites cela avec le signe $. Si vous voulez exclure toutes les URL qui se terminent par .pdf, par exemple, ajoutez ceci à votre fichier robots.txt : Disallow : /.pdf$.

Malheureusement, l'inclusion de la directive "Disallow" ne signifie pas toujours que les pages seront exclues de l'indexation des moteurs de recherche, par exemple lorsque de nombreux liens pointent vers une page. Dans ce cas, vous verrez la page dans les résultats de recherche sans description, car les robots ne peuvent pas lire le contenu. Si vous souhaitez qu'une page ne soit pas indexée, choisissez "noindex".

Avec cette balise, vous envoyez à Google un signal indiquant que la page peut être explorée et la valeur du lien transmise, mais qu'elle ne doit pas apparaître dans les résultats de recherche. Veuillez noter que votre page peut prendre un certain temps avant de disparaître des résultats de recherche Google après l'ajout de la balise.

Ajouter le plan du site à robots.txt ?

Un sitemap est un fichier contenant les liens textuels vers toutes les pages du site. Parfois, un site web se compose de centaines de pages, ce qui rend difficile l'exploration par les robots. Le plan du site les y aide. Vous pouvez le voir comme une sorte de table des matières d'un site web qui rend l'indication plus rapide. De cette façon, toutes vos pages importantes peuvent être trouvées dans les moteurs de recherche. Sans plan du site, il est possible que des pages plus profondes ne soient pas indexées, ce qui peut vous coûter beaucoup de visiteurs (de valeur).

Il est conseillé d'inclure votre plan du site dans votre fichier robots.txt. Robots.txt est le premier endroit que les robots des moteurs de recherche visiteront. En se référant au plan du site dans le fichier robots.txt, les robots sauront immédiatement comment trouver votre plan de site. Il est possible d'ajouter plusieurs sitemaps XML dans le fichier robots.txt.

Ajout de remarques

Il peut parfois être utile d'ajouter des commentaires au fichier robots.txt. Les commentaires ne sont pas destinés aux robots, mais aux webmasters. Vous pouvez dire ici pourquoi vous avez fait certains choix ou ce que cela signifie. Les robots ne liront pas ce texte si vous mettez vos commentaires après un "#". Peu importe que vous mettiez un commentaire directement après une ligne ou sur une nouvelle ligne. Cela peut ressembler à cela : Refuser : /*.pdf$ #Pas d'accès à tous les pdfs, parce que nous ne voulons pas être trouvés dessus.

Conseils

Enfin, j'aimerais vous donner quelques conseils : après avoir lancé une nouvelle fonctionnalité ou un nouveau site web, vérifiez le fichier robots.txt. Il est possible qu'il contienne encore une (ou plusieurs) lignes directrices sur les rejets qui ne s'appliquent plus.

Une autre astuce consiste à exclure les résultats de recherche du crawling, car ils sont presque impossibles à optimiser et/ou pertinents pour les moteurs de recherche. Cela se fait également avec une directive "Disallow" : Disallow : /search/. Les autres pages que vous pouvez exclure des robots par défaut sont : 404 pages, les pages d'archives des tags et des auteurs et la section admin.