Google cesse de prendre en charge la directive noindex dans le fichier robots.txt


À compter du 1er septembre, Google cessera de prendre en charge les règles non prises en charge et non publiées dans le protocole exclusif des robots, a annoncé le blog sur le blog Google Webmaster. Cela signifie que Google ne prendra plus en charge les fichiers robots.txt avec la directive noindex indiquée dans le fichier.

«Dans l'intérêt de maintenir un écosystème sain et de préparer les futures versions open source potentielles, nous supprimons tout code qui traite des fichiers non pris en charge. et règles non publiées (telles que noindex) le 1er septembre 2019. Pour ceux d'entre vous qui vous êtes fondé sur la directive noindex indexing du fichier robots.txt, qui contrôle l'analyse, il existe un certain nombre d'options alternatives », a déclaré la société. 19659002] Quelles sont les alternatives? Google a répertorié les options suivantes, celles que vous auriez probablement dû utiliser de toute façon:

(1) Noindex dans les balises méta robots: Pris en charge à la fois dans les en-têtes de réponse HTTP et dans HTML, le noindex La directive est le moyen le plus efficace de supprimer les URL de l'index lorsque l'analyse est autorisée.
(2) Codes de statut HTTP 404 et 410 : Les deux codes de statut signifient que la page n'existe pas. ces URL à partir de l'index de Google une fois qu'elles ont été explorées et traitées.
(3) Protection par mot de passe: sauf si le balisage est utilisé pour indiquer le contenu d'un abonnement ou d'un paywall le fait de masquer une page derrière un identifiant le supprimera généralement. Index de Google.
(4) Interdit dans le fichier robots.txt: les moteurs de recherche ne peuvent indexer que les pages dont ils ont connaissance. Par conséquent, le fait d'empêcher l'exploration d'une page signifie souvent que son contenu ne sera pas indexé. Bien que le moteur de recherche puisse également indexer une URL en fonction de liens provenant d'autres pages, sans voir le contenu lui-même, nous visons à rendre ces pages moins visibles à l'avenir.
(5) Console de recherche Supprimer l'outil URL : Cet outil est une méthode simple et rapide pour supprimer temporairement une URL des résultats de recherche de Google.

Devenir un standard. Hier, Google a annoncé que la société travaillait à la normalisation du protocole d'exclusion de robots et qu'il s'agit probablement du premier changement à venir. En fait, Google a publié son analyseur robots.txt en tant que projet open source en même temps que cette annonce hier.

Pourquoi Google est-il en train de changer? Google cherche à changer cela depuis des années et, poussé par Google à normaliser le protocole, il peut désormais aller de l'avant. Google a déclaré avoir "analysé l'utilisation des règles robots.txt". Google se concentre sur les implémentations non prises en charge du brouillon Internet, telles que crawl-delay, nofollow et noindex. "Comme ces règles n'ont jamais été documentées par Google, leur utilisation par rapport à Googlebot est naturellement très faible", a déclaré Google. "Ces erreurs affectent la présence des sites Web dans les résultats de recherche de Google d'une manière que nous ne pensons pas que les webmasters avaient l'intention de faire." Le plus important est de vous assurer que vous n'utilisez pas la directive noindex dans le fichier robots.txt. Si tel est le cas, vous souhaiterez apporter les modifications suggérées ci-dessus avant le 1er septembre. Vérifiez également si vous utilisez les commandes nofollow ou crawl-delay et, le cas échéant, utilisez la méthode true prise en charge pour ces directives.


À propos de l'auteur

Barry Schwartz est l'éditeur de nouvelles de Search Engine Land et possède RustyBrick une société de conseil en ligne basée à New York. Il dirige également Search Engine Roundtable un blog de recherche populaire sur des sujets liés au SEM.



Source link

Leave a Reply