Todo lo que necesita saber sobre el encabezado HTTP X-Robots-Tag

La optimización de motores de búsqueda, en su sentido más básico, se basa en una cosa por encima de todo: las arañas de los motores de búsqueda rastrean e indexan su sitio web.

Pero casi todos los sitios tendrán páginas que no desea incluir en este rastreo.

Por ejemplo, ¿realmente desea que su política de privacidad o las páginas de búsqueda internas aparezcan en los resultados de Google?

En el mejor de los casos, estos no hacen nada para dirigir activamente el tráfico a su sitio y, en el peor de los casos, podrían desviar el tráfico de páginas más importantes.

Afortunadamente, Google permite a los webmasters indicar a los robots de sus motores de búsqueda qué páginas y contenido rastrear y qué ignorar. Hay varias formas de hacer esto, la más común es usar un archivo robots.txt o la metaetiqueta robots.

Tenemos una excelente y detallada explicación de los entresijos de robots.txt que definitivamente deberías leer.

Pero en términos de alto nivel, es un archivo de texto sin formato ubicado en la raíz de su sitio que sigue el Protocolo de exención de robots (REP).

Robots.txt brinda a los rastreadores instrucciones sobre el sitio en su conjunto, mientras que las etiquetas de meta-robot incluyen instrucciones para páginas específicas.

Algunas etiquetas de meta-bot que puede usar incluyen; índiceque le dice a los motores de búsqueda que agreguen la página a su índice. sin índiceque le dice que no indexe una página ni la incluya en los resultados de búsqueda. seguirque indica a un motor de búsqueda que siga los enlaces de una página. no seguirque le dice que no siga los enlaces, y un montón de otros.

Tanto las etiquetas robots.txt como las etiquetas meta robots son herramientas útiles para mantener en su caja de herramientas, pero también hay otra forma de indicar a los robots de los motores de búsqueda que no indexen o no sigan: X-Robots-Etiqueta.

Contenido del Articulo

¿Qué es X-Robots-Tag?

X-Robots-Tag es otra forma de controlar cómo las arañas rastrean e indexan sus páginas web. Como parte de la respuesta del encabezado HTTP a una URL, controla la indexación de una página completa, así como los elementos específicos de esa página.

Y mientras que usar etiquetas de meta robots es bastante simple, X-Robots-Tag es un poco más complicado.

Pero esto, por supuesto, plantea la pregunta:

¿Cuándo debería usar X-Robots-Tag?

Según Google, “cualquier directiva que se pueda usar en una metaetiqueta de robots también se puede definir como una etiqueta X-Robots”.

Si bien puede configurar directivas relacionadas con robots.txt en los encabezados de una respuesta HTTP con la metaetiqueta de robots y la etiqueta X-Robots, hay algunos casos en los que desearía usar la etiqueta X-Robots: las dos más comunes son cuando:

  • ¿Quiere controlar cómo se rastrean e indexan sus archivos que no son HTML?
  • Desea mostrar instrucciones para todo el sitio en lugar de a nivel de página.

Por ejemplo, si desea bloquear la detección de una imagen o video específico, el método de respuesta HTTP lo hace fácil.

El encabezado X-Robots-Tag también es útil porque le permite combinar varias etiquetas en una respuesta HTTP o usar una lista de directivas separadas por comas para especificar directivas.

Tal vez no desee que una determinada página se almacene en caché y desee que no esté disponible después de una determinada fecha. Puede usar una combinación de etiquetas “noarchive” y “unavailable_after” para indicar a los robots de los motores de búsqueda que sigan estas instrucciones.

Esencialmente, la fuerza de la etiqueta X-Robots es que es mucho más flexible que la etiqueta meta robots.

La ventaja de usar uno X-Robots-Tag con las respuestas HTTP es que le permite usar expresiones regulares para ejecutar directivas de rastreo en no HTML, así como aplicar parámetros a un nivel global más grande.

Para ayudarlo a comprender la diferencia entre estas instrucciones, es útil ordenarlas por tipo. Es decir, ¿son instrucciones de rastreo o instrucciones de índice?

Aquí hay una práctica hoja de trucos para explicar:

Instrucciones del detector Directrices del índice
Robots.txt – utiliza las directivas del agente de usuario, permitir, denegar y el mapa del sitio para determinar dónde se permite y no se permite el rastreo de los robots de los motores de búsqueda en el sitio. Etiqueta Meta Robots – le permite especificar y evitar que los motores de búsqueda muestren ciertas páginas en un sitio web en los resultados de búsqueda.

No seguir – le permite especificar enlaces que no deben pasar por autoridad o PageRank.

X-Robots-etiqueta – le permite controlar cómo se indexan los tipos de archivos especificados.

¿Dónde pones la etiqueta X-Robots?

Digamos que desea bloquear ciertos tipos de archivos. Un enfoque ideal sería agregar la etiqueta X-Robots a una configuración de Apache o un archivo .htaccess.

La etiqueta X-Robots se puede agregar a las respuestas HTTP de un sitio web en una configuración de servidor Apache a través de un archivo .htaccess.

Ejemplos del mundo real y usos de X-Robots-Tag

Entonces, esto suena genial en teoría, pero ¿cómo se ve en el mundo real? Vamos a ver.

Digamos que queremos que los motores de búsqueda no indexen los tipos de archivos .pdf. Esta configuración en los servidores Apache tendrá el siguiente aspecto:

<Files ~ ".pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

En Nginx, se verá así:

location ~* .pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

Ahora, veamos un escenario diferente. Digamos que queremos usar X-Robots-Tag para bloquear la indexación de archivos de imagen como .jpg, .gif, .png, etc. Podría hacer esto con una etiqueta X-Robots que tendría el siguiente aspecto:

<Files ~ ".(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>

Tenga en cuenta que comprender cómo funcionan estas directivas y el impacto que tienen entre sí es crucial.

Por ejemplo, ¿qué sucede si se encuentran tanto la etiqueta X-Robots como la etiqueta meta-robot cuando los robots rastreadores descubren una URL?

Si esta URL está bloqueada por robots.txt, entonces algunas instrucciones de indexación y publicación no se pueden encontrar y no se seguirán.

Si se deben seguir las instrucciones, no se permite rastrear las URL que las contienen.

Buscar una etiqueta de X-Robots

Hay algunos métodos diferentes que se pueden usar para buscar una etiqueta X-Robots en el sitio web.

La forma más fácil de verificar es instalar una extensión de navegador que le brinde información de X-Robots-Tag sobre la URL.

Control de bloqueo de robotsCaptura de pantalla de Robots Exclusion Checker, diciembre de 2022

Otro complemento que puede usar para determinar si se usa una etiqueta X-Robots, por ejemplo, es el complemento Web Developer.

Al hacer clic en el complemento en su navegador y acceder a “Ver encabezados de respuesta”, puede ver los diversos encabezados HTTP que se utilizan.

complemento de desarrollador web

Otro método que se puede usar para escalar para encontrar problemas en sitios con un millón de páginas es Screaming Frog.

Después de ejecutar un sitio a través de Screaming Frog, puede navegar a la columna “X-Robots-Tag”.

Esto le mostrará qué secciones del sitio usan la etiqueta, junto con qué instrucciones específicas.

Informe de la rana chillona.  Etiqueta X-RobotCaptura de pantalla del informe Screaming Frog. X-Robot-Tag, diciembre de 2022

Uso de etiquetas X-Robots en su sitio web

Comprender y controlar cómo los motores de búsqueda interactúan con su sitio web es la piedra angular de la optimización de motores de búsqueda. Y X-Robots-Tag es una poderosa herramienta que puede usar para hacer precisamente eso.

Solo tenga en cuenta: no está exento de riesgos. Es muy fácil cometer un error y probar todo el sitio.

Dicho esto, si estás leyendo este artículo, probablemente no seas nuevo en SEO. Siempre que lo use sabiamente, se tome su tiempo y verifique su trabajo, encontrará que X-Robots-Tag es una adición útil a su arsenal.

Más recursos:


Imagen destacada: Song_about_summer/Shutterstock

Previous post ¿Qué es lo mejor para YouTube en 2023?
Next post ¿ChatGPT interrumpirá las búsquedas de Google? | Nick Babich | diciembre 2022

Deja una respuesta