¿Qué es Googlebot y cómo funciona?

Googlebot es un rastreador que utiliza Google para recopilar la información que necesita y crear un índice web de búsqueda. Googlebot tiene robots móviles y de computadora, así como robots especializados que indexan noticias, imágenes y videos.

Hay más robots que utiliza Google para tareas específicas, y cada robot se identificará con una cadena de texto diferente conocida como “cliente del usuario”. Googlebot es perenne, lo que significa que ve sitios como los usuarios del navegador Chrome más reciente.

Googlebot funciona en miles de máquinas. Determinan qué tan rápido y qué indexar en las páginas web. Pero ralentizarán su indexación para no abrumar a los sitios web.

Echemos un vistazo a su proceso de indexación web.

Contenido del Articulo

Cómo Googlebot rastrea y recorre la web

En el pasado, Google ha puesto a disposición varias versiones de su canalización. A continuación se muestra el más nuevo.

Diagrama de flujo que muestra cómo Google construye su índice de búsqueda

Google comienza con una lista de URL que recopila de varias fuentes, como páginas, mapas de sitios, fuentes RSS y URL enviadas en Google Search Console o la API de indexación. Da prioridad a lo que quiere indexar, obtiene páginas y almacena copias de las páginas.

Estas páginas se procesan para encontrar más enlaces, incluidos enlaces a elementos como solicitudes de API, JavaScript y CSS que Google necesita para mostrar la página. Todas estas solicitudes adicionales se indexan y almacenan en caché (almacenadas). Google utiliza un servicio de renderizado que utiliza estos recursos almacenados en caché para renderizar páginas de forma similar a como lo haría un usuario.

Lo hace de nuevo y busca cualquier cambio en la página o nuevos enlaces. El contenido de las páginas renderizadas se almacena y busca en el índice de Google. Todos los enlaces nuevos encontrados se devuelven al contenedor de URL para su indexación.

Para obtener más detalles sobre este proceso, consulte nuestro artículo sobre cómo funcionan los motores de búsqueda.

Cómo controlar el robot de Google

Google ofrece varias formas de controlar lo que se descarga e indexa.

Maneras de controlar la indexación

Maneras de controlar la indexación

  • Eliminar tu contenido – Si eliminas una página, no hay nada que indexar. La desventaja es que nadie más tiene acceso a él tampoco.
  • Restringir el acceso al contenido – Google no inicia sesión en sitios web, por lo que cualquier protección de contraseña o autenticación evitará que vea el contenido.
  • Sin índice – Noindex en la metaetiqueta de robots le dice a los motores de búsqueda que no indexen su página.
  • Herramienta de eliminación de URL – El nombre de esta herramienta de Google es un poco confuso ya que la forma en que funciona es que oculta contenido temporalmente. Google seguirá viendo e indexando este contenido, pero sus páginas no aparecerán en los resultados de búsqueda.
  • Robots.txt (solo imágenes) – El bloqueo de la indexación de imágenes de Googlebot significa que sus imágenes no se indexarán.

Si no está seguro de qué control de rastreo usar, consulte nuestro diagrama de flujo en nuestra publicación sobre la eliminación de URL de la Búsqueda de Google.

¿Es realmente Googlebot?

Muchas herramientas de SEO y algunos bots maliciosos se hacen pasar por Googlebot. Esto puede permitirles acceder a sitios web que intentan bloquearlos.

En el pasado, tenía que hacer una búsqueda de DNS para verificar Googlebot. Pero recientemente, Google lo hizo aún más fácil y proporcionó una lista de direcciones IP públicas que puede usar para verificar que las solicitudes provienen de Google. Puede compararlo con los datos en los registros de su servidor.

También tiene acceso al informe “Estadísticas de indexación” en Google Search Console. Si vas a Configuración> Estadísticas de indexaciónel informe contiene mucha información sobre cómo Google indexa su sitio. Puede ver qué Googlebot está indexando qué archivos y cuándo accedió a ellos.

Un gráfico de líneas que muestra las estadísticas de indexación.  Un resumen de los datos clave se proporciona arriba

Pensamientos finales

La web es un lugar grande y desordenado. Googlebot tiene que navegar a través de varias configuraciones, junto con el tiempo de inactividad y las restricciones, para recopilar los datos que Google necesita para ejecutar su motor de búsqueda.

Un hecho divertido para cerrar es que Googlebot generalmente se representa como un robot y se lo conoce como “Googlebot”. También hay una mascota araña llamada “Crawley”.

¿Tiene usted alguna pregunta? Hágamelo saber en Twitter.

Previous post Cómo salvé mi agencia de diseño y tripliqué mis ganancias
Next post Dinero divertido: el asunto serio del humor en las redes sociales

Deja una respuesta