Qué es el Crawl Budget

Un término que se menciona mucho en la actualidad en la comunidad de SEO es crawl budget. Si lo traducimos, se leería como «presupuesto de rastreo». Es un término medio raro, pero este es un concepto muy antiguo en el área de SEO.

Quienes trabajan con proyectos de gran escala como los grandes e-commerces, portales de contenido, y los especialistas en SEO, entienden al crawl budget como el tiempo que Google gasta en la lectura de las páginas de tu sitio web en un día determinado.

Índice de contenidos

Es el tiempo que se toma el crawler de Google para poder leer las páginas de un sitio web. Pero este tiempo que dedica el rastreador a tu sitio web depende de varios factores; como la autoridad del sitio web, el porcentaje de contenido duplicado, los errores de páginas, y muchos más.

Sin embargo, según el blog oficial para webmasters de Google, se afirma que no todos se deben preocupar por esta cuestión del crawl budget. Esto es, si tienen un sitio web con unas pocas decenas de páginas, no será necesario preocuparse por esta cuestión del rastreo de las páginas, ya que Google lo hará sin problemas.

Pero si tienes una tienda online o cualquier otro proyecto web con unos pocos miles de páginas, tendrás que prestar mucha atención y optimizar el crawl budget referente a tu sitio web.

Crawl budget y posicionamiento web

Desde Google afirman que el crawl budget no influye en el posicionamiento, pero que sin embargo sí puede influenciar, y en ocasiones controlar, negativamente a otros de los más de 200 factores para rankear en el buscador.

¿Pero por qué queremos que Google rastree más veces las páginas de nuestro sitio web? Del otro lado, encontramos a varios expertos en SEO que aseguran que tener un buen crawl budget va a mejorar todo el posicionamiento en general de las páginas del sitio web en el ranking y así aumentar el tráfico orgánico.

Básicamente, Google tiene un cierto tiempo para pasar dentro de tu sitio, ya que tiene que decidir cuánto tiempo va a gastar en cada uno de los sitios de todo el mundo, para lo que tendrá que calcular cuántas conexiones simultáneas va a lograr hacer para poder leer las páginas de tu sitio web.

La calidad del sitio web

Google dedica un tiempo para poder conectar en el sitio web, leer estas páginas y detener esta lectura. Repite esto a lo largo del día, pero siempre hay una fracción de tiempo. Esa fracción de tiempo, normalmente es proporcional a la autoridad que tiene tu web, la cantidad de páginas nuevas, y la relevancia que tiene frente a Google.

Esto es dado por la calidad de tu contenido y los enlaces que apuntan al sitio, o sea, si tienes muchos enlaces de calidad apuntando, puede ser que Google te entienda con más calidad y pase más tiempo en tu sitio web, siempre que haya un mayor volumen de páginas.

En general, el crawl budget no cambia mucho para un sitio de 10, 50 o 100 páginas, por lo que en pocas páginas no hay una gran diferencia. Pero para sitios de gran tamaño, si Google tiene un segundo para pasar por tu sitio y tú le indicas qué es lo que debe leer, eso será de gran utilidad para el rastreador, finalizando más rápidamente su tarea de rastreo.

Establecer cuáles son las páginas importantes

Primero, tienes que trazar una arquitectura más organizada de la información del sitio, estableciendo cuáles son páginas innecesarias, y no dejar que se indexen ciertas páginas a través del control del archivo robots.txt.

Google no debería gastar tiempo en la sección de búsqueda del sitio web o, incluso, en la sección donde hay navegación de filtros, por ejemplo, como ocurre en una tienda online, donde se puede elegir la talla de calzado, el tamaño del apartamento o el color de camiseta. Estos filtros son los que normalmente la gente llama «faced navigation» o «filtros de navegación».

Algunos webmasters tienden a bloquear estos filtros y esas búsquedas en el archivo robots.txt, justamente para que Google no gaste tiempo leyendo estas páginas, porque, en verdad, son enfocadas en el usuario que está buscando aquella experiencia, y son contenidos que ya están disponibles en otras páginas internas del sitio.

Te recomendamos la lectura: Errores a evitar al crear un sitio web

Otra línea es que al establecer cuáles son las páginas importantes de tu sitio, ahorras el tiempo de lectura de Google en páginas que tienen contenido duplicado, como es el caso del faced navigation, la página de política de privacidad, términos y condiciones y que no quieres que sean leídas. Estas páginas solo estarán disponibles para los usuarios que quieren ver dichas páginas.

El tiempo no debe ser gastado en estas páginas de poco valor, ya que no quieres rankear para ellas y no hacen la menor diferencia en tu vida, pero tienen que estar allí porque de todas formas algunos usuarios quieren consultar esta información.

Funcionamiento del crawl budget internamente

En general, el crawl budget está basado en la arquitectura. Tú defines los enlaces a las páginas que Google va a poder leer y las priorizas mediante su nivel de importancia.

Después de todo, los enlaces que salen de estas páginas son los que, probablemente, van a ser priorizados por Google. Entonces, vale la lógica de pensar muy bien el linkeo interno y la manera en que se estructura tu página.

El crawl budget es el tiempo que Google gasta para poder leer, entender la información sobre el sitio web y evaluar elementos como la organización de la arquitectura y el bloqueo en robots.txt. Utilizar la etiqueta nofollow en un enlace impide que Google siga a través de ese enlace. Por ejemplo, si un enlace tiene un atributo nofollow, pero, para llegar a la página, otro enlace interno no la tiene, entonces Google va a tomar el segundo camino, haciendo que gaste menos tiempo.

Beneficios de un sitio optimizado

Hay cosas que te van a ayudar a tener más páginas leídas en el día a día, lo que puede ser útil para cualquier sitio web. Por ejemplo, si tu servidor es más rápido, Google va a conseguir, en ese tiempo, solicitar más páginas.

Si tu página está comprimida, Google va a conseguir, en estas peticiones, solicitar más páginas. Y si tienes un código limpio y adecuado, Google también va a recibir una página más comprimida al final del día, con mejores bites. O sea, la optimización del sitio web, la velocidad del sitio y del servidor, influyen mucho en el tema del crawl budget.

Cómo calcular el crawl budget de tu sitio

El número de veces que la araña del motor de búsqueda de Google rastrea tu sitio web en una determinada asignación de tiempo es lo que llamamos «presupuesto de rastreo». Por lo tanto, si Googlebot visita tu sitio 32 veces al día, podemos decir que el presupuesto de rastreo de Google es de aproximadamente 960 al mes.

Puedes utilizar herramientas como la Google Search Console y las Herramientas para Webmasters de Bing para calcular el crawl budget aproximado de tu sitio web. Solo tienes que iniciar sesión y dirigirte a Rastreo > Estadísticas de Rastreo para ver el número medio de páginas rastreadas al día.

Crawl budget y SEO: ¿son lo mismo?

Sí, y no. Mientras que ambos tipos de optimización tienen como objetivo hacer que tu página sea más visible y puedan impactar tus SERPs, el SEO pone un mayor énfasis en la experiencia del usuario, mientras que la optimización de las arañas se trata enteramente de atraer a los bots.

La optimización para los motores de búsqueda (SEO) se centra más en el proceso de optimización para las consultas de los usuarios. En cambio, la optimización de Googlebot se centra en la forma en que el rastreador de Google accede a tu sitio.

Cómo optimizar el crawl budget

Existen varias formas para optimizar el crawl budget de cualquier sitio web, dependiendo de cada proyecto web, número de páginas y otras cuestiones, aquí están algunos puntos a tener en cuenta:

Asegúrate de que tus páginas puedan rastrearse

Tu página es rastreable si las arañas de los motores de búsqueda pueden encontrar y seguir enlaces dentro de tu sitio web, por lo que tendrás que configurar los archivos .htaccess y robots.txt para que no bloqueen las páginas críticas de tu sitio. También es posible que desees proporcionar versiones de texto de las páginas que dependen en gran medida de archivos multimedia enriquecidos, como Flash y Silverlight.

Por supuesto, lo contrario es cierto si deseas evitar que una página aparezca en los resultados de búsqueda. Sin embargo, no basta con establecer el archivo robots.txt en «disallow» si deseas evitar que una página sea indexada. Según Google, la regla «disallow» no garantiza que una página no aparezca en los resultados.

Si la información externa (por ejemplo, los enlaces entrantes) continúa dirigiendo el tráfico a la página que has rechazado, Google puede decidir que la página sigue siendo relevante. En este caso, deberás bloquear manualmente la indexación de la página mediante la metaetiqueta noindex o la cabecera HTTP X-Robots-Tag.

– Metaetiqueta noindex: coloca esta metaetiqueta en la sección <head> de tu página con el fin de evitar que la mayoría de los rastreadores web indexen tu página:

noindex" />

– X-Robots-Tag: coloca lo siguiente en la respuesta del encabezado HTTP para indicar a los rastreadores que no indexen una página:

X-Robots-Tag: noindex

Ten en cuenta que si utilizas la metaetiqueta noindex o la etiqueta X-Robots-Tag, no debes desautorizar la página en robots.txt. La página debe ser rastreada antes de que la etiqueta sea vista y obedecida.

Uso cauteloso de archivos multimedia enriquecidos

Hubo un tiempo en el que Googlebot no podía rastrear contenido como JavaScript, Flash y HTML. Esos tiempos ya han pasado (aunque Googlebot todavía tiene problemas con Silverlight y algunos otros archivos).

Sin embargo, incluso si Google puede leer la mayoría de los archivos multimedia enriquecidos, es posible que otros motores de búsqueda no puedan hacerlo, lo que significa que debes utilizar estos archivos de forma juiciosa, y probablemente desees evitarlos por completo en las páginas que desees posicionar.

Evita las cadenas de redirección

Cada URL que rediriges haces que desperdicie un poco de tu crawl budget. Cuando tu sitio web tiene cadenas de redirección largas, es decir, un gran número de redirecciones 301 y 302 seguidas, es posible que las arañas como Googlebot se caigan antes de llegar a la página de destino, lo que significa que esa página no se indexará. La mejor práctica con redirecciones es tener el menor número posible de redirecciones en el sitio web, y no más de dos seguidas.

Arregla enlaces rotos

Cuando se le preguntó a John Mueller sobre si los links rotos afectan o no el posicionamiento, respondió que es algo más enfocado a la experiencia del usuario que para fines de posicionamiento.

Esta es una de las diferencias fundamentales entre el SEO y la optimización de Googlebot, porque significaría que los enlaces rotos no juegan un papel sustancial en los rankings, a pesar de que impiden en gran medida la capacidad de Googlebot para indexar y clasificar un sitio web.

Dicho esto, debes seguir el consejo de Mueller teniendo en cuenta que el algoritmo de Google ha mejorado sustancialmente a lo largo de los años, y cualquier cosa que afecte la experiencia del usuario es probable que afecte a las SERPs.

Establece parámetros en URLs dinámicas

Las arañas tratan a las URL dinámicas que conducen a la misma página como páginas separadas, lo que significa que puedes estar malgastando innecesariamente tu crawl budget. Puedes administrar los parámetros de URL accediendo a Search Console y haciendo click en Rastreo > Parámetros de URL. Desde aquí, puedes informar a Googlebot si tu CMS añade parámetros a tus URL que no cambian el contenido de una página.

Limpia el sitemap

Los sitemaps XML ayudan tanto a los visitantes como a los robots de araña, haciendo que el contenido esté mejor organizado y sea más fácil de encontrar. Por lo tanto, intenta mantener el sitemap actualizado y purgarlo de cualquier desorden que pueda perjudicar la usabilidad de tu sitio, incluyendo páginas de 400 niveles, redirecciones innecesarias, páginas no canónicas y páginas bloqueadas.

La forma más fácil de limpiar el sitemap es utilizar una herramienta como Website Auditor. Puedes utilizar el generador de sitemaps XML de Website Auditor para crear un mapa de sitio limpio que excluya todas las páginas bloqueadas de la indexación. Además, yendo a la opción «Site Audit» puedes localizar y reparar todos los errores 4xx, redirecciones 301 y 302 y las páginas no canónicas.

Hacer uso de los feeds

Tanto los feeds como los RSS, XML y Atom permiten entregar contenido a los seguidores cuando no estén navegando en el sitio. Esto permite a los usuarios suscribirse a sus sitios favoritos y recibir actualizaciones periódicas cada vez que se publica nuevo contenido.

Además de que los canales RSS han sido durante mucho tiempo una buena forma de aumentar el número de lectores y la participación, también se encuentran entre los sitios más visitados por Googlebot. Cuando tu sitio web reciba una actualización (por ejemplo, nuevos productos, entradas en blogs, actualizaciones de páginas, etc.), envíala al Feed Burner de Google para asegurarte de que se indexe correctamente.

Crea enlaces externos

La creación de enlaces sigue siendo un tema candente, y no se vislumbra que vaya a desaparecer pronto

Cultivando relaciones en línea, descubriendo nuevas comunidades, construyendo valor de marca; estas pequeñas victorias ya deberían estar impresas en tu proceso de planificación de enlaces. Si bien hay elementos distintivos del linkbuilding que ahora son tan de 1990, la necesidad humana de conectarse con otros nunca cambiará.

En la actualidad, ya tenemos evidencia de que los enlaces externos se correlacionan estrechamente con el número de visitas de arañas que recibe tu sitio web.

Mantén la integridad del linkeo interno

Aunque la creación de enlaces internos no juega un papel sustancial en la velocidad de rastreo, eso no significa que se pueda ignorar por completo. Una estructura de sitio bien mantenida hace que tu contenido sea fácilmente descubrible por los robots de búsqueda sin desperdiciar tu crawl budget.

Una estructura de enlaces internos bien organizada también puede mejorar la experiencia del usuario, especialmente si los usuarios pueden llegar a cualquier área de tu sitio web en tres clicks. Hacer todo más fácilmente accesible en general significa que los visitantes se quedarán más tiempo, lo que puede mejorar las SERPs.

¿Qué conclusión sacamos?

[irp]

Una vez más, reforzando lo que ya se ha mencionado con anterioridad, esta cuestión del crawl budget será importante para grandes sitios web con cientos y miles de páginas web, de lo contrario, no vale la pena preocuparse por ello, ya que Google rastreará tu sitio web sin problemas.

No le debemos complicar el rastreo de las páginas de nuestro sitio a Google. Existen muchos sitio web con bastantes errores, y hasta con barreras que crean los ficheros robots.txt y en sitemap.xml que impiden que Google acceda a los contenidos. Si queremos mejorar el posicionamiento en el ranking de Google, entonces tenemos que autorizar y simplificar las páginas del sitio web para que Google acceda rápidamente, indexe y posicione. Muy simple.

A estas alturas, probablemente hayas notado una tendencia en este artículo: las mejores prácticas para la facilidad de rastreo también tienden a mejorar la capacidad de búsqueda. Así que si te estás preguntando si la optimización del crawl budget es importante para tu sitio web, la respuesta es sí.

En pocas palabras, si facilita a Google el descubrimiento y la indexación de su sitio web, disfrutará de más rastreos, lo que significa actualizaciones más rápidas cuando publiques nuevo contenido. También mejorarás la experiencia general del usuario, lo que mejora la visibilidad y, en última instancia, la clasificación de las SERPs.

Estos son sólo algunos de los puntos, de entre muchos otros para mejorar y optimizar el crawl budget de un sitio web.

Miguel Ángel Navas12 agosto, 2018

11 minutos de lectura aproximada.