Análisis del estado de indexación de URLs
Índice del post
Hoy en día disponemos de herramientas para todo tipo de acciones SEO pero las verdaderamente buenas, útiles y fiables suelen adquirir la categoría de pago.
Por eso, si queremos hacer SEO pero no contamos con recursos suficientes como para asumir la suscripción a las herramientas punteras del mercado, debemos ingeniárnoslas para poder obtener esta información por otras vías.
En el post de hoy traigo la combinación de herramientas gratuitas y freemium que empleo con nuevos clientes a la hora de realizar un primer análisis del estado de las URLs y su indexación.
Antes de meternos en materia con el análisis de las URLs, lo primero que debemos comprobar es que la web es accesible para los robots de búsqueda (no está bloqueada mediante el archivo robots.txt ni etiquetas no index), algo que parece una obviedad pero con lo que es muy habitual meter la pata. Para asegurarme de que las URLs son accesibles empleo dos extensiones de Google Chrome que nos lo muestran con un simple vistazo: una más básica como SeeRobots y otra más completa como Link Redirect Trace, ya que nos aporta algo más de información como el código de respuesta que devuelve la página y otros datos sobre enlaces.
Extracción y clasificación de las URLs de un proyecto
A la hora de meternos de lleno con la obtención de URLs del sitio web es importante clasificarlas adecuadamente. Para un primer análisis suelo diferenciar ente tres grandes grupos: URLs totales, URLs indexadas y URLs no indexadas, aunque podrían clasificarse con mayor profundidad (rastreables y no rastreables, indexables y no indexables, por tipo de página, códigos de respuesta, etc.).
Obtención de la totalidad de las URLs de un proyecto
Para obtener la totalidad de URLs de un proyecto debemos emplear algún crawler que rastree nuestra página como si del robot de Google se tratase. En mi caso empleo Screaming Frog SEO Spider, una de las herramientas más completas que existen, así como aquella cuya versión freemium ofrece más posibilidades.
Además, para obtener un registro más completo, acostumbro a añadir las URLs obtenidas del análisis de logs con la herramienta Screaming Frog Log File Analyser, aunque esto suele ser una vez el proyecto avanza ya que en muchas ocasiones no tenemos disponibles los archivos de logs generados.
Cabe destacar que los crawlers, al igual que los robots de Google, rastrean la web siguiendo el enlazado interno de la misma, por lo que debemos tener en cuenta que pueden existir URLs no accesibles en caso de estar publicadas pero no enlazadas de ningún modo ni incluidas en el sitemap.
Obtención de las URLs Indexadas del sitio web
Una vez obtenemos una recopilación de las URLs totales del proyecto, nos interesará ver cuáles de ellas son indexadas por Google. Para ello utilizo una combinación del comando Site: con la extensión SEOQuake.
Al introducir el comando site: seguido del dominio en el buscador, Google nos muestra la (casi) totalidad de las URLs indexadas pertenecientes al dominio en cuestión. Y digo casi porque siempre deja resultados sin mostrar, por lo que en muchas ocasiones debemos completar esta búsqueda con otros comandos como inurl:, especialmente en sitios muy grandes.
Además, también debemos llegar a la última página de resultados, hacer scroll hasta el final y pulsar en “repetir la búsqueda e incluir los resultados que se han omitido”, lo que ampliará un poco más el número de resultados obtenidos.
¿Cómo trasladamos estas URLs a un Excel para analizarlas y trabajarlas más cómodamente?
Muy sencillo, una vez hemos introducido el comando Site:nuestrodominio.com y activado la extensión SEO Quake, tan solo debemos activar la extensión en el botón que nos aparecerá a la izquierda de las SERPs y exportar en formato CSV los resultados de cada página.
Este proceso se ha de repetir en cada página de las SERPs, por lo que para ahorrar tiempo podemos ir a Configuración ➙ Configuración de búsqueda ➙ Mostrar 100 resultados por página. De esta forma, descargaremos 100 resultados por página y agilizaremos el proceso.
Obtención de las URLs No Indexadas del sitio web
Para hallar las URLs no indexadas, una vez disponemos de una tabla Excel con las URLs totales y las URLs indexadas os planteo dos alternativas:
Introducción de URLs totales en Herramienta de testeo de indexación
La primera opción consiste en escoger las URLs totales obtenidas con Screaming Frog y pasarlas por una herramienta de testeo de indexación gratuita , que nos las separa en indexadas y no indexadas.
Comparación de URLs totales vs URLs indexadas en Excel
Otra opción algo más rápida es juntar las URLs totales y las indexadas en una nueva pestaña y aplicarle un formato condicional a las duplicadas. Si filtramos por colores y eliminamos aquellas duplicadas a mano, nos quedaremos con el resto, que serán las no indexadas.
Análisis del estado de indexación de URLs
Una vez tengamos una clasificación adecuada de todas las URLs es el turno de lo más importante: analizarlas para detectar posibles fallos y mejoras a realizar, con el principal objetivo de optimizar el crawl budget.
En primer lugar suelo echar un vistazo general para detectar patrones de indexación, vigilar URLs que no nos interesa que rastree o indexe Google, www, indexación de URLs con http y https, paginaciones, tags, categorías, URLs que traía por defecto la plantilla y fueron indexadas antes de eliminarlas…
Además, es conveniente comprobar el estado de todas las URLs indexadas. Para ello, se pueden importar masivamente en Screaming Frog mediante el modo lista. Esto nos permitirá descubrir posibles incidencias como bloqueos por Robots.txt, la existencia de URLs antiguas que fueron eliminadas pero continúan indexadas generando constantes errores 404, etc.
En definitiva, un repaso a estas URLs nos permitirá establecer un plan de acción para optimizar el reparto del crawl budget, evitando que los robots de Google pierdan tiempo en rastrear URLs que no nos interesan. Para ello, es necesario tomar decisiones como realizar redirecciones 301, bloquear URLs a través del archivo Robots.txt, desindexar URLs mediante la metaetiqueta NoIndex y Search Console… en función de cada tipo de URL y proyecto en concreto.
Este análisis de URLs podría considerarse algo básico o superficial ya que en ningún momento estamos teniendo en cuenta el análisis de los logs, el cual es fundamental a la hora de analizar y optimizar el rastreo de nuestra web por parte del Google Bot.
Sin embargo, como este post habla de la utilización de herramientas freemium y la versión de prueba de Screaming Frog Log File Analyser se nos queda algo corta para el análisis de logs, lo dejo para un futuro post algo más específico. 😉