Seo Logs y Big Data, Lino Uruñuela en Seonthebeach 2016
1. SEO, Logs y Big Data
24/06/2016 → By Lino Uruñuela
2. ¿Qué son los logs?
Información que guarda nuestro servidor de cualquier
interacción que se realiza en él.
¿Dónde y cómo se guardan?
● Se guardan en ficheros .tar.gz
● Se suelen borrar cada X días
● Pregúntale a tu proveedor de hosting cómo obtenerlos
● Pideselo a tus técnicos
3. ¿Qué información nos ofrecen?
CLF → Formato común de registro
● Ip del cliente
● “-” Id cliente máquina
● Id del usuario
● Fecha → fecha y hora de cuando el servidor recibió esa petición
● Método, url, protocolo -> “Get url HTTP/1.0”
● Código de estado → 200 (correcto), 40x (error del cliente), 30x
(redirección), 50x (error del servidor)
● Tamaño
Formato de registro combinado
● Referer → url de referencia
● User Agent → Navegador, sistema operativo, Googlebot, Bingbot
5. ¿Por qué son importantes?
● Cuándo →
○ Sin tener en cuenta las fechas los datos pierden valor
● ¿Dónde? →
○ La url de nuestro site, o un grupo de urls (mediante regex)
● ¿Desde? →
○ Puede ser un buscador, como este ejemplo.
○ Puede ser otro dominio, enlace desde otro site (referencia)
○ Puede ir en blanco, normalmente bots
6. ¿Por qué son importantes?
● ¿Quién? →
○ Nos interesan solamente tres:
■ contienen “GoogleBot” o el bot que quieras
■ Usuarios normales
● No lo llevan vacío
● No contiene “bot” (muchas posibilidades)
Y además, tiene referer no vació
7. ¿Por qué son importantes?
● Estado →
○ Es uno de los campos por los que “pivotaremos” todos nuestros logs
○ Nos dice que URLs son
● Errores
● Redirecciones
● Correctas
8. Filtrando datos para darle valor
Urls 200 ok
● ¿Quién? → Googlebot
● ¿Cuándo? → 1 mes
● ¿Dónde? → grupo Urls
● ¿Status? -> 200
Urls con 200 rastreadas por
Google, también Hits
Urls error 410
● ¿Quién? → Googlebot
● ¿Cuándo? → 1 mes
● ¿Dónde? → grupo Urls
● ¿Status? -> 410
Páginas con error “para siempre”
rastreadas por Google
9. Si segmentamos los datos por grupo de urls podemos analizar todo lo
anterior por tipo de plantilla/página, por ejemplo sobre:
● Filtro o sección del site (filtro por tipo de producto,etc)
● Paginaciones
● Parámetros
Segmentando datos por URL
13. Filtrando datos para darle valor
Urls redirección 301
● ¿Quién? → Googlebot
● ¿Cuándo? → 1 mes
● ¿Dónde? → grupo Urls
● ¿Status? -> 301
URLs con redirección que rastrea
Google
Urls error 404
● ¿Quién? → Googlebot
● ¿Cuándo? → 1 mes
● ¿Dónde? → grupo Urls
● ¿Status? -> 404
Urls que da error
15. Urls y Segmentando datos
● Las gráficas nos muestran una “foto” o línea del tiempo de ese momento
Nos sirven para ver la evolución.
● Hay información muy útil que no te lo muestra una gráfica
○ Urls con redirección a urls 404 → hay que saber las urls ,no una gráfica
○ Urls que hacen dobles, triples, n redirecciones
● Para profundizar en las causas es indispensable poder analizar qué urls
exactamente forman cada grupo del gráfico.
● Estas urls hay que ordenarlas de alguna manera para asignar prioridad a
cada url
16. Urls y Segmentando datos
El cómo ordenemos estos datos es vital para su análisis
● Podemos ordenar por accesos del bot o usuarios.
● Podemos cruzarlos con datos de analytics!
17. Cruzando datos con Analytics
Al ordenar los datos en base a tráfico orgánico
● Obtenemos una rápida priorización mediante el dato estrella en SEO
● Filtrando campos y cruzando datos podemos obtener datos de gran
relevancia
18. Cruzando datos con Analytics
Por ejemplo urls que dan 404 por Googlebot y recibían tráfico orgánico
● Podemos ver las urls que dan 404 y ordenarlas por visitas que recibían
● Podemos obtener la última vez que dio un status correcto (200) y visitas
○ Han existido anteriormente si hay fecha
○ No existieron nunca => posible error técnico o de enlazado
22. Backlinks
●¿Cuándo? → Vamos a obtener la última fecha de acceso
●¿Desde? → ¿quién nos enlaza?
○ Red social → Si el referer contien Facebook, Twitter, etc
○ Buscador → Si contiene Google, Bing, etc
○ Otra página web → si no es red social ni buscador => Enlace externo
● Status → ¿Que tipo de urls queremos ver?
○ 200 → (enlaces correctos)
○ 302 → (enlaces con redirección que no valorará Google)
○ 40x → Enlaces a urls de error, conviene arreglarlas!
23. Backlinks a urls con 404
●¿Cuándo? → Último mes
●¿Desde? → ¿quién nos enlaza?
○ Red social → Si el referer contien Facebook, Twitter, etc
○ Buscador → Si contiene Google, Bing, etc
○ Otra página web → si no es red social ni buscador => Enlace externo
● Status → ¿Que tipo de urls queremos ver?
○ 200 → (enlaces correctos)
○ 302 → (enlaces con redirección que no valorará Google)
○ 404→ Enlaces a urls de error, conviene arreglarlas!
24. Backlinks a urls con 404
● ¿Cuándo? → 1 mes
● ¿Desde? → Otra página web
● ¿Status? -> 404
Ordenándolo por el número de accesos que recibe de usuarios
También podríamos ordenarlo por número de veces que GoogleBot accede a esa url, de esta
manera nos priorizará mejor las urls que reciben enlaces y dan 404
26. Similitudes y diferencias con GSC
● Algunos ejemplos de usos que no te da GSC
○ Status 200
■ Cuántas y que urls rastrea todos los días → Importancia de Google
■ Cuántas y qué urls que dan 200 pero nunca han tenido tráfico orgánico
○ Redirecciones 30x
■ Redirecciones 302 antes con visitas→ ¿Son correctas o error?
■ Redirecciones a urls con error 404 o 410
■ URls con redirección 301 rastreadas → muy bueno para migraciones
○ Errores 4xx (las urls podrías sacarlas de GSC y luego darle la lógica)
■ URLs que dan error a Google
■ URls que dan error y antes daban 200
■ Urls que dan error y antes tenían visitas → muy útil en megawebs
27. Similitudes y diferencias con GSC
● Backlinks
○ Status 200 → enlaces entrantes correctos
■ Enlaces que además nos aportan tráfico
■ Importancia para Google de ese link → cuántos más accesos del
bot a esa url más importante es la url de origen
○ Redirecciones 30x
■ Backlinks a urls con 302 → desperdiciamos page Rank
■ Backlinks a urls con Dobles, triples, redirecciones
○ Errores 4xx
■ Backlinks a urls que dan error a Google
■ Backlinks a urls que dan error y antes tenían visitas
28. Similitudes y diferencias con GSC
● Infinidad de cosas
○ Comparaciones
■ tráfico orgánico Vs Nº urls rastreadas (ratio eficiencia)
■ Comparar cada día con la media para alertas automáticas
○ Redirecciones 30x
■ Nuevas redirecciones encontradas
■ Redirecciones creadas por bots
○ Errores 4xx
■ Cuando comenzó una url a dar error o cuando dejó de darlo
■ URLs con errores ya corregidas (tienen fecha último 200 posterior a
último 404)