Seo Logs y Big Data, Lino Uruñuela en Seonthebeach 2016

1.283 visualizaciones

Publicado el

Monitoriza lo que hace GoogleBot en tu site mediante el análisis de logs. Logs SEO y Big Data, Seonthebeach 2016

Publicado en: Internet

Seo Logs y Big Data, Lino Uruñuela en Seonthebeach 2016

  1. 1. SEO, Logs y Big Data 24/06/2016 → By Lino Uruñuela
  2. 2. ¿Qué son los logs? Información que guarda nuestro servidor de cualquier interacción que se realiza en él. ¿Dónde y cómo se guardan? ● Se guardan en ficheros .tar.gz ● Se suelen borrar cada X días ● Pregúntale a tu proveedor de hosting cómo obtenerlos ● Pideselo a tus técnicos
  3. 3. ¿Qué información nos ofrecen? CLF → Formato común de registro ● Ip del cliente ● “-” Id cliente máquina ● Id del usuario ● Fecha → fecha y hora de cuando el servidor recibió esa petición ● Método, url, protocolo -> “Get url HTTP/1.0” ● Código de estado → 200 (correcto), 40x (error del cliente), 30x (redirección), 50x (error del servidor) ● Tamaño Formato de registro combinado ● Referer → url de referencia ● User Agent → Navegador, sistema operativo, Googlebot, Bingbot
  4. 4. Ejemplo de log
  5. 5. ¿Por qué son importantes? ● Cuándo → ○ Sin tener en cuenta las fechas los datos pierden valor ● ¿Dónde? → ○ La url de nuestro site, o un grupo de urls (mediante regex) ● ¿Desde? → ○ Puede ser un buscador, como este ejemplo. ○ Puede ser otro dominio, enlace desde otro site (referencia) ○ Puede ir en blanco, normalmente bots
  6. 6. ¿Por qué son importantes? ● ¿Quién? → ○ Nos interesan solamente tres: ■ contienen “GoogleBot” o el bot que quieras ■ Usuarios normales ● No lo llevan vacío ● No contiene “bot” (muchas posibilidades) Y además, tiene referer no vació
  7. 7. ¿Por qué son importantes? ● Estado → ○ Es uno de los campos por los que “pivotaremos” todos nuestros logs ○ Nos dice que URLs son ● Errores ● Redirecciones ● Correctas
  8. 8. Filtrando datos para darle valor Urls 200 ok ● ¿Quién? → Googlebot ● ¿Cuándo? → 1 mes ● ¿Dónde? → grupo Urls ● ¿Status? -> 200 Urls con 200 rastreadas por Google, también Hits Urls error 410 ● ¿Quién? → Googlebot ● ¿Cuándo? → 1 mes ● ¿Dónde? → grupo Urls ● ¿Status? -> 410 Páginas con error “para siempre” rastreadas por Google
  9. 9. Si segmentamos los datos por grupo de urls podemos analizar todo lo anterior por tipo de plantilla/página, por ejemplo sobre: ● Filtro o sección del site (filtro por tipo de producto,etc) ● Paginaciones ● Parámetros Segmentando datos por URL
  10. 10. Segmentando errores 410
  11. 11. ¿Segmento que genera errores 410?
  12. 12. Segmentando urls con 200
  13. 13. Filtrando datos para darle valor Urls redirección 301 ● ¿Quién? → Googlebot ● ¿Cuándo? → 1 mes ● ¿Dónde? → grupo Urls ● ¿Status? -> 301 URLs con redirección que rastrea Google Urls error 404 ● ¿Quién? → Googlebot ● ¿Cuándo? → 1 mes ● ¿Dónde? → grupo Urls ● ¿Status? -> 404 Urls que da error
  14. 14. URLs 301
  15. 15. Urls y Segmentando datos ● Las gráficas nos muestran una “foto” o línea del tiempo de ese momento Nos sirven para ver la evolución. ● Hay información muy útil que no te lo muestra una gráfica ○ Urls con redirección a urls 404 → hay que saber las urls ,no una gráfica ○ Urls que hacen dobles, triples, n redirecciones ● Para profundizar en las causas es indispensable poder analizar qué urls exactamente forman cada grupo del gráfico. ● Estas urls hay que ordenarlas de alguna manera para asignar prioridad a cada url
  16. 16. Urls y Segmentando datos El cómo ordenemos estos datos es vital para su análisis ● Podemos ordenar por accesos del bot o usuarios. ● Podemos cruzarlos con datos de analytics!
  17. 17. Cruzando datos con Analytics Al ordenar los datos en base a tráfico orgánico ● Obtenemos una rápida priorización mediante el dato estrella en SEO ● Filtrando campos y cruzando datos podemos obtener datos de gran relevancia
  18. 18. Cruzando datos con Analytics Por ejemplo urls que dan 404 por Googlebot y recibían tráfico orgánico ● Podemos ver las urls que dan 404 y ordenarlas por visitas que recibían ● Podemos obtener la última vez que dio un status correcto (200) y visitas ○ Han existido anteriormente si hay fecha ○ No existieron nunca => posible error técnico o de enlazado
  19. 19. Redirecciones 301 con visitas
  20. 20. Superponiendo tráfico y Logs
  21. 21. Superponiendo tráfico y Logs
  22. 22. Backlinks ●¿Cuándo? → Vamos a obtener la última fecha de acceso ●¿Desde? → ¿quién nos enlaza? ○ Red social → Si el referer contien Facebook, Twitter, etc ○ Buscador → Si contiene Google, Bing, etc ○ Otra página web → si no es red social ni buscador => Enlace externo ● Status → ¿Que tipo de urls queremos ver? ○ 200 → (enlaces correctos) ○ 302 → (enlaces con redirección que no valorará Google) ○ 40x → Enlaces a urls de error, conviene arreglarlas!
  23. 23. Backlinks a urls con 404 ●¿Cuándo? → Último mes ●¿Desde? → ¿quién nos enlaza? ○ Red social → Si el referer contien Facebook, Twitter, etc ○ Buscador → Si contiene Google, Bing, etc ○ Otra página web → si no es red social ni buscador => Enlace externo ● Status → ¿Que tipo de urls queremos ver? ○ 200 → (enlaces correctos) ○ 302 → (enlaces con redirección que no valorará Google) ○ 404→ Enlaces a urls de error, conviene arreglarlas!
  24. 24. Backlinks a urls con 404 ● ¿Cuándo? → 1 mes ● ¿Desde? → Otra página web ● ¿Status? -> 404 Ordenándolo por el número de accesos que recibe de usuarios También podríamos ordenarlo por número de veces que GoogleBot accede a esa url, de esta manera nos priorizará mejor las urls que reciben enlaces y dan 404
  25. 25. Similitudes y diferencias con GSC ● Cuenta todos (200, 404,410,30x) ● Solo 200
  26. 26. Similitudes y diferencias con GSC ● Algunos ejemplos de usos que no te da GSC ○ Status 200 ■ Cuántas y que urls rastrea todos los días → Importancia de Google ■ Cuántas y qué urls que dan 200 pero nunca han tenido tráfico orgánico ○ Redirecciones 30x ■ Redirecciones 302 antes con visitas→ ¿Son correctas o error? ■ Redirecciones a urls con error 404 o 410 ■ URls con redirección 301 rastreadas → muy bueno para migraciones ○ Errores 4xx (las urls podrías sacarlas de GSC y luego darle la lógica) ■ URLs que dan error a Google ■ URls que dan error y antes daban 200 ■ Urls que dan error y antes tenían visitas → muy útil en megawebs
  27. 27. Similitudes y diferencias con GSC ● Backlinks ○ Status 200 → enlaces entrantes correctos ■ Enlaces que además nos aportan tráfico ■ Importancia para Google de ese link → cuántos más accesos del bot a esa url más importante es la url de origen ○ Redirecciones 30x ■ Backlinks a urls con 302 → desperdiciamos page Rank ■ Backlinks a urls con Dobles, triples, redirecciones ○ Errores 4xx ■ Backlinks a urls que dan error a Google ■ Backlinks a urls que dan error y antes tenían visitas
  28. 28. Similitudes y diferencias con GSC ● Infinidad de cosas ○ Comparaciones ■ tráfico orgánico Vs Nº urls rastreadas (ratio eficiencia) ■ Comparar cada día con la media para alertas automáticas ○ Redirecciones 30x ■ Nuevas redirecciones encontradas ■ Redirecciones creadas por bots ○ Errores 4xx ■ Cuando comenzó una url a dar error o cuando dejó de darlo ■ URLs con errores ya corregidas (tienen fecha último 200 posterior a último 404)
  29. 29. Similitudes y diferencias con GSC
  30. 30. Cruzando datos con Analytics Gracias!! Seo, Logs y Big Data 24/06/2016 → By Lino Uruñuela (Seonthebeach 2016)

×