SlideShare una empresa de Scribd logo
1 de 38
Las Búsquedas Inteligentes
en las Ciudades del Futuro
Autor(es): • Mtr. Luis Fernando Aguas
Contenidos
• Introducción
• Knowledge Graph
• Búsquedas Inteligentes
• ¿Qué es un Webcrawler?
• Proceso de Webcrawling Inteligente
• Web Crawler- PHP
• Web Crawler aplicado a Redes Sociales
• Perfiles Digitales
• El futuro de las búsquedas
Introducción
• Buscador (motor de búsqueda) es un sistema
informático que busca archivos almacenados en
servidores web gracias a sus “spider” (o Web
crawler).
Knowledge Graph:
• El buscador perfecto debería entender exactamente
lo que quieres decir y debería devolver
exactamente lo que quieres.
• El nuevo concepto de google Knowledge Graph “El
gráfico de conocimiento” es una colección enorme
de personas, lugares y cosas del mundo y la forma
en que están interconectadas entre sí.
Knowledge Graph:
• Resultados de cosas y de conceptos
Knowledge Graph:
• Obtención de mejores resúmenes
Knowledge Graph:
• Profundizar y ampliar resultados
Búsquedas Inteligentes
Cola de
Links
Agentes de descarga (b)
Agente de gestión links (a)
Agentes de proceso (c)
Páginas
WEB
Distancias
(Diccionario de
datos)
Servicios
Búsquedas Inteligentes
Agentes de proceso
Distancias
(Diccionario de
datos)
Servicio de agregado
de palabras (a)
Servicio de agregado
de frases (b)
Servicio de cálculo de
distancias (c)
Proceso por lotes
¿Qué es un Webcrawler?
• Exploran páginas web en forma automática.
• Suelen ser bots.
• Es utilizado por los motores de búsqueda.
Proceso de Webcrawling Inteligente
• Lista inicial de links.
• Exploración de Sitios Web de la lista.
• Extracción de links
• Selección óptima de links
• Carga de nuevos links en la lista inicial
Proceso de Webcrawling Inteligente
Web Crawler- PHP
• Vamos a utilizar la clase
• Luego, agregamos las funciones que vamos a utilizar,
transformamos las URL que necesitamos quitando
caracteres especiales
Web Crawler- PHP
Web Crawler- PHP
• Rastreamos las URLS Reales
Web Crawler- PHP
• Crawler se ejecuta aquí:
Web Crawler- PHP
• Ejemplo:
• Demo 1
• Rastreo Total
Web Crawler aplicado a Redes
Sociales
• Facebook:
o Nos registramos como desarrollador de aplicaciones
 https://developers.facebook.com/docs/apps
o Creamos un nuevo identificador de la aplicación
Web Crawler aplicado a Redes
Sociales
• Facebook:
o Descargamos Simple Data Pull o el equivalente para python
o En la función principal colocamos, nuestro usuario y password:
1
2
3
4
5
def main():
list_companies = [“usuario", “password"]
graph_url = "https://graph.facebook.com/
Web Crawler aplicado a Redes
Sociales
• Facebook:
o Comenzamos a analizar.
o Simplemente pegamos el APP_SECRET y APP_ID en el enlace
de abajo.
https://graph.facebook.com/usuario/posts/?key=value&access_token=A
PP_ID|APP_SECRET
• Colocando la línea anterior, nos retorna el id real del
usuario
Web Crawler aplicado a Redes
Sociales
• Retorna, la fecha de los posteos en el muro:
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
def scrape_posts_by_date(graph_url, date, post_data):
page_posts = render_to_json(graph_url)
next_page = page_posts["paging"]["next"]
page_posts = page_posts["data"]
collecting = True
for post in page_posts:
for post in page_posts:
try:
current_post = [post["id"], post["message"],
post["created_time"],
post["shares"]["count"]]
Web Crawler aplicados a Redes
Sociales
• Contenido reciente compartido:
Web Crawler aplicados a Redes
Sociales
• Para contar el número de likes:
• En resumen analizando esta técnica, podemos
averiguar cualquier información del usuario en la red
social en cuestión
• Combinando con exploit, se podría hasta hackear.
Web Crawler aplicados a Redes
Sociales
• Video 1.: Facebook Fan
• Video 2.: Recolección Mails – Atomic Email Hunter
Perfiles Digitales
• Ficha personal de cada usuario en función de las
publicaciones en internet (Redes Sociales, etc..)
• Estas publicaciones se relacionan con las emociones,
personalidad, etc.
• Ciertas entidades en el mundo usan estos perfiles
para empleos, análisis psicológico, etc.
• Se usan crawlers para su creación
Perfiles Digitales
Filtrar
AnalizarExtraer
Buscar
Perfiles Digitales
Máquinas de Aprendizaje
• Uso tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles
Digitales
• Dar al motor de búsqueda la capacidad de decisión
o Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizaje
o Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e
imágenes.
Máquinas de Aprendizaje
• Sistemas Expertos convencionales:
(algunos) Sistemas Expertos de segunda
generación:
Experiencia Reglas
Ingeniero de
conocimiento
Experiencia Reglas
Algoritmo de
aprendizaje
Búsquedas Inteligentes
Cola de
Links
Agentes de descarga (b)
Agente de gestión links (a)
Agentes de proceso (c)
Páginas
WEB
Distancias
(Diccionario de
datos)
Servicios
Búsquedas Inteligentes
Agentes de proceso
Distancias
(Diccionario de
datos)
Servicio de agregado
de palabras (a)
Servicio de agregado
de frases (b)
Servicio de cálculo de
distancias (c)
Proceso por lotes
Google Neural Machine
Translation (GNMT)
• Fue empleada por primera vez para mejorar la
eficiencia de traducciones de una sola frase
• El algoritmo era efectivo con múltiples frases,
reduciendo errores en un 60%
• Los algoritmos convencionales de traducción son
capaces de “recordar”
Cloud Machine Learning Platform
• Máquina de aprendizaje en la nube.
• Creada por google.
• Para muchos de sus servicios como puedan ser en las
búsquedas de imágenes, en las búsquedas por voz
desde la aplicación, en las traducciones y en las
respuestas inteligentes de Inbox.
• El API puede ser usado por los desarrolladores
Cloud Machine Learning Platform
Google Open Images
• Reúne más de 9 millones de enlaces a imágenes que
han sido etiquetadas sobre unas 6.000 categorías.
• Han participado las universidades de Carnegie
Mellon y Cornell.
• Sobre dichas imágenes se han llevado a cabo una
serie de trabajos de investigación.
Google Open Images
El futuro de las búsquedas
• Uso de tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles
Digitales
• Dar al motor de búsqueda la capacidad de decisión
o Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizaje
o Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e
imágenes.
El futuro de las búsquedas

Más contenido relacionado

Similar a Web Crawlers

Mashups Aplicaciones hacia el Enterprise 2.0
Mashups Aplicaciones hacia el Enterprise 2.0Mashups Aplicaciones hacia el Enterprise 2.0
Mashups Aplicaciones hacia el Enterprise 2.0Esteban Saavedra
 
Analisis seo.ppt2
Analisis seo.ppt2Analisis seo.ppt2
Analisis seo.ppt2Maribel_kar
 
Posicionamiento en buscadores y web
Posicionamiento en buscadores   y webPosicionamiento en buscadores   y web
Posicionamiento en buscadores y webVanessa Martinez
 
Cloud Computer(Computación En La Nube) Y WEB
Cloud Computer(Computación En La Nube) Y WEBCloud Computer(Computación En La Nube) Y WEB
Cloud Computer(Computación En La Nube) Y WEBVanessa Martinez
 
Microformatos [autoguardado]
Microformatos [autoguardado]Microformatos [autoguardado]
Microformatos [autoguardado]Rashel Mercedes
 
Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...
Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...
Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...edwin.bernal
 
Todas las APIs de Google
Todas las APIs de GoogleTodas las APIs de Google
Todas las APIs de GoogleCarlos Toxtli
 
Tecnologías para hacer Arquitectura de Información
Tecnologías para hacer Arquitectura de InformaciónTecnologías para hacer Arquitectura de Información
Tecnologías para hacer Arquitectura de InformaciónRodrigo Ronda
 
Aplicaciones de google
Aplicaciones de googleAplicaciones de google
Aplicaciones de googleYanethCaldern1
 
Presentación html5
Presentación html5Presentación html5
Presentación html5aydimdagam
 
Instalacion adobe dream weaver
Instalacion adobe dream weaverInstalacion adobe dream weaver
Instalacion adobe dream weaverLuis Viteri
 
IT Camps Apps Office 365 Valencia 2014
IT Camps Apps Office 365 Valencia 2014IT Camps Apps Office 365 Valencia 2014
IT Camps Apps Office 365 Valencia 2014Adrian Diaz Cervera
 

Similar a Web Crawlers (20)

Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Mashups Aplicaciones hacia el Enterprise 2.0
Mashups Aplicaciones hacia el Enterprise 2.0Mashups Aplicaciones hacia el Enterprise 2.0
Mashups Aplicaciones hacia el Enterprise 2.0
 
Analisis seo.ppt2
Analisis seo.ppt2Analisis seo.ppt2
Analisis seo.ppt2
 
Comp2 guia2
Comp2 guia2Comp2 guia2
Comp2 guia2
 
Mashups
MashupsMashups
Mashups
 
Posicionamiento en buscadores y web
Posicionamiento en buscadores   y webPosicionamiento en buscadores   y web
Posicionamiento en buscadores y web
 
Cloud Computer(Computación En La Nube) Y WEB
Cloud Computer(Computación En La Nube) Y WEBCloud Computer(Computación En La Nube) Y WEB
Cloud Computer(Computación En La Nube) Y WEB
 
Analisis seo
Analisis seoAnalisis seo
Analisis seo
 
Microformatos [autoguardado]
Microformatos [autoguardado]Microformatos [autoguardado]
Microformatos [autoguardado]
 
Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...
Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...
Conferencia Gerencia de proyectos web e introd. Arq. de la información para l...
 
TRABOJO de imformatica
TRABOJO  de imformatica TRABOJO  de imformatica
TRABOJO de imformatica
 
Todas las APIs de Google
Todas las APIs de GoogleTodas las APIs de Google
Todas las APIs de Google
 
Tecnologías para hacer Arquitectura de Información
Tecnologías para hacer Arquitectura de InformaciónTecnologías para hacer Arquitectura de Información
Tecnologías para hacer Arquitectura de Información
 
Aplicaciones de google
Aplicaciones de googleAplicaciones de google
Aplicaciones de google
 
Google analytics
Google analyticsGoogle analytics
Google analytics
 
Presentación html5
Presentación html5Presentación html5
Presentación html5
 
Instalacion adobe dream weaver
Instalacion adobe dream weaverInstalacion adobe dream weaver
Instalacion adobe dream weaver
 
El internet
El internetEl internet
El internet
 
IT Camps Apps Office 365 Valencia 2014
IT Camps Apps Office 365 Valencia 2014IT Camps Apps Office 365 Valencia 2014
IT Camps Apps Office 365 Valencia 2014
 
Navegadores
NavegadoresNavegadores
Navegadores
 

Más de Luis Fernando Aguas Bucheli (20)

EFC-ISW-Luis Fernando Aguas.pptx
EFC-ISW-Luis Fernando Aguas.pptxEFC-ISW-Luis Fernando Aguas.pptx
EFC-ISW-Luis Fernando Aguas.pptx
 
P-S2.pptx
P-S2.pptxP-S2.pptx
P-S2.pptx
 
EBTS-S1.pptx
EBTS-S1.pptxEBTS-S1.pptx
EBTS-S1.pptx
 
P-S3.pptx
P-S3.pptxP-S3.pptx
P-S3.pptx
 
EBTS-S4.pptx
EBTS-S4.pptxEBTS-S4.pptx
EBTS-S4.pptx
 
P-S4.pptx
P-S4.pptxP-S4.pptx
P-S4.pptx
 
P-S1.pptx
P-S1.pptxP-S1.pptx
P-S1.pptx
 
EBTS-S3.pptx
EBTS-S3.pptxEBTS-S3.pptx
EBTS-S3.pptx
 
EBTS-S2.pptx
EBTS-S2.pptxEBTS-S2.pptx
EBTS-S2.pptx
 
PDIDTI-S7.pptx
PDIDTI-S7.pptxPDIDTI-S7.pptx
PDIDTI-S7.pptx
 
PDIDTI-S4.pptx
PDIDTI-S4.pptxPDIDTI-S4.pptx
PDIDTI-S4.pptx
 
PDIDTI-S2.pptx
PDIDTI-S2.pptxPDIDTI-S2.pptx
PDIDTI-S2.pptx
 
PDIDTI-S1.pptx
PDIDTI-S1.pptxPDIDTI-S1.pptx
PDIDTI-S1.pptx
 
PDIDTI-S8.pptx
PDIDTI-S8.pptxPDIDTI-S8.pptx
PDIDTI-S8.pptx
 
PDIDTI-S6.pptx
PDIDTI-S6.pptxPDIDTI-S6.pptx
PDIDTI-S6.pptx
 
PDIDTI-S5.pptx
PDIDTI-S5.pptxPDIDTI-S5.pptx
PDIDTI-S5.pptx
 
PDIDTI-S3.pptx
PDIDTI-S3.pptxPDIDTI-S3.pptx
PDIDTI-S3.pptx
 
TIC-S4.pptx
TIC-S4.pptxTIC-S4.pptx
TIC-S4.pptx
 
TIC-S3.pptx
TIC-S3.pptxTIC-S3.pptx
TIC-S3.pptx
 
TIC-S2.pptx
TIC-S2.pptxTIC-S2.pptx
TIC-S2.pptx
 

Último

PIAnGIMNACIA___19655c35a563e33___ 2.pdfh
PIAnGIMNACIA___19655c35a563e33___ 2.pdfhPIAnGIMNACIA___19655c35a563e33___ 2.pdfh
PIAnGIMNACIA___19655c35a563e33___ 2.pdfhjonathancallenteg
 
la historia de nissan skyline y su evolucion
la historia de nissan skyline y su evolucionla historia de nissan skyline y su evolucion
la historia de nissan skyline y su evolucionemanuelrosalezsanche
 
Manual de Camioneta Toyota doble traccion 20023
Manual de Camioneta Toyota doble traccion 20023Manual de Camioneta Toyota doble traccion 20023
Manual de Camioneta Toyota doble traccion 20023danyercatari1
 
Ergonomía en Oficinas- Ergonomía en Oficina.pptx
Ergonomía en Oficinas- Ergonomía en Oficina.pptxErgonomía en Oficinas- Ergonomía en Oficina.pptx
Ergonomía en Oficinas- Ergonomía en Oficina.pptxmolinabdiego93
 
lollllllllllllllllllllllllllllllllllllllllllllllll
lolllllllllllllllllllllllllllllllllllllllllllllllllollllllllllllllllllllllllllllllllllllllllllllllll
lollllllllllllllllllllllllllllllllllllllllllllllllJesusFlores332
 
Inyección electrónica, Diagnostico por imagenes.pdf
Inyección electrónica, Diagnostico por imagenes.pdfInyección electrónica, Diagnostico por imagenes.pdf
Inyección electrónica, Diagnostico por imagenes.pdfmiltonantonioescamil
 

Último (6)

PIAnGIMNACIA___19655c35a563e33___ 2.pdfh
PIAnGIMNACIA___19655c35a563e33___ 2.pdfhPIAnGIMNACIA___19655c35a563e33___ 2.pdfh
PIAnGIMNACIA___19655c35a563e33___ 2.pdfh
 
la historia de nissan skyline y su evolucion
la historia de nissan skyline y su evolucionla historia de nissan skyline y su evolucion
la historia de nissan skyline y su evolucion
 
Manual de Camioneta Toyota doble traccion 20023
Manual de Camioneta Toyota doble traccion 20023Manual de Camioneta Toyota doble traccion 20023
Manual de Camioneta Toyota doble traccion 20023
 
Ergonomía en Oficinas- Ergonomía en Oficina.pptx
Ergonomía en Oficinas- Ergonomía en Oficina.pptxErgonomía en Oficinas- Ergonomía en Oficina.pptx
Ergonomía en Oficinas- Ergonomía en Oficina.pptx
 
lollllllllllllllllllllllllllllllllllllllllllllllll
lolllllllllllllllllllllllllllllllllllllllllllllllllollllllllllllllllllllllllllllllllllllllllllllllll
lollllllllllllllllllllllllllllllllllllllllllllllll
 
Inyección electrónica, Diagnostico por imagenes.pdf
Inyección electrónica, Diagnostico por imagenes.pdfInyección electrónica, Diagnostico por imagenes.pdf
Inyección electrónica, Diagnostico por imagenes.pdf
 

Web Crawlers

  • 1. Las Búsquedas Inteligentes en las Ciudades del Futuro Autor(es): • Mtr. Luis Fernando Aguas
  • 2. Contenidos • Introducción • Knowledge Graph • Búsquedas Inteligentes • ¿Qué es un Webcrawler? • Proceso de Webcrawling Inteligente • Web Crawler- PHP • Web Crawler aplicado a Redes Sociales • Perfiles Digitales • El futuro de las búsquedas
  • 3. Introducción • Buscador (motor de búsqueda) es un sistema informático que busca archivos almacenados en servidores web gracias a sus “spider” (o Web crawler).
  • 4. Knowledge Graph: • El buscador perfecto debería entender exactamente lo que quieres decir y debería devolver exactamente lo que quieres. • El nuevo concepto de google Knowledge Graph “El gráfico de conocimiento” es una colección enorme de personas, lugares y cosas del mundo y la forma en que están interconectadas entre sí.
  • 5. Knowledge Graph: • Resultados de cosas y de conceptos
  • 6. Knowledge Graph: • Obtención de mejores resúmenes
  • 7. Knowledge Graph: • Profundizar y ampliar resultados
  • 8. Búsquedas Inteligentes Cola de Links Agentes de descarga (b) Agente de gestión links (a) Agentes de proceso (c) Páginas WEB Distancias (Diccionario de datos) Servicios
  • 9. Búsquedas Inteligentes Agentes de proceso Distancias (Diccionario de datos) Servicio de agregado de palabras (a) Servicio de agregado de frases (b) Servicio de cálculo de distancias (c) Proceso por lotes
  • 10. ¿Qué es un Webcrawler? • Exploran páginas web en forma automática. • Suelen ser bots. • Es utilizado por los motores de búsqueda.
  • 11. Proceso de Webcrawling Inteligente • Lista inicial de links. • Exploración de Sitios Web de la lista. • Extracción de links • Selección óptima de links • Carga de nuevos links en la lista inicial
  • 12. Proceso de Webcrawling Inteligente
  • 13. Web Crawler- PHP • Vamos a utilizar la clase • Luego, agregamos las funciones que vamos a utilizar, transformamos las URL que necesitamos quitando caracteres especiales
  • 15. Web Crawler- PHP • Rastreamos las URLS Reales
  • 16. Web Crawler- PHP • Crawler se ejecuta aquí:
  • 17. Web Crawler- PHP • Ejemplo: • Demo 1 • Rastreo Total
  • 18. Web Crawler aplicado a Redes Sociales • Facebook: o Nos registramos como desarrollador de aplicaciones  https://developers.facebook.com/docs/apps o Creamos un nuevo identificador de la aplicación
  • 19. Web Crawler aplicado a Redes Sociales • Facebook: o Descargamos Simple Data Pull o el equivalente para python o En la función principal colocamos, nuestro usuario y password: 1 2 3 4 5 def main(): list_companies = [“usuario", “password"] graph_url = "https://graph.facebook.com/
  • 20. Web Crawler aplicado a Redes Sociales • Facebook: o Comenzamos a analizar. o Simplemente pegamos el APP_SECRET y APP_ID en el enlace de abajo. https://graph.facebook.com/usuario/posts/?key=value&access_token=A PP_ID|APP_SECRET • Colocando la línea anterior, nos retorna el id real del usuario
  • 21. Web Crawler aplicado a Redes Sociales • Retorna, la fecha de los posteos en el muro: 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 def scrape_posts_by_date(graph_url, date, post_data): page_posts = render_to_json(graph_url) next_page = page_posts["paging"]["next"] page_posts = page_posts["data"] collecting = True for post in page_posts: for post in page_posts: try: current_post = [post["id"], post["message"], post["created_time"], post["shares"]["count"]]
  • 22. Web Crawler aplicados a Redes Sociales • Contenido reciente compartido:
  • 23. Web Crawler aplicados a Redes Sociales • Para contar el número de likes: • En resumen analizando esta técnica, podemos averiguar cualquier información del usuario en la red social en cuestión • Combinando con exploit, se podría hasta hackear.
  • 24. Web Crawler aplicados a Redes Sociales • Video 1.: Facebook Fan • Video 2.: Recolección Mails – Atomic Email Hunter
  • 25. Perfiles Digitales • Ficha personal de cada usuario en función de las publicaciones en internet (Redes Sociales, etc..) • Estas publicaciones se relacionan con las emociones, personalidad, etc. • Ciertas entidades en el mundo usan estos perfiles para empleos, análisis psicológico, etc. • Se usan crawlers para su creación
  • 28. Máquinas de Aprendizaje • Uso tecnología de inteligencia artificial. • Aprendizaje automático • Búsquedas en base a la construcción de Perfiles Digitales • Dar al motor de búsqueda la capacidad de decisión o Las aplicaciones más populares de Google ya cuentan con máquinas de aprendizaje o Gmail cuenta con una inteligencia artificial que sugiere posibles respuestas a un correo electrónico dependiendo de su texto e imágenes.
  • 29. Máquinas de Aprendizaje • Sistemas Expertos convencionales: (algunos) Sistemas Expertos de segunda generación: Experiencia Reglas Ingeniero de conocimiento Experiencia Reglas Algoritmo de aprendizaje
  • 30. Búsquedas Inteligentes Cola de Links Agentes de descarga (b) Agente de gestión links (a) Agentes de proceso (c) Páginas WEB Distancias (Diccionario de datos) Servicios
  • 31. Búsquedas Inteligentes Agentes de proceso Distancias (Diccionario de datos) Servicio de agregado de palabras (a) Servicio de agregado de frases (b) Servicio de cálculo de distancias (c) Proceso por lotes
  • 32. Google Neural Machine Translation (GNMT) • Fue empleada por primera vez para mejorar la eficiencia de traducciones de una sola frase • El algoritmo era efectivo con múltiples frases, reduciendo errores en un 60% • Los algoritmos convencionales de traducción son capaces de “recordar”
  • 33. Cloud Machine Learning Platform • Máquina de aprendizaje en la nube. • Creada por google. • Para muchos de sus servicios como puedan ser en las búsquedas de imágenes, en las búsquedas por voz desde la aplicación, en las traducciones y en las respuestas inteligentes de Inbox. • El API puede ser usado por los desarrolladores
  • 35. Google Open Images • Reúne más de 9 millones de enlaces a imágenes que han sido etiquetadas sobre unas 6.000 categorías. • Han participado las universidades de Carnegie Mellon y Cornell. • Sobre dichas imágenes se han llevado a cabo una serie de trabajos de investigación.
  • 37. El futuro de las búsquedas • Uso de tecnología de inteligencia artificial. • Aprendizaje automático • Búsquedas en base a la construcción de Perfiles Digitales • Dar al motor de búsqueda la capacidad de decisión o Las aplicaciones más populares de Google ya cuentan con máquinas de aprendizaje o Gmail cuenta con una inteligencia artificial que sugiere posibles respuestas a un correo electrónico dependiendo de su texto e imágenes.
  • 38. El futuro de las búsquedas