No es una suposición prevaleciente acerca de Google, la creencia de que tiene acceso a todo el contenido en
la web. Pero e...
Entonces, ¿qué uso real tendrá el rastreador en el futuro? Tal vez va a ser un relleno de otros métodos de
recuperación de...
Esto se debe a que ha habido tanto énfasis en la construcción de vínculos en la comunidad digital. Pero
considere esto: Si...
los resultados de las consultas que nunca se han visto antes (en función de su similitud con otras consultas).
Esto es sig...
Próxima SlideShare
Cargando en…5
×

El Futuro Del Internet 1

152 visualizaciones

Publicado el

0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
152
En SlideShare
0
De insertados
0
Número de insertados
2
Acciones
Compartido
0
Descargas
0
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

El Futuro Del Internet 1

  1. 1. No es una suposición prevaleciente acerca de Google, la creencia de que tiene acceso a todo el contenido en la web. Pero esta idea no es correcta. Para muchos usuarios finales, Google es la web. Sin embargo, poderoso como es, Google sólo puede devolver los resultados de una fracción de la web que ha conseguido explorar. El rastreador, araña o bot son términos intercambiables que los motores de búsqueda utilizan para encontrar, descargar e indexar páginas web. Eso es lo que fue inventado para descargar páginas HTML. Hay una obstante, los rastreadores son casi ciegos a los contenidos que no son texto. Y la gran cantidad de contenido generado por el usuario, tales como vídeo, imágenes, audio y otros tipos de archivos, no son tan fáciles de manejar o indexados. Sin embargo, seguimos utilizando todo tipo de aplicaciones ajenas al idioma del navegador (Flash, por ejemplo), tratando de convertir a los navegadores en algo que no está programado para analizar. Como resultado, hemos hecho más difícil para los rastreadores de motores de búsqueda para encontrar, clasificar e indizar nuestras páginas. El rastreador es el motor de búsqueda mas común, pero se enfrenta a muchas limitaciones. Hay fuertes requisitos actualizados y escalas de tiempo múltiples. Tratando de descubrir la relevancia de las páginas existentes en el índice, mientras que se ocupan de la tasa de llegada rápida de los contenidos la nueva web no será una tarea fácil tampoco. El promedio del número de alcances necesarios para descubrir una nueva página debe mantenerse al mínimo. El ancho de banda es también un problema: no sería práctico tratar de descargar toda la web todos los días (y probablemente ni siquiera es posible). Algunos sitios son tan grandes que simplemente no pueden ser rastreados de principio a fin, incluso en el lapso de una semana. De hecho, ningún rastreador será nunca capaz de rastrear la web completa. Un número casi infinito de direcciones URL, además de las trampas de araña, spam y todo tipo de otras cuestiones que impiden su trabajo. Además, siempre habrá una lucha constante entre volver a rastrear las páginas existentes y el rastreo de nuevas páginas. Después de todo, en un mundo interconectado donde las noticias de última hora son de interés mundial, los motores de búsqueda deben ser capaces de proporcionar esa información en tiempo casi real para evitar la disonancia del usuario final. Los sitios web con un gran número de enlaces continuamente atraen más enlaces que los que tienen sólo unos pocos. Como resultado, más de su contenido que está indexado vinculado les da una ventaja cuando se trata de la clasificación. También está el caso de los motores de búsqueda que conocen determinadas páginas web, pero aún no han sido rastreadas. Después de todo, miles de millones de enlaces se extraen de miles de millones de páginas de Google, es decir, debe haber un poco de orden y prioridad a la que llego primero. Recientemente, Google anunció que sus sistemas de procesamiento de enlace habían dado en el blanco billones de URL (pero sabiendo cuantas URL existen no necesariamente significa que conseguirá rastrearlas). Además, Google estima que el número de enlaces es cada vez mayor por varios miles de millones cada día. El futuro de la búsqueda en Internet. Octubre 2010 www.addreales.com Digital es nuestro nombre
  2. 2. Entonces, ¿qué uso real tendrá el rastreador en el futuro? Tal vez va a ser un relleno de otros métodos de recuperación de información en Internet? La introducción de Universal Search de Google apoya esta hipótesis y demuestra que se requieren métodos más allá del rastreo para recuperar información relevante de la estructura emergente de la web. Pero, ¿Puede este método de captura de datos que tiene sus raíces basadas en una tecnología que se remonta a 1945 tan eficaz como lo fue en los primeros días de la web? El contenido generado por el usuario de análisis, contenidos cruzados, análisis comunitarios y análisis total, deben tenerse en cuenta para obtener los resultados más relevantes y la mejor experiencia del usuario final. La red creció demasiado para el de índice Yahoo! original. En respuesta, se adoptó el algoritmo de rastreo / ranking visto en la mayoría de los motores de búsqueda actuales. En ese momento, parecía el camino obvio a seguir. Pero hoy, como el contenido generado por el usuario - que van desde la creación de redes sociales a los blogs, compartir fotos a los sitios de vídeo - crece de manera exponencial, el rastreador será la base, sin embargo no suficiente y poco a poco será derrotado. ¿Es hora de explorar nuevas formas para los motores de búsqueda para reunir la información del mundo? Por supuesto. ¿Qué hay de los nuevos protocolos para diferentes tipos de motores de búsqueda? Y ¿qué pasa con el desarrollo de relaciones especiales con los editores de contenido generados por el usuario? El cambio está a la vuelta de la esquina. Los enlaces y los clics. En 1997, cuando AltaVista fue el motor de búsqueda dominante, Kleinberg hizo un análisis de "motor de búsqueda." Estaba totalmente sorprendido al enterarse de que "Alta Vista" mismo no aparecía en sus propios resultados. Luego realizó una consulta de información de "fabricante de automóviles japonés." Estaba aún más sorprendido al observar que los fabricantes como Nissan, Toyota y Honda no aparecen en la parte superior de los resultados. Kleinberg luego volvió a la página principal de AltaVista y se dio cuenta de las palabras "motor de búsqueda" no aparecen en ningún lugar de la página. Del mismo modo, en la navegación a las paginas páginas Nissan, Toyota y Honda no se presentó ningún signo de la expresión "fabricante japonés de automóviles." La investigación de Kleinberg y su trabajo se discuten a fondo en el fascinante libro Six Degrees: La ciencia de la era conectada, escrito por el renombrado físico Duncan Watts. Watts y Kleinberg han colaborado en la determinación de la nueva ciencia de una era conectada, llevando eventualmente a Kleinberg al desarrollo del algoritmo conocido como HITS, que se basa en la conectividad de datos y documentos de filas en lo que se conoce como los resultados del cubo y autoridad (esto ocurrió casi al mismo tiempo que Larry Page y Sergey Brin, estaban desarrollando el algoritmo de Google PageRank). En pocas palabras, Kleinberg ayudó a mejorar la calidad de búsqueda en la Web mediante la aplicación de análisis de redes sociales con el mecanismo de clasificación. En lugar de juzgar la calidad de la página por su texto, el enfoque se desplaza a la calidad general de las páginas que se enlazan con ella. El futuro de la búsqueda en Internet. Octubre 2010 www.addreales.com Digital es nuestro nombre
  3. 3. Esto se debe a que ha habido tanto énfasis en la construcción de vínculos en la comunidad digital. Pero considere esto: Si un enlace es una especie de voto de un autor de la página web a otra (como Google se refiere a él), ¿cómo las personas sin páginas web votan? (es decir, los que tienen vs. a los que no tienen)? Después de todo, no es realmente democrático alienar al instante unos pocos cientos de millones de usuarios de Internet (en ese entonces) sólo porque no tienen vínculos de voto. En algún momento se habló de que Yahoo nunca podría ampliar su índice de tracción humana para que coincida con el crecimiento exponencial de la web y se mencionó que tenía que haber un valor añadido respecto a que un editor había revisado en realidad sus páginas web y las había indexado. Él respondió que los centros de Kleinberg y el algoritmo de las autoridades así se hacian, con sitios que funcionan como centro de editores, seleccionando sitios de autoridad y, esencialmente, mejorar el índice de manera que se refuercen mutuamente. De manera similar, la sabiduría de las multitudes y la voz del usuario final están enviando señales grandes a los motores de búsqueda. Como marcadores en línea, el etiquetado, la popularidad del aumento en clasificación de modo que se influencie en los resultados del motor de búsqueda de páginas. Las señales más fuertes provenientes ahora de la barra de herramientas de búsqueda. Extrayendo los senderos de búsqueda de multitudes y mirando a los datos de actividad del usuario final nos proporciona perspectivas únicas de los motores que ayudan a identificar cuales los sitios web más relevantes y porque. De hecho, mientras que la búsqueda se ha basado tradicionalmente en torno a las señales de los creadores de contenido (texto, enlaces, etc), ahora es mucho más en torno a modelar el comportamiento del usuario. Los usuarios envían consultas, las reformulan en cadenas de consulta, hacen clic en los resultados y navegan lejos del motor de búsqueda. El resultado de búsqueda en la que hicieron clic, no siempre es la página de destino. Los usuarios en general navegan lejos de los resultados de búsqueda (hasta cinco clics) y visitan una serie de dominios durante su búsqueda de información. Los motores de búsqueda siempre han tenido acceso a la consulta y clics automáticos a través de los registros de retroalimentación implícita según la retroalimentación del usuario final para la clasificación de de nuevos documentos. Pero es el comportamiento de la post-búsqueda la que proporciona valiosa información sobre los destinos que son realmente relevantes para los objetivos de información del usuario. Los usuarios finales proporcionan grandes cantidades de información acerca de los resultados que prefieren para una búsqueda determinada haciendo clic en uno de los resultados y eligen no hacer clic a los demás. Los motores de búsqueda pueden utilizar redes neuronales artificiales para cambiar el orden de los resultados de búsqueda para reflejar lo mejor del trabajo que los usuarios han hecho haciendo clics en el pasado. ¿Por qué construir una red neuronal en lugar de sólo recordar una consulta y luego contar cuántas veces se hace clic en un resultado? La belleza de una red neuronal es que se puede hacer conjeturas razonables sobre El futuro de la búsqueda en Internet. Octubre 2010 www.addreales.com Digital es nuestro nombre
  4. 4. los resultados de las consultas que nunca se han visto antes (en función de su similitud con otras consultas). Esto es significativo ya que hasta el 25% de todas las consultas a los motores de búsqueda cada día nunca han sido antes vistas. La inteligencia colectiva, que ya ha sido aplicada a los datos de vinculación para los documentos de clasificación también se pueden aplicar a los clics y los senderos de búsqueda, alejándose de la limitación de los sistemas que se centran exclusivamente en las consultas y documentos, es sin duda un gran cambio en línea para la recuperación de información. Las relaciones entre las consultas, los documentos y las relaciones entre los documentos han sido fáciles para la captura de información en los motores de búsqueda. Pero los datos de la barra de herramientas permiten a los motores de búsqueda capturar las relaciones entre las consultas, documentos y el contexto de un usuario de la búsqueda verdadera. Por supuesto, los motores de búsqueda han sido siempre capaces de determinar la calidad de una página por el comportamiento de los usuarios finales antes de que llegara la idea de barra de herramientas del explorador. La detección de miles de clics en el botón de retroceso del navegador, envía una señal suficientemente clara que la página es de baja calidad. De tal manera, los motores de búsqueda ahora tienen una combinación muy potente de dichas señales, basándose en los aprendizajes de los otros listados orgánicos, eso es exactamente lo que el programa publicitario AdWords de Google se centra: La retroalimentación implícita por parte del usuario final. Espera la segunda parte de nuestro análisis el cual será liberado en nuestro newsletter de Noviembre. AddReal Digital Strategies. www.addreales.com El futuro de la búsqueda en Internet. Octubre 2010 www.addreales.com Digital es nuestro nombre

×