Anonymizing Graphs: Measuring Quality for Clustering
Business intelligence social. ¿Cómo aprovechar al máximo las redes sociales?
1. Social CRM is a strategy for harnessing
communities to support customers and
prospects, as well as sales, marketing and
customer service organizations, along a
purposeful and mutually beneficial
business process.
Social CRM es una estrategia para el apro-vechamiento
de las comunidades que soportan
tanto a los clientes como a los prospectos, así
como a ventas, marketing y atención al cliente,
a lo largo de un propósito de beneficio mutuo en
procesos de negocio.
2. Primer trabajo, profesor de computación en un colegio
privado, con alrededor de 500 alumnos entre las edades de 9 y
12 años.
Realizó un voluntariado durante seis meses en la sierrea
indígena de Huejutla de Reyes Hidaldo, México, en
comunidades de alta pobreza.
Al finalizar la universidad, se incoporó a Intellego, consultora
numero uno de latinoamérica, ultimo roll : Consultor Senior BI.
Después se incorporó a Danone México, en donde llevo los
roles de lider de proyectos para ventas y distribución, así como
la Gerencia de BI para ambas empresas: lácteos y aguas.
Finalmente lleva ya 5 años en el Centro de Competencia de
Business Intelligence del Grupo Danone, en donde ha sido
Front Office Manager, y ahora tiene el rol de Innovative and
Evolutive Manager, siendo su cometido principal el de
identificar nuevas necesidades de negocio así como la
coordinación de proyectos en nuevas tecnologías.
3. ntroducción e impacto en las Redes Sociales
ué es BI Social y qué es Social Intelligence?
odelo propuesto para analizar BI Social
asos prácticos de éxito en las redes
sociales
l Caso práctico de Sony (por SDG)
l Caso de Facebook (por Microstrategy)
endencias en las redes sociales
4. Hoy por hoy existen una gran
variedad de redes sociales, y
para todos los gustos y
sabores, van desde
generalistas, profesionales,
para compartir fotos, música,
vídeos…
Aunque solo 29 de ellas
consiguen 1 millon de
visitantes únicos cada día!
www.cajondevida.com/2010/11/recursos-para-tu-blog-pon-tus-enlaces-e.html
http://www.facebooknoticias.com/2011/03/30/infografia-las-29-redes-sociales-mas-visitadas-del-mundo/
5. Las redes sociales son
estructuras sociales
compuestas de grupos
de personas,
conectadas por uno o
varios tipos de
relaciones como:
parentesco
amistad
intereses
comunes
conoci-miento
6. Se usa también como medio para la interacción
entre diferentes:
juegos
en línea
chats
foros
blogs portales
7. Las redes sociales …
son un claro fenómeno social
están revolucionando la forma
de comunicarse y de interactuar
ofrecen muchas posibilidades
valiosas para ámbitos personales y profesionales
http://mas.levante-emv.com/especiales/redes-sociales/redes-sociales/52-pros-y-contras-de-las-redes-sociales.html
8. Principales ventajas de las redes sociales
son:
relación con personas de
diferentes sectores y países,
multiculturalidad
fácil participación e interacción
intercambiar contenidos
mayor ventajas que el correo electrónico
relación horizontal
“life streaming”
http://blog.educastur.es/periodicofleming/2010/01/21/redes-sociales/
9. Posibles inconvenientes:
privacidad en peligro para menores; 43% de los
usuarios tiene configurado su perfil de forma que
todo el mundo puede verlo
«usuarios» que suplantan personalidades
perdida de tiempo sin productividad
engaños por falsas identidades
limitar relación con el exterior
invasión de la privacidad
http://jormanestebancadavid.blogspot.com/2010/10/ventajas-y-desventajas-de-las-redes.html
10. Los comentarios Facebook serán
indexados por Google
Tweetsheet, una infografía
personalizada de tu actividad en
Twitter
Anonymous amenaza de nuevo
con acabar con Facebook
Segundo lugar de
phishing para Facebook
Existe un Tablet que puedes tirar
al suelo sin que le pase nada por
1000 €, y así poder seguir conectado
a las redes sociales
http://www.redessociales.es/
13. 70% de los internautas utilizan Internet
como fuente de información comercial
43% de usuarios en el rango de 18 – 37 años
tienen como principal destino las redes
sociales, es lo primero que ven al levantarse y
lo último al acostarse, desde sus móviles
23 Millones usuarios Internet en España
15 millones de usuarios vía móvil
https://asecgt.wordpress.com/2010/08/12/10-preguntas-que-una-empresa-hace-sobre-redes-sociales/
14. Empiezan a ser consideradas por
grandes anunciantes como
inversión
En el mediano plazo se
producirá un considerable aumento
de la publicidad y de la inversión en
marketing de RS en campañas de
marketing de guerrilla
http://www.marketingdirecto.com/actualidad/publicidad/10-campanas-exitosas-de-marketing-de-guerrilla/
23. Dell tiene un SMCC/SMLCC para
monitorizar los medios sociales
Su intención es escuchar lo que se dice, internalizar el
feedback y tener a sus empleados en contacto directo con los
clientes
Marcel Lebrun, CEO de Radian6 dice: «no se trata que sea cool,
la meta es que todos los empleados de la empresa tengan una -
radio social. en la que puedan escuchar lo dice el cliente»
http://www.ivanfanego.com/2010/12/dell-abre-su-social-media-command-center/
24. Community Manager o gestor de
comunidades:
- Generan contenidos sobre la
marca
- Permiten dialogar con los
consumidores o consumidores
potenciales
- Generan vínculos emocionales
entre el cliente y la marca
- Pueden dar a conocer una marca
a través de una campaña viral
- Generan lugares virtuales de
reunión de potenciales clientes
- Proporcionan redes de
proveedores o colaboradores
- Analiza estos datos y
proporcionar información muy
útil a la empresa que
representa.
25. Social & Customer Intelligence; capacidad de analizar la
información que de una organización se produce en “la red” por
parte de clientes, medios de comunicación, lideres de opinión,
expertos y otros agentes relevantes….
El objetivo es poder entender los aspectos de posicionamiento,
segmentación, relevancia de categorías, tendencias de mercado,
efectividad de campañas propias y ajenas, etc…
Entonces interrelacionar todo ello con las palancas de gestión de
dicha organización, mejorando el proceso de toma de decisiones
26. Un enfoque propuesto, sería basado en poder
identificar los «Productos» que serán objeto de
análisis y los «Conceptos» mediante los cuales
queremos evaluar los pre-lanzamientos así como la
experiencia de usuario
http://www.hcltech.com/travel-and-hospitality/social-intelligence-solutions/
27.
28. Resultados de la empresa
Indicadores mercado
Sentimientos
Comentarios
29. SDG es una firma global de consultoría de dirección, focalizada en el soporte a los procesos
de toma de decisiones y en la mejora del gobierno organizativo
strategy decision governance
Aproximación al Social
• Nuestro enfoque en la escucha de las redes sociales se basa en la simbiosis de las tecnologías Business
Intelligence tradicional con las nuevas tendencias y productos que trabajan en el mundo de las redes
sociales. Dicha solución tendrá como objetivo crear una base de datos con la información de los clientes
en la redes sociales que deberá previamente ser filtrada y procesada:
30. La gestión y el análisis de la información de los
clientes en las redes sociales utilizándolo para la
definición, desarrollo y corrección de actividades de
marketing:
39. • Facebook tiene más de 800 millones usuarios activos
• Cerca de 350 millones de éstos accedan a través de
dispositivos móviles, siendo el doble de activos que los
usuarios no-móviles
• Un usuario promedio tiene 130 amigos
• 8 solicitudes de nuevos amigos cada mes
• Un usuario promedio tiene 80 páginas de la
comunidad, grupos y eventos
• 75% de los usuarios viven fuera del EE.UU.
http://mashable.com/2011/10/21/facebook-infographic/
40. • Más del 50% de usuarios activos entran a Facebook
• Cerca del 12% actualiza su estatus
• Hay más de 2 billones de «LIKE» y comentarios
• Se interactúa con mas de 900 millones de objetos (páginas,
grupos, eventos y páginas de la comunidad)
• Se suben cerca de 250 millones de fotos
• Hay 20 millones de nuevos FANS
• Se crean alrededor de 120 000 eventos
• Cada mes, más de 500 millones de personas utilizan
una aplicación en Facebook o en la plataforma
Facebook como experiencia de otros sitios web
• Más de 7 millones de aplicaciones y sitios web
están integrados con Facebook
• 40% de los usuarios siguen a una marca (Fans)
• 51% de los Fans de una marca, compraran algo
http://mashable.com/2011/10/21/facebook-infographic/
sobre esa marca
42. ...de los estadounidenses piensan que es una irresponsabilidad
dar de alta como amigo a tu jefe
…de las mujeres son
acosadas a asediadas
por sus amigos
… de las personas
dicen que miran
frecuentemente el
perfil de su ex’s … de los usuarios de
Facebook usan malas
palabras en sus perfiles
… de los Links sobre el sexo
más frecuentes que el
promedio
http://jolaus.com/facebook-by-the-numbers
43. «Las grandes empresas, en una gran
mayoría solo usan Facebook para
“estar ahí y coleccionar fans”
…sin embargo nos encontramos con
un cambio claro en el mercado»
44. Herramienta para establecer
contactos profesionales y
encontrar oportunidades
laborales
Empresas crean grupos privados, que funcionan
como una especie de Intranet, para compartir
información corporativa
La empresa estadounidense Serena Software impulsó
los “viernes de Facebook”, donde permite a sus
trabajadores dedicar una hora a la semana para
actualizar sus perfiles, colaborar con colegas y
establecer nuevos contactos
http://mas.levante-emv.com/especiales/redes-sociales/redes-sociales/52-pros-y-contras-de-las-redes-sociales.html
45.
46.
47. Las relaciones exitosas se basan en la comunicación, la comprensión, y
el conocimiento mutuo
58. Las empresas contratan personal, a la vez que incrementan el gasto y mejoran la
planificación de sus esfuerzos en redes sociales
Hay una necesidad de realizar inversiones en todo el espectro de las redes sociales. Booz &
Co. y el estudio de Buddy Media señalaron que marketing digital serán las punteras
67% de los encuestados destinaron menos del 5% del total del gasto a las redes sociales
La inversión en marketing digital será entre 5% y el 10%
27% predicen que será del 10% al 20%
28% cree las redes sociales supondrán más del 20% de su inversión en marketing digital
57% invierte en la contratación de empleados a tiempo completo
48% destacó los servicios prestados por los socios
39% dijo que destinaba el presupuesto a la creación de más contenido
38% mencionó la compra de medios de comunicación
65% señala tiene planes para mejorar sus políticas en las redes sociales
63% quiere integrar de las redes sociales en los planes de marketing global
59% quiere monitorizar las redes sociales y la capacidad de respuesta rápida
56% admite estudian como utilizar lo que recogen de los consumidores en la red
47% va a planificar como utilizar indicadores claves de rendimiento y cuadros de mando
41% dijo que no está planificando construir nuevas plataformas para sus contenidos
15% les preocupa esta cuestión por ahora, aunque el 44% dice que se ocupará pronto.
(verano de 2011, encuesta para Fortune 100 entre los gerentes de compañías "campaña de
Capacidades: Social Media y Marketing«)
Http://www.puromarketing.com/53/11128/grandes-marcas-anunciantes-pretender-invertir-medios-redes-sociales.html
59. ¿Por qué debería mi empresa usar las Redes
Sociales, y si sí, cómo lo debería hacer?
¿Puedo llegar con publicidad a más
personas, sin usar redes sociales o
internet?
¿Para qué puede usar mi empresa las redes
sociales?
¿Cuáles son los pasos para iniciar una
estrategia en Redes Sociales?
¿Cuáles son los pasos para implementar una
estrategia en Redes Sociales?
«Las redes sociales como espacio de intercambio de información y generación de relaciones cobran cada vez mayor relevancia, y sin duda se convertirán en ámbitos donde podremos interactuar con nuestros pares para la socialización y producción de conocimiento genuino» extraído de educ.ar
Principales ventajas de las redes sociales son:
atractivo en la fácil participación e interacción
la relación pasa de ser vertical a horizontal
“life streaming”, cualquiera puede convertirse en emisor e incrustar todo tipo de contenidos, tu vida en la red social
ayuda a contactar con gente a la que en la vida cotidiana no se podría acceder
permiten establecer relación con personas de diferentes sectores y países, multiculturalidad
puede intercambiar contenidos tanto en el ámbito escolar como en el profesional
ofrecen un numero mayor de ventajas que el correo electrónico
Posibles inconvenientes:
la invasión de la privacidad
engaños por falsas identidades
perdida de tiempo sin productividad
puede llegar a limitar tu relación con el exterior
según informe de la Agencia Española de Protección de Datos, el 43% de los usuarios tiene configurado su perfil de forma que todo el mundo puede verlo; privacidad en peligro, especialmente para menores.
enfrentarse los usuarios en las redes sociales es relativo a la suplantación de personalidad. «La Agencia Española de Protección de Datos ha recibido recientemente la primera denuncia de un ciudadano por la suplantación de personalidad en una red social.»
Sandberg: Facebook Chief Operaring Officer :Google is fundamentally about, you know, algorithms and machine burning....And that — and that has been very important and continues to be very important. They’re doing a great job. We start from a totally different place. We start from an individual. Who are you? You know, what do you want to do? What do you want to share?....
Zuckerberg: I mean, if Apple or Google want to build a product, they typically go build it. Whereas if Facebook wants to make it so that, you know, we want to help rethink the way that people listen to music or watch movies. What do we do? We build a platform on top of which people connect, and we enable all these different companies, dozens of companies to plug in...It’s a really different approach than what all these other companies have.
Oracle is thinking about buying WebOS.
Panasonic is expanding its Toughbook line to include tablets.
Google's first full-time lobbyist is leaving after 6 years with the company. Bill Weihl, the leader of Google's clean energy team, is also leaving.
Zynga won't IPO until after Thanksgiving.
HTC's next smartphone leaked -- it has a quad-core processor.
The latest rumors indicate that the next Xbox will be smaller, cheaper, and based on Windows 9.
Barnes & Noble unveiled its new Nook Color tablet. Check out these pictures of it.
YouTube and Disney have announced a content partnership.
http://www.allfacebook.com/facebook-privacy-google-2011-11
Phishing es un término informático que denomina un tipo de delito encuadrado dentro del ámbito de las estafas cibernéticas, y que se comete mediante el uso de un tipo de ingeniería social caracterizado por intentar adquirir información confidencial de forma fraudulenta (como puede ser una contraseña o información detallada sobre tarjetas de crédito u otra información bancaria). El estafador, conocido como phisher, se hace pasar por una persona o empresa de confianza en una aparente comunicación oficial electrónica, por lo común un correo electrónico, o algún sistema de mensajería instantánea1 o incluso utilizando también llamadas telefónicas.2
Dado el creciente número de denuncias de incidentes relacionados con el phishing, se requieren métodos adicionales de protección. Se han realizado intentos con leyes que castigan la práctica y campañas para prevenir a los usuarios con la aplicación de medidas técnicas a los programas.
ej. aplicaciones basadas en concursos que les darán sorpresas a base de premios y productos para probar gratis; campañas de comunicación orientadas a mejorar la experiencia del usuario
La editorial Planeta ha puesto en marcha un par de interesantes iniciativas relacionadas con el mundo de los libros en Twitter.
Por un lado ha creado un canal temático transversal, @LibrosDeEmpresa, que agrupa los sellos de este grupo editorial dedicados a la edición de libros de empresa (Deusto, Gestión2000, Alienta, etc.). Los lectores de libros de empresa podrán descubrir en un mismo lugar todas las novedades que lanza este grupo editorial sobre marketing, comunicación, finanzas, management, liderazgo, estrategia, etc.
Por otro lado, el equipo de @LibrosDeEmpresa ha lanzado un servicio online que permite a los lectores obtener recomendaciones de lectura. Según leemos en el blog de Planeta de libros, el método es el siguiente. Basta con escribir un tuit con el hashtag #recomiendamelibro y, a continuación, añadir la palabra clave en la que se está interesado. Entonces el usuario recibirá una respuesta con la recomendación de un libro que trate o tenga relación con la palabra clave requerida.
Hace unos días conocimos a través de @PolNavarro (director de innovación y canales del Banco de Sabadell) la nueva utilización que el Banco de Sabadell está realizando de Twitter. Anteriormente la cuenta corporativa del banco @bancosabadell se dedicaba únicamente a enviar notas de prensa, pero desde hace unos días se ha convertido en un canal de atención al cliente, uno más a añadir a los tradicionales teléfono, correo electrónico u oficina.
De esta forma el banco ha decidido cambiar el uso que hacía de su cuenta en Twitter, pasando de ser un canal de noticias unidireccional, a ser un canal bidireccional donde poder realizar las consultas que se deseen, permitiendo gestionar activamente la relación con el cliente, con el que logra interactuar de una forma rápida y personalizada.
El horario de atención a través de Twitter es de 8h a 17h, y sus gestores tienen nombre y apellidos (Jordi Fernández y Carlos de la Torre), lo que dota al servicio de cierta proximidad, siendo firmados los mensajes por ellos mismos como ^JF o ^CT.
Para los que quieran estar al día de las noticias del Banco de Sabadell y de otras noticias del sector financiero, el banco ha habilitado @BSpress, donde regularmente emite comunicados de prensa y noticias del Banco así como otras noticias del sector.
Felicitar al banco por esta buena iniciativa a unir al recién estrenado blog corporativo del Banco de Sabadell, así como a su también recién lanzado portal para teléfonos móviles.
Caso aparte y que merece ser comentado más detenidamente en otro post, es BS Idea, un portal colaborativo para los trabajadores del Banco que tiene como objetivo facilitar la recepción y el tratamiento de todas las ideas, propuestas de mejora y nuevas iniciativas que puedan generarse. En pocas palabras, la utilización de la tecnología para lograr la comunicación con los propios empleados con el objetivo de mejorar e innovar.
Más información en http://twitter.com/gurusblogTambién puedes unirte a nuestra red social en Facebook y a nuestra red profesional en Linkedin
La editorial Planeta ha puesto en marcha un par de interesantes iniciativas relacionadas con el mundo de los libros en Twitter.
Por un lado ha creado un canal temático transversal, @LibrosDeEmpresa, que agrupa los sellos de este grupo editorial dedicados a la edición de libros de empresa (Deusto, Gestión2000, Alienta, etc.). Los lectores de libros de empresa podrán descubrir en un mismo lugar todas las novedades que lanza este grupo editorial sobre marketing, comunicación, finanzas, management, liderazgo, estrategia, etc.
Por otro lado, el equipo de @LibrosDeEmpresa ha lanzado un servicio online que permite a los lectores obtener recomendaciones de lectura. Según leemos en el blog de Planeta de libros, el método es el siguiente. Basta con escribir un tuit con el hashtag #recomiendamelibro y, a continuación, añadir la palabra clave en la que se está interesado. Entonces el usuario recibirá una respuesta con la recomendación de un libro que trate o tenga relación con la palabra clave requerida.
La editorial Planeta ha puesto en marcha un par de interesantes iniciativas relacionadas con el mundo de los libros en Twitter.
Por un lado ha creado un canal temático transversal, @LibrosDeEmpresa, que agrupa los sellos de este grupo editorial dedicados a la edición de libros de empresa (Deusto, Gestión2000, Alienta, etc.). Los lectores de libros de empresa podrán descubrir en un mismo lugar todas las novedades que lanza este grupo editorial sobre marketing, comunicación, finanzas, management, liderazgo, estrategia, etc.
Por otro lado, el equipo de @LibrosDeEmpresa ha lanzado un servicio online que permite a los lectores obtener recomendaciones de lectura. Según leemos en el blog de Planeta de libros, el método es el siguiente. Basta con escribir un tuit con el hashtag #recomiendamelibro y, a continuación, añadir la palabra clave en la que se está interesado. Entonces el usuario recibirá una respuesta con la recomendación de un libro que trate o tenga relación con la palabra clave requerida.
Infojobs en Facebook
Escrito por Jairo el 11 de noviembre de 2009
0
Infojobs.net, una de las páginas de empleo más consultadas por miles de personas se ha centrado en Facebook para llegar más fácil a sus usuarios.
Se trata de http://www.facebook.com/InfoJobs, donde se podrá intercambiar opiniones, plantear dudas, sugerencias e incluso darse de alta en un sistema de alertas para recibir notificaciones de ofertas de empleo directamente en su perfil, de manera no visible para sus contactos.
En su muro dentro de Facebook, InfoJobs.net publicará diariamente noticias propias y del sector, datos actualizados de puestos de trabajo ofertados y promociones de productos.
Los usuarios de esta red social que se hagan ‘fans’ de la página también podrán estar al día de todas las actividades, congresos o charlas que lleve a cabo Infojobs o en los que participe.
Una araña web (o araña de la web) es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots (el tipo más usado de éstos).
Las arañas web comienzan visitando una lista de URLs, identifica los hiperenlaces en dichas páginas y los añade a la lista de URLs a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente.
Entre las tareas más comunes de las arañas de la web tenemos:
Crear el índice de una máquina de búsqueda.
Analizar los enlaces de un sitio para buscar links rotos.
Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.
Screen scraping es el nombre en inglés de una técnica de programación que consiste en tomar una presentación de una información (normalmente texto, aunque puede incluir información gráfica) para, mediante ingeniería inversa, extraer los datos que dieron lugar a esa presentación. Por ejemplo:
Extraer de la página web de un diario el tiempo meteorológico previsto.
Extraer los datos originales a partir de la imagen de una gráfica elaborada.
Hacer una consulta automática a la página de gestión de nuestro banco para verificar si el saldo es inferior a un umbral.
Extraer los datos de un informe en PDF para volcarlos en una hoja de cálculo.
En general, hay que destacar que los sistemas de los que se extrae la información no están diseñados para extraer dicha información (en algunos casos, es al contrario, como en los sistemas de captcha).
La traducción aproximada de screen scraping es raspado de pantalla.
In computer science and linguistics, parsing, or, more formally, syntactic analysis, is the process of analyzing a text, made of a sequence of tokens (for example, words), to determine its grammatical structure with respect to a given (more or less) formal grammar. Parsing can also be used as a linguistic term, for instance when discussing how phrases are divided up in garden path sentences.
Parsing is also an earlier term for the diagramming of sentences of natural languages, and is still used for the diagramming of inflected languages, such as the Romance languages or Latin. The term parsing comes from Latin pars (ōrātiōnis), meaning part (of speech).[1][2]
Parsing is a common term used in psycholinguistics when describing language comprehension. In this context, parsing refers to the way that human beings, rather than computers, analyze a sentence or phrase (in spoken language or text) "in terms of grammatical constituents, identifying the parts of speech, syntactic relations, etc." [3] This term is especially common when discussing what linguistic cues help speakers to parse garden-path sentences.
Web scraping (also called Web harvesting or Web data extraction) is a computer software technique of extracting information from websites. Usually, such software programs simulate human exploration of the World Wide Web by either implementing low-level Hypertext Transfer Protocol (HTTP), or embedding certain full-fledged Web browsers, such as Internet Explorer or Mozilla Firefox. Web scraping is closely related to Web indexing, which indexes information on the Web using a bot and is a universal technique adopted by most search engines. In contrast, Web scraping focuses more on the transformation of unstructured data on the Web, typically in HTML format, into structured data that can be stored and analyzed in a central local database or spreadsheet. Web scraping is also related to Web automation, which simulates human Web browsing using computer software. Uses of Web scraping include online price comparison, weather data monitoring, website change detection, Web research, Web mashup and Web data integration.
A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion. Other terms for Web crawlers are ants, automatic indexers, bots,[1] Web spiders,[2] Web robots,[2] or—especially in the FOAF community—Web scutters.[3]
This process is called Web crawling or spidering. Many sites, in particular search engines, use spidering as a means of providing up-to-date data. Web crawlers are mainly used to create a copy of all the visited pages for later processing by a search engine that will index the downloaded pages to provide fast searches. Crawlers can also be used for automating maintenance tasks on a Web site, such as checking links or validating HTML code. Also, crawlers can be used to gather specific types of information from Web pages,such as harvesting e-mail addresses (usually for sending spam).
The large size and the dynamic nature of the Web highlight the need
for continuous support and updating of Web based information retrieval systems.
Crawlers facilitate the process by following the hyperlinks in Web pages to automat-
ically download a partial snapshot of the Web. While some systems rely on crawlers
that exhaustively crawl the Web, others incorporate \focus" within their crawlers to
harvest application or topic speci¯c collections. We discuss the basic issues related
with developing a crawling infrastructure. This is followed by a review of several
topical crawling algorithms, and evaluation metrics that may be used to judge their
performance. While many innovative applications of Web crawling are still being
invented, we take a brief look at some developed in the past.
A Web crawler is one type of bot, or software agent. In general, it starts with a list of URLs to visit, called the seeds. As the crawler visits these URLs, it identifies all the hyperlinks in the page and adds them to the list of URLs to visit, called the crawl frontier. URLs from the frontier are recursively visited according to a set of policies.
The large volume implies that the crawler can only download a fraction of the Web pages within a given time, so it needs to prioritize its downloads. The high rate of change implies that the pages might have already been updated or even deleted.
The number of possible crawlable URLs being generated by server-side software has also made it difficult for web crawlers to avoid retrieving duplicate content. Endless combinations of HTTP GET (URL-based) parameters exist, of which only a small selection will actually return unique content. For example, a simple online photo gallery may offer three options to users, as specified through HTTP GET parameters in the URL. If there exist four ways to sort images, three choices of thumbnail size, two file formats, and an option to disable user-provided content, then the same set of content can be accessed with 48 different URLs, all of which may be linked on the site. This mathematical combination creates a problem for crawlers, as they must sort through endless combinations of relatively minor scripted changes in order to retrieve unique content.
As Edwards et al. noted, "Given that the bandwidth for conducting crawls is neither infinite nor free, it is becoming essential to crawl the Web in not only a scalable, but efficient way, if some reasonable measure of quality or freshness is to be maintained."[4] A crawler must carefully choose at each step which pages to visit next.
The behavior of a Web crawler is the outcome of a combination of policies:[5]
Consumer Generated Media - Separating Hype from Reality content ...
Spinback is a sharing commerce platform that has sharing plugins and analytics tools that helps online retailers quickly launch social features and measure ROI