1. Buscador semántico Bing (Powerset)
Integrantes:
Adrián Arturo Carrascal García - 1150102
Mario Hernando Nieto Serrano - 1150237
Universidad Francisco de Paula Santander
San José de Cúcuta
2013
2. Tabla de contenido
Introducción
Descripción a nivel de usuario
○ Index
○ Búsqueda en la web
○ Búsqueda de imágenes
○ Búsqueda de noticias
○ Más
■ El traductor de Bing
Descripción a nivel de ingeniería
○ Algoritmo de búsqueda
○ Tecnología de búsqueda
○ Arquitectura del buscador
○ Proceso de búsqueda
○ Caracterizar que es semántico. ¿Por qué es semántico?
3. Introducción
La web ha sido un gran avance tecnológico, y ha aportado una gran cantidad de beneficios a la
humanidad desde que se empezó a ver en su primera versión, la Web 1.0, el cual solo se publicaba
contenido, sin ningún tipo de posibilidad de interactuar con ello, donde el webmaster generaba
sitios estáticos y los usuarios consumen dichos sitios para obtener información. Al pasar el año
2000, una nueva tendencia en la web se vió venir, ésta era una Web interactiva y social, donde el
propio usuario puede consumir información y generar información, se le abren las puertas a los
sitios como foros, comunidades, y redes sociales, este concepto se toma como la Web 2.0.
Después de esto, y un poco más reciente se empieza la investigación de una Web más inteligente,
sin abandonar la Web social e interactiva, la 2.0, se avanza a grandes pasos sobre cómo generar
conocimiento y cómo dejarlo a disposición de la humanidad por medio de la Web, ya esto es
conocido como la Web 3.0, y le da espacio a la Web Semántica, jugando allí un papel muy
importante las Ontologías.
Las Ontologías han aparecido para conceptualizar y formalizar la el conocimiento, basándose en
el uso de conceptos, objetos y propiedades; donde los conceptos encierran una cantidad de
objetos con similares características, los objetos usualmente son una instanciación de un
concepto, y las propiedades son el conjunto de relaciones entre objetos. Todo este conjunto de
conocimiento y por medio de razonadores, se pueden dar herramientas potentes en la Web,
herramientas conocidas como Buscadores Semánticos, tal como su definición hace énfasis, y
como su nombre lo indica, su función es buscar, pero a diferencia de un buscador convencional y
ordinario, las búsquedas efectuadas a través de un Buscador Semántico, serán búsquedas
Inteligentes, y semánticamente bien estructuradas, proporcionando información precisa, ya que
sus búsquedas se basan en el conocimiento y no precisa sobre la información ya preestablecida,
información que encontraría una herramienta de búsqueda común.
En Internet se puede encontrar una gran cantidad de este tipo de buscadores, este documento
mostrará información detallada sobre uno de ellos, información a nivel científico, y a nivel de
usuario permitiendo conocer powerset que es una compañía de Microsoft que se dedicó a
desarrollar un buscador que pudiera dar respuestas de las consultas realizadas en lenguaje
natural en 2006 La compañía ha licenciado la tecnología de lenguaje natural de PARC , el antiguo
Xerox Palo Alto Research Center.
4. Después de un tiempo el proyecto terminó fusionándose con el buscador de Microsoft para
mejorarlo y permitir una competencia con su mayor rival Google que hasta ahora sigue siendo el
buscador más utilizado en el mundo.
Si bien Powerset terminó cambiando su razón social y convirtiéndose más en una evolución de
bing el proyecto continúa pero con la diferencia que ahora estará integrado como una
funcionalidad extra de bing.
Descripción a nivel de usuario
● Index
En la página de inicio o la página principal de Bing es muy limpia y clara, se basa en el sentido que
es un buscador y por tal razón consta de solo un campo de texto el cual sirve para introducir el
QUERY, o la sentencia o frase a ser buscada.
5. Bing también dispone de una barra de navegación donde permite hacer hacer búsquedas en la
web en general, hacer busquedas de imagenes, hacer búsquedas de noticias y una opción para
más.
● Búsqueda en la web
Las búsquedas a nivel de usuario son bastante sencillas no presentan autocompletado o
sugerencias que es bastante común en otros buscadores solo presenta una sugerencia según las
búsquedas realizadas anteriormente, una búsqueda cualquiera se vería de la siguiente manera.
una vez se realiza la búsqueda se le presentan los resultados que se encontraron, con un listado
al lado derecho que muestra las posibles búsquedas que pueden haberse sugerido
6. Entre las posibilidades que presenta el navegador para realizar búsquedas mejoradas se
encuentran:
La inclusión de comillas dobles en un texto mostrará sólo resultados que contengan las palabras
escritas en el orden especificado.
7. la propiedad contains busca páginas que tienen enlaces a un fichero con una extensión
concreta.
8. }
También permite utilizar operadores lógicos como serian AND, OR, NOT:
Todos estos términos: usa una operación AND. Pasa por alto la puntuación y las palabras vacías.
Cualquiera de estos términos: usa una operación –O bien –. Ignora la puntuación y las palabras
vacías.
Esta frase exacta: busca la frase exacta, incluyendo la puntuación y las palabras vacías.
Ninguno de estos términos: usa una operación NOT. Esta operación agrupa los términos entre
paréntesis, incluyendo la puntuación y las palabras vacías.
Aparte de todo esto también se permite agregar ciertos parámetros a búsquedas para obtener
búsquedas mejores.
9.
10. ● Búsqueda de imágenes
La búsqueda de imágenes si bien no permite pegar imágenes directamente en el caja de texto
del buscador, si permite realizar las búsquedas acerca de cualquier temática, en una búsqueda
cualquiera se puede obtener.
11. Además de esto también se pueden buscar imágenes con respecto a diferentes parámetros
como son tamaño, color, estilo, diseño, contactos.
12.
13.
14. ● Búsqueda de noticias
La sección de las noticias muestra una interfaz igual a la de la página principal, pero con
diferencia en su funcionalidad, toma el QUERY y en base a ello hace una búsqueda
referentemente a noticias relacionadas.
La siguiente imagen muestra la búsqueda desde la sección especial de noticias relacionadas con
el QUERY.
15. ● Más
En la vista de la opción más del menú principal de bing, es como la imagen anterior, permite
realizar las búsquedas normales tal como: en la web, de imágenes y noticias; con la opción
adicional de un traductor.
16. El traductor de Bing
El traductor de Bing soporta 43 idiomas en los que incluye Español e Inglés. Bing aparte
de los 43 idiomas, permite la opción identificar el idioma desde el cual se desea traducir.
17. Lista de idiomas:
El traductor de Bing también le permite a los desarrolladores utilizar la interfaz HTTP e
integrar la traducción utilizando los métodos GET y POST, siendo esto útil para sitios web
que deseen dar a conocer la información en otros idiomas (o una idea de la información)
a través de la traducción que realiza Bing.
18. Descripción a nivel de ingeniería
● Algoritmo de búsqueda
El algoritmo de Bing consiste en analizar la frecuencia de las palabras de un documento,
manejando en sus búsquedas un puntaje de cada palabra a buscar.
La búsqueda en Bing se inicia a partir de la consulta del usuario, esta consulta será tratada por
medio de un algoritmo que se segmenta en dos grandes partes:
La primera sección del algoritmo consiste en analizar cada documento por frecuencia de palabras,
donde el documento será llamado j en una base de datos D, el documento j procede a ser
analizado para cada palabra w(m, j); cada palabra w se pasa a través de código que reduce la
palabra a su raíz. Lo que básicamente se hace es extraer de la query la raíz de cada palabra e
igualmente lo hace para cada palabra de todos los documentos analizados en la búsqueda
eliminado ciertas palabras como artículos que no agregan valor a la búsqueda, esta eliminación
se realiza con el método word-stop removal, después Bing genera un término de frecuencia
llamado TF, donde TF(i, j) indica cuántas veces un término aparece en un documento j, finalmente
cada término i genera un hash value, el cual corresponde a una tabla de frecuencia de términos,
la tabla de frecuencia de términos detalla la frecuencia de todos los términos del documento.
La segunda sección del algoritmo consiste en calcular el puntaje de cobertura de un documento.
Los puntajes de cobertura tienen en cuenta cuan importante es cada palabra y la cantidad de
veces que se encuentra una palabra en cada documento, un puntaje de cobertura bajo significa
que la palabra no proporciona información relevante para la búsqueda mientras que un puntaje
de cobertura alto significa que la palabra proporciona información relevante para la búsqueda.
19. para finalizar el método de búsqueda, se realiza una comparación de cada una de las páginas
analizadas, realizando una comparación uno a uno de las páginas y estas serán indexadas,
dependiendo del puntaje de cobertura obtenida por cada documento no esta de mas decir para
mejorar los resultados obtenidos serán indexadas primero las páginas con mayor peso.
● Tecnología de búsqueda
El modelo bag-of-words es una representación simplificada usada en el procesamiento de
lenguaje natural y recuperación de la información; en este modelo, un texto es representado
como una colección desordenada de palabras, donde se ignora la gramática en incluso el orden
de la palabra.
Este modelo es muy usado en métodos de clasificación de documentos, donde se desea saber la
frecuencia de ocurrencia de cada palabra se usa como una característica para formar un
clasificador, Bing siempre busca clasificar las palabras w en base a un valor dado dependiendo de
la cantidad de apariciones de está palabra en un documento.
● Arquitectura del buscador
La arquitectura del buscador Bing es la arquitectura frecuentemente usada por los buscadores,
donde utiliza: Un robot, un indexador, un motor de búsqueda, y finalmente una interfaz que
permite la interacción con el usuario final.
● Los robots son programas que tienen las bases de datos de los buscadores con el
fin de navegar por la web y recuperar la información de los documentos.
● Los indexadores se encargan de representar los documentos encontrados por el
robot, de una u otra manera y almacenarlo en la base de datos del buscador,
también es un programa y normalmente va junto al robot.
● Los motores de búsqueda se encargan de analizar las consultas de los usuarios y
buscarlas en el índice de documentos relacionados.
● Finalmente, la interfaz es la capa que el usuario puede ver, y por medio de ella él
interactúa para realizar cada una de las búsquedas que desee hacer.
21. ● Proceso de búsquedas
El proceso de búsqueda será básicamente el mismo utilizado en todo los tipos de buscadores
comunes, inicia cuando el usuario accede al buscador, una vez el usuario digita las palabras o
palabra clave para su respectiva búsqueda, el buscador cuenta con una base de datos donde
mantienen las páginas sobre las cuales se realizará la búsqueda, esta base de datos se debe
mantener incrementando la cantidad de páginas en el sistema, estas páginas que se añaden cada
tanto a la base de datos deben pasar por una especie de filtro que asegura que se tengan
documentos con calidad y la menor cantidad posible.
El buscador cuenta con programas llamados “arañas” que se encargan de evaluar las páginas
registradas e incluyen automáticamente las páginas encontradas, esto genera una gran cantidad
de información que se tiene que evaluar y organizar antes de poder presentarla al usuario, una
vez se realiza el filtro y organización de la información que se obtuvo, se presentan los datos al
usuario.
Para finalizar se presenta mediante algún formato la información al usuario, dando prioridad a
los que han quedado con una calificación mayor en la consulta realizada, al final los datos
obtenidos se mostrarán al usuario como un conjunto de vínculos a páginas que contiene
información acerca de la consulta realizada.
● Caracterizar por qué es semántico. Qué lo hace semántico.
Si bien el procedimiento realizados por el buscador bing podría llegar a considerarse como un
buscador sintáctico, basándose en la definición dada por (Himanen,2007) se supone que un
buscador semántico es “capaz de diferenciar el significado de los términos de la búsqueda,
procesar el contenido, razonarlo, combinarlo y realizar deducciones lógicas atendiendo a las
demandas del usuario ”, se puede notar que el procedimiento que se describió anteriormente
realiza un análisis a nivel más detallado que una simple búsqueda sintáctica, pues el análisis de
la raíz de una palabra permite análisis mucho más allá de lo que se podría obtener con una simple
búsqueda de literales.
22. Además el hecho asignar un valor de relevancia a cada documento donde se encuentre al menos
una palabra de las que han sido solicitadas en la búsqueda, permite que la respuesta sea muy
aproximada a lo que el usuario desea conseguir, teniendo en cuenta esto se puede determinar
que se realiza un procesamiento del contenido, al realizar la comparación e indexación de los
documentos obtenidos teniendo en cuenta un nivel de precedencia que será connotado por los
documentos más relevantes obtenidos se puede considerar que se realiza un razonamiento, y
una combinación de los resultados obtenidos.
Por otra parte como al realizar cada análisis de los términos que componen una query, y realizar
lo mismo con los documentos que analiza para realizar las búsquedas, todo el procedimiento que
se realiza es enfocado a resolver la necesidad que presenta el usuario, después de todos los
argumentos considerados, y basados en la definición propuesta por el filósofo finlandés Himanen
se puede determinar que el motor de búsqueda implementado por bing anteriormente conocido
como powerset, que fue desarrollado por Microsoft se puede considerar a bing como un
buscador semántico, si bien no cumple con todas las características de estos, si lo hace con la
mayoría de estas, entonces perfectamente podría ser definido como un buscador pseudo
semántico, sin temor a equivocaciones.
REFERENCIAS
[1]. Marques Solís, Santiago, La Web Semántica, 1ª edición, 2007 197
[2].Método de búsqueda de Bing, Universidad Tecnológica de Pereira, Disponible en Web:<
http://repositorio.utp.edu.co/dspace/bitstream/11059/2671/1/0057565M843.>
[3].Búsqueda eficaz de información en la web, FACULTAD DE INFORMÁTICA Universidad Nacional de La
Plata, José Ángel Olivas Varela, Disponible en Web:<
http://sedici.unlp.edu.ar/bitstream/handle/10915/18401/OLIVAS.pdf?sequence=1>
[4].Guía sobre la web semántica, W3C, Disponible en Web:
<http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica>
[5].Api Developers, Microsoft, Disponible en Web:< http://www.bing.com/developers/>