¿Cómo trabaja un buscador de internet en Mandarín?

412 visualizaciones

Publicado el

Articulo científico que involucra arboles Binarios

Publicado en: Educación
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
412
En SlideShare
0
De insertados
0
Número de insertados
2
Acciones
Compartido
0
Descargas
2
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

¿Cómo trabaja un buscador de internet en Mandarín?

  1. 1. ¿Como trabaja un buscador de internet en mandarín?BÚSQUEDA EN INTERNET POR EL MÉTODO JERÁRQUICODE SEGMENTACIÓN AUTOMÁTICA DE PALABRAS CHINAS (ÁRBOL BINARIO COMO UN DICCIONARIO) Universidad de Cartagena Jorge R. Cortés - Luis A. Lenes Programa de Ingeniería de Sistemas Estructura de Datos
  2. 2. Con el desarrollo continuo y creciente popularidad deInternet, la cantidad de información en línea estácrecimiento en forma explosiva. ¿Cómo encontrar lainformación que se necesita correcta y rápidamente?El motor de búsqueda de Internet crece rápidamente, asícomo el libre desarrollo y la distribución de lainformación.
  3. 3. A partir de 1991 el motor de búsqueda chino, el principiogeneral y la tecnología de búsqueda de información eninternet se basan, en un conjunto de análisis de la tecnologíade segmentación automática de palabras chinas.El motor de búsqueda de información utiliza el índice delas palabras, a través del conjunto algoritmos de altavelocidad, y recuperar la información delos usuarios requieren. Previamente realiza un proceso deprueba de lectura en donde se implementa algoritmosbásicos, se trata de eliminar ambigüedades, se identifica loscaracteres, y se arrojan lo resultados preliminares.
  4. 4. Para darse este proceso se necesita colectar de maneraautomática la información referente a los sitios web,para disponerla en la búsqueda, para lo cual se creanprogramas, denominados «spider», con una estrategiaque simulan la búsqueda de información para obtener sureferencia en internet y con estas referencias se crea undiccionario.
  5. 5. La clave tecnológica de la segmentación de palabras chinasEn la segmentación de palabras chinas, hay dos cuestionescruciales: la identificación y eliminación de frases ambiguas y elreconocimiento palabras desconocidas.Para la identificación y omisión de frases ambiguas se realiza unproceso de avance y retroceso a lo largo de la frase para laverificación de las ambigüedades. Y así poder hacer la búsquedamás eficaz. En cuanto al reconocimiento de palabrasdesconocidas, el sistema al encontrarla trata de omitirlas yreemplazarlas para lleva acabo el proceso.
  6. 6. La realización de la segmentación automática de palabras chinasEl algoritmo de segmentación es la base de la segmentaciónautomática de palabras chinas. Actualmente, la maquinariaextensamente usada método sub-léxico tiene las ventajas delalgoritmo simple y fácil para poner en práctica. Entre ellos, el másrepresentativo es el método de separación máxima, este métodoconsistes en dividir una palabra en el máximo posible de caracteres,para así poderla comparar en el máximo de referencia y obtener unmayor numero de resultados precisos.
  7. 7. El método de separación máxima es extensamenteusado en la ingeniería práctica con el principio de laPalabra más larga primero”. El diccionario desegmentación creado a partir de las referenciaobtenidas por el método “spider” es la llave de lamaquinaria método sub-léxico basado en laseparación.
  8. 8. El Diseño del diccionario de segmentaciónCuando la sociedad se desarrolla, las nuevas palabrasaumentan constantemente. Es imposible construir undiccionario de segmentación completo. Entoncesprincipalmente hablamos sobre la estructura deorganización del diccionario de segmentación, quecomienza con el mejoramiento de la eficacia de labúsqueda en el diccionario, luego mejorar lainterpretación del sistema de segmentación de palabra,en donde el diseño del diccionario y la frase entrada(caracteres a buscar) sean lo más adecuados.
  9. 9. Esto incluye dos contenido: uno es el contenido de diccionario,es decir que es una colección de las palabras, que sea losuficientemente grande para tener una alta cobertura, y ser degran exactitud en la segmentación. El otro es la estructura deldiccionario, que tiene gran precisión, para manejar una buenavelocidad en el sistema de segmentación de palabra. Cuandoprocesamiento es muy largo y difuso, el sistema tiene quepreguntar el diccionario de segmentación con frecuencia.¿Como usar con eficacia el diccionario de segmentación para unabúsqueda rápida? tendrá un impacto directo en la interpretacióntotal del sistema. Por lo tanto, propone el diccionario „ModeloJerárquico basado en Árbol de Binario „
  10. 10. Hay tres partes del diseño de estructura organizativo del diccionario(árbol de binario) basado en lo siguiente de modelo jerárquico:1) La primera palabra separa los temas en la mesa.En primer lugar, establezca una mesa de separación del léxico, a partirde la primera palabra de la frase, es decir se identifica un tema enconcreto a partir de la primera palabra. Si es solo una palabra se tomaprimer carácter en palabra, y se analiza marca a marca.La búsqueda en el diccionario binario se toma raíz a puntas en el árbol(diccionario binario) con la primera palabra.
  11. 11. 2) Diccionario de árbol binario.La información de nodo del árbol de binario de diccionario incluye:Los caracteres corrientes son nodos: palabras.Se toma una frase hacia el siguiente nodo correspondiente.Esfera de Hijo: la dirección de la búsqueda es hacia la izquierda, si elsegmento aun hace parte de la palabra.Esfera de Hermano: la dirección de la búsqueda es hacia la derecha, siel segmento corresponde a otra palabra.Se va evaluando carácter correspondiente la palabra desde la raíz delárbol hacia las puntas (hojas)
  12. 12. 3) Palabras InformaciónLa cuerda de palabras: una secuencia de caracteres.El peso de palabras: el número de caracteres quecomponen una secuencia.Este tiene una exactitud de 80% en cuanto alasegmentación, y por tal razón tiene un margen de errorbastante amplio, la segmentación soporta un máximode 50.000 caracteres a partir de una frase con sentidocompleto.
  13. 13. Conclusión:1) La investigación del Algoritmo “de algoritmo de segmentación chino de la exploración máxima positiva basada en la segmentación llena puede tratar con la mayor parte de los campos de ambigüedad, y alcanzar a la demanda de exactitud de tratar la lengua natural.2) La medida que usó el tesauro de texto lleno para generar el tesaurogeográfico, y depende del tesauro geográfico para corregir el textolleno puede completar el trabajo de mantenimiento bien, que tambiénhasta cierto punto mejora la interpretación del sistema.
  14. 14. 3) Establecer un modelo de datos eficaz y el trabajo enel algoritmo de pregunta excelente. Estas accioneshacen el algoritmo de búsqueda del sistema muy ymucho tiempo de la búsqueda es relativamente bajo.Dependiendo el usuario de debe desplegar una serie decontenidos, a lo largo de un periodo se determina unperfil de búsqueda, para hacer esta más eficiente ymenos iterativa.
  15. 15. Baidu
  16. 16. Gracias por su atención.

×