SlideShare una empresa de Scribd logo
1 de 17
¿Como trabaja un
buscador de internet en
mandarín?
BÚSQUEDA EN INTERNET POR EL MÉTODO JERÁRQUICO
DE SEGMENTACIÓN AUTOMÁTICA DE PALABRAS CHINAS
(ÁRBOL BINARIO COMO UN DICCIONARIO)
Universidad de Cartagena
Jorge R. Cortés - Luis A. Lenes
Programa de Ingeniería de Sistemas
Estructura de Datos
Con el desarrollo continuo y creciente popularidad de
Internet, la cantidad de información en línea está
crecimiento en forma explosiva. ¿Cómo encontrar la
información que se necesita correcta y rápidamente?
El motor de búsqueda de Internet crece rápidamente, así
como el libre desarrollo y la distribución de la
información.
A partir de 1991 el motor de búsqueda chino, el principio
general y la tecnología de búsqueda de información en
internet se basan, en un conjunto de análisis de la tecnología
de segmentación automática de palabras chinas.
El motor de búsqueda de información utiliza el índice de
las palabras, a través del conjunto algoritmos de alta
velocidad, y recuperar la información de
los usuarios requieren. Previamente realiza un proceso de
prueba de lectura en donde se implementa algoritmos
básicos, se trata de eliminar ambigüedades, se identifica los
caracteres, y se arrojan lo resultados preliminares.
Para darse este proceso se necesita colectar de manera
automática la información referente a los sitios web,
para disponerla en la búsqueda, para lo cual se crean
programas, denominados «spider», con una estrategia
que simulan la búsqueda de información para obtener su
referencia en internet y con estas referencias se crea un
diccionario.
La clave tecnológica de la segmentación de
palabras chinas
En la segmentación de palabras chinas, hay dos cuestiones
cruciales: la identificación y eliminación de frases ambiguas y el
reconocimiento palabras desconocidas.
Para la identificación y omisión de frases ambiguas se realiza un
proceso de avance y retroceso a lo largo de la frase para la
verificación de las ambigüedades. Y así poder hacer la búsqueda
más eficaz. En cuanto al reconocimiento de palabras
desconocidas, el sistema al encontrarla trata de omitirlas y
reemplazarlas para lleva acabo el proceso.
La realización de la segmentación automática de
palabras chinas
El algoritmo de segmentación es la base de la segmentación
automática de palabras chinas. Actualmente, la maquinaria
extensamente usada método sub-léxico tiene las ventajas del
algoritmo simple y fácil para poner en práctica. Entre ellos, el más
representativo es el método de separación máxima, este método
consistes en dividir una palabra en el máximo posible de caracteres,
para así poderla comparar en el máximo de referencia y obtener un
mayor numero de resultados precisos.
El método de separación máxima es extensamente
usado en la ingeniería práctica con el principio de 'la
Palabra más larga primero”. El diccionario de
segmentación creado a partir de las referencia
obtenidas por el método “spider” es la llave de la
maquinaria método sub-léxico basado en la
separación.
El Diseño del diccionario de segmentación
Cuando la sociedad se desarrolla, las nuevas palabras
aumentan constantemente. Es imposible construir un
diccionario de segmentación completo. Entonces
principalmente hablamos sobre la estructura de
organización del diccionario de segmentación, que
comienza con el mejoramiento de la eficacia de la
búsqueda en el diccionario, luego mejorar la
interpretación del sistema de segmentación de palabra,
en donde el diseño del diccionario y la frase entrada
(caracteres a buscar) sean lo más adecuados.
Esto incluye dos contenido: uno es el contenido de diccionario,
es decir que es una colección de las palabras, que sea lo
suficientemente grande para tener una alta cobertura, y ser de
gran exactitud en la segmentación. El otro es la estructura del
diccionario, que tiene gran precisión, para manejar una buena
velocidad en el sistema de segmentación de palabra. Cuando
procesamiento es muy largo y difuso, el sistema tiene que
preguntar el diccionario de segmentación con frecuencia.
¿Como usar con eficacia el diccionario de segmentación para una
búsqueda rápida? tendrá un impacto directo en la interpretación
total del sistema. Por lo tanto, propone el diccionario ‘Modelo
Jerárquico basado en Árbol de Binario ‘
Hay tres partes del diseño de estructura organizativo del diccionario
(árbol de binario) basado en lo siguiente de modelo jerárquico:
1) La primera palabra separa los temas en la mesa.
En primer lugar, establezca una mesa de separación del léxico, a partir
de la primera palabra de la frase, es decir se identifica un tema en
concreto a partir de la primera palabra. Si es solo una palabra se toma
primer carácter en palabra, y se analiza marca a marca.
La búsqueda en el diccionario binario se toma raíz a puntas en el árbol
(diccionario binario) con la primera palabra.
2) Diccionario de árbol binario.
La información de nodo del árbol de binario de diccionario incluye:
Los caracteres corrientes son nodos: palabras.
Se toma una frase hacia el siguiente nodo correspondiente.
Esfera de Hijo: la dirección de la búsqueda es hacia la izquierda, si el
segmento aun hace parte de la palabra.
Esfera de Hermano: la dirección de la búsqueda es hacia la derecha, si
el segmento corresponde a otra palabra.
Se va evaluando carácter correspondiente la palabra desde la raíz del
árbol hacia las puntas (hojas)
3) Palabras Información
La cuerda de palabras: una secuencia de caracteres.
El peso de palabras: el número de caracteres que
componen una secuencia.
Este tiene una exactitud de 80% en cuanto ala
segmentación, y por tal razón tiene un margen de error
bastante amplio, la segmentación soporta un máximo
de 50.000 caracteres a partir de una frase con sentido
completo.
Conclusión:
1) La investigación del Algoritmo “de algoritmo de segmentación
chino de la exploración máxima positiva basada en la segmentación
llena' puede tratar con la mayor parte de los campos de
ambigüedad, y alcanzar a la demanda de exactitud de tratar la
lengua natural.
2) La medida que usó el tesauro de texto lleno para generar el tesauro
geográfico, y depende del tesauro geográfico para corregir el texto
lleno puede completar el trabajo de mantenimiento bien, que también
hasta cierto punto mejora la interpretación del sistema.
3) Establecer un modelo de datos eficaz y el trabajo en
el algoritmo de pregunta excelente. Estas acciones
hacen el algoritmo de búsqueda del sistema muy y
mucho tiempo de la búsqueda es relativamente bajo.
Dependiendo el usuario de debe desplegar una serie de
contenidos, a lo largo de un periodo se determina un
perfil de búsqueda, para hacer esta más eficiente y
menos iterativa.
Baidu
Gracias por su atención.

Más contenido relacionado

Destacado

Retención en la fuente
Retención en la fuente Retención en la fuente
Retención en la fuente Juan David
 
Programa del espectáculo en el aula hospitalaria de Torrecárdenas
Programa del espectáculo en el aula hospitalaria de TorrecárdenasPrograma del espectáculo en el aula hospitalaria de Torrecárdenas
Programa del espectáculo en el aula hospitalaria de Torrecárdenasblogceipeuropa2c
 
Yaren daniel rivera herrera
Yaren daniel rivera herreraYaren daniel rivera herrera
Yaren daniel rivera herreracamiloyaren
 
Webinar votes
Webinar votesWebinar votes
Webinar votesWisembly
 
Taller practico creacion y herramientas de gestión rrss sesión 2
Taller practico creacion y herramientas de gestión rrss sesión 2Taller practico creacion y herramientas de gestión rrss sesión 2
Taller practico creacion y herramientas de gestión rrss sesión 2Gonzalo Garre Rodas
 
Le grand ensemble
Le grand ensembleLe grand ensemble
Le grand ensemblefglowacki
 
Sesión de clase usando NTICS
Sesión de clase usando NTICSSesión de clase usando NTICS
Sesión de clase usando NTICSNadia HCh
 
100 ejemplos de amor y odio
100 ejemplos de amor y odio100 ejemplos de amor y odio
100 ejemplos de amor y odioLuis Suarez
 
Douleur douleur et methodologie d'essais cliniques
Douleur douleur et methodologie d'essais cliniquesDouleur douleur et methodologie d'essais cliniques
Douleur douleur et methodologie d'essais cliniquesdrmouheb
 

Destacado (20)

Webquest
WebquestWebquest
Webquest
 
Retención en la fuente
Retención en la fuente Retención en la fuente
Retención en la fuente
 
Programa del espectáculo en el aula hospitalaria de Torrecárdenas
Programa del espectáculo en el aula hospitalaria de TorrecárdenasPrograma del espectáculo en el aula hospitalaria de Torrecárdenas
Programa del espectáculo en el aula hospitalaria de Torrecárdenas
 
Yaren daniel rivera herrera
Yaren daniel rivera herreraYaren daniel rivera herrera
Yaren daniel rivera herrera
 
Webinar votes
Webinar votesWebinar votes
Webinar votes
 
El ensayo
El ensayoEl ensayo
El ensayo
 
Taller practico creacion y herramientas de gestión rrss sesión 2
Taller practico creacion y herramientas de gestión rrss sesión 2Taller practico creacion y herramientas de gestión rrss sesión 2
Taller practico creacion y herramientas de gestión rrss sesión 2
 
1. plan assemblage s6
1. plan assemblage s61. plan assemblage s6
1. plan assemblage s6
 
Compact CNG - Présentation du produit
Compact CNG - Présentation du produitCompact CNG - Présentation du produit
Compact CNG - Présentation du produit
 
Le grand ensemble
Le grand ensembleLe grand ensemble
Le grand ensemble
 
Slide
SlideSlide
Slide
 
prueba
pruebaprueba
prueba
 
Trabaajo perf.
Trabaajo perf.Trabaajo perf.
Trabaajo perf.
 
Test
TestTest
Test
 
Tra met tec2
Tra met tec2Tra met tec2
Tra met tec2
 
Sesión de clase usando NTICS
Sesión de clase usando NTICSSesión de clase usando NTICS
Sesión de clase usando NTICS
 
100 ejemplos de amor y odio
100 ejemplos de amor y odio100 ejemplos de amor y odio
100 ejemplos de amor y odio
 
Bosquejo Antillas
Bosquejo AntillasBosquejo Antillas
Bosquejo Antillas
 
Douleur douleur et methodologie d'essais cliniques
Douleur douleur et methodologie d'essais cliniquesDouleur douleur et methodologie d'essais cliniques
Douleur douleur et methodologie d'essais cliniques
 
Cervantes
CervantesCervantes
Cervantes
 

Similar a ¿Cómo trabaja un buscador de internet en Mandarín?

Similar a ¿Cómo trabaja un buscador de internet en Mandarín? (20)

Sistemas Basados en el Conocimiento
Sistemas Basados en el ConocimientoSistemas Basados en el Conocimiento
Sistemas Basados en el Conocimiento
 
Buscador
BuscadorBuscador
Buscador
 
Buscadores semanticos
Buscadores semanticosBuscadores semanticos
Buscadores semanticos
 
Presentación1
Presentación1Presentación1
Presentación1
 
Presentación1
Presentación1Presentación1
Presentación1
 
Presentación1
Presentación1Presentación1
Presentación1
 
Presentación1
Presentación1Presentación1
Presentación1
 
Buscadores semanticos Parte 1
Buscadores semanticos Parte 1Buscadores semanticos Parte 1
Buscadores semanticos Parte 1
 
Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)
 
Metodos de busquedad
Metodos de busquedadMetodos de busquedad
Metodos de busquedad
 
Metodos de busquedad
Metodos de busquedadMetodos de busquedad
Metodos de busquedad
 
Diapositivas dhtic Juve GH
Diapositivas dhtic Juve GHDiapositivas dhtic Juve GH
Diapositivas dhtic Juve GH
 
CLASE 2-1.pptx
CLASE 2-1.pptxCLASE 2-1.pptx
CLASE 2-1.pptx
 
Uapa
UapaUapa
Uapa
 
La ficha7
La ficha7La ficha7
La ficha7
 
Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)
 
Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)
 
Aplicación de buscador semántico
Aplicación de buscador semánticoAplicación de buscador semántico
Aplicación de buscador semántico
 
Buscadores
BuscadoresBuscadores
Buscadores
 
Herramientas de búsqueda
Herramientas de búsquedaHerramientas de búsqueda
Herramientas de búsqueda
 

Más de Jorge Cortés Alvarez (12)

MPLS: Multiprotocol Label Switching
MPLS: Multiprotocol Label SwitchingMPLS: Multiprotocol Label Switching
MPLS: Multiprotocol Label Switching
 
Cable Coaxial
Cable CoaxialCable Coaxial
Cable Coaxial
 
FET (Transistores de Efecto de Campo)
FET (Transistores de Efecto de Campo)FET (Transistores de Efecto de Campo)
FET (Transistores de Efecto de Campo)
 
Diagrama de Actividades
Diagrama de ActividadesDiagrama de Actividades
Diagrama de Actividades
 
Modelo Conceptual UML
Modelo Conceptual UMLModelo Conceptual UML
Modelo Conceptual UML
 
Sociedad Comandita
Sociedad ComanditaSociedad Comandita
Sociedad Comandita
 
Metodología RUP
Metodología RUPMetodología RUP
Metodología RUP
 
Energía Eólica
Energía EólicaEnergía Eólica
Energía Eólica
 
Interrupciones: Sistemas Operativos
Interrupciones: Sistemas OperativosInterrupciones: Sistemas Operativos
Interrupciones: Sistemas Operativos
 
Presentación1
Presentación1Presentación1
Presentación1
 
Articulo Científico IEEE (Interpretacion)
Articulo Científico IEEE (Interpretacion)Articulo Científico IEEE (Interpretacion)
Articulo Científico IEEE (Interpretacion)
 
Articulo Científico IEEE (Analisis)
Articulo Científico IEEE (Analisis)Articulo Científico IEEE (Analisis)
Articulo Científico IEEE (Analisis)
 

Último

Seguridad y virus informáticos 12°B 2024
Seguridad y virus informáticos 12°B 2024Seguridad y virus informáticos 12°B 2024
Seguridad y virus informáticos 12°B 2024sergeycrastz06
 
el poder del estado en el siglo XXI.pptx
el poder del estado en el siglo XXI.pptxel poder del estado en el siglo XXI.pptx
el poder del estado en el siglo XXI.pptxsubfabian
 
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdfANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdflvela1316
 
4ª SESION la misión santificadora del Espíritu Santo en la vida de la Iglesi...
4ª SESION  la misión santificadora del Espíritu Santo en la vida de la Iglesi...4ª SESION  la misión santificadora del Espíritu Santo en la vida de la Iglesi...
4ª SESION la misión santificadora del Espíritu Santo en la vida de la Iglesi...Reneeavia
 
EL CARDENALITO Lengua y Literatura de 6 grado
EL CARDENALITO Lengua y Literatura de 6 gradoEL CARDENALITO Lengua y Literatura de 6 grado
EL CARDENALITO Lengua y Literatura de 6 gradomartanuez15
 
LA GEOMETRÍA Y LOS SISTEMAS ANGULARES, APRENDER LEYENDO LA BIBLIA
LA GEOMETRÍA Y LOS SISTEMAS ANGULARES, APRENDER LEYENDO LA BIBLIALA GEOMETRÍA Y LOS SISTEMAS ANGULARES, APRENDER LEYENDO LA BIBLIA
LA GEOMETRÍA Y LOS SISTEMAS ANGULARES, APRENDER LEYENDO LA BIBLIASandra Mariela Ballón Aguedo
 
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.JonathanCovena1
 
tema 6 2eso 2024. Ciencias Sociales. El final de la Edad Media en la Penínsul...
tema 6 2eso 2024. Ciencias Sociales. El final de la Edad Media en la Penínsul...tema 6 2eso 2024. Ciencias Sociales. El final de la Edad Media en la Penínsul...
tema 6 2eso 2024. Ciencias Sociales. El final de la Edad Media en la Penínsul...Chema R.
 
3. ELEMENTOS QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
3. ELEMENTOS QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx3. ELEMENTOS QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
3. ELEMENTOS QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptxnelsontobontrujillo
 
TEMA EGIPTO.pdf. Presentación civilización
TEMA EGIPTO.pdf. Presentación civilizaciónTEMA EGIPTO.pdf. Presentación civilización
TEMA EGIPTO.pdf. Presentación civilizaciónVasallo1
 
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...Pere Miquel Rosselló Espases
 
Análisis de los factores internos en una Organización
Análisis de los factores internos en una OrganizaciónAnálisis de los factores internos en una Organización
Análisis de los factores internos en una OrganizaciónJonathanCovena1
 
LA ORALIDAD, DEFINICIÓN Y CARACTERÍSTICAS.pptx
LA ORALIDAD, DEFINICIÓN Y CARACTERÍSTICAS.pptxLA ORALIDAD, DEFINICIÓN Y CARACTERÍSTICAS.pptx
LA ORALIDAD, DEFINICIÓN Y CARACTERÍSTICAS.pptxJhordanBenitesSanche2
 
ACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLAACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
novelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesis
novelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesisnovelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesis
novelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesisPsicClinGlendaBerrez
 
Realitat o fake news? – Què causa el canvi climàtic? - La desertització
Realitat o fake news? – Què causa el canvi climàtic? - La desertitzacióRealitat o fake news? – Què causa el canvi climàtic? - La desertització
Realitat o fake news? – Què causa el canvi climàtic? - La desertitzacióPere Miquel Rosselló Espases
 
CONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocx
CONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocxCONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocx
CONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocxMarlynRocaOnofre
 
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdfRESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdfANEP - DETP
 

Último (20)

Seguridad y virus informáticos 12°B 2024
Seguridad y virus informáticos 12°B 2024Seguridad y virus informáticos 12°B 2024
Seguridad y virus informáticos 12°B 2024
 
Power Point : Motivados por la esperanza
Power Point : Motivados por la esperanzaPower Point : Motivados por la esperanza
Power Point : Motivados por la esperanza
 
el poder del estado en el siglo XXI.pptx
el poder del estado en el siglo XXI.pptxel poder del estado en el siglo XXI.pptx
el poder del estado en el siglo XXI.pptx
 
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdfANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
ANTOLOGIA COMPLETA ANITA LA ABEJITA PARA LA LECTOESCRITURA EN PRIMER GRADO.pdf
 
4ª SESION la misión santificadora del Espíritu Santo en la vida de la Iglesi...
4ª SESION  la misión santificadora del Espíritu Santo en la vida de la Iglesi...4ª SESION  la misión santificadora del Espíritu Santo en la vida de la Iglesi...
4ª SESION la misión santificadora del Espíritu Santo en la vida de la Iglesi...
 
EL CARDENALITO Lengua y Literatura de 6 grado
EL CARDENALITO Lengua y Literatura de 6 gradoEL CARDENALITO Lengua y Literatura de 6 grado
EL CARDENALITO Lengua y Literatura de 6 grado
 
LA GEOMETRÍA Y LOS SISTEMAS ANGULARES, APRENDER LEYENDO LA BIBLIA
LA GEOMETRÍA Y LOS SISTEMAS ANGULARES, APRENDER LEYENDO LA BIBLIALA GEOMETRÍA Y LOS SISTEMAS ANGULARES, APRENDER LEYENDO LA BIBLIA
LA GEOMETRÍA Y LOS SISTEMAS ANGULARES, APRENDER LEYENDO LA BIBLIA
 
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
 
tema 6 2eso 2024. Ciencias Sociales. El final de la Edad Media en la Penínsul...
tema 6 2eso 2024. Ciencias Sociales. El final de la Edad Media en la Penínsul...tema 6 2eso 2024. Ciencias Sociales. El final de la Edad Media en la Penínsul...
tema 6 2eso 2024. Ciencias Sociales. El final de la Edad Media en la Penínsul...
 
3. ELEMENTOS QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
3. ELEMENTOS QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx3. ELEMENTOS QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
3. ELEMENTOS QUE SE EMPLEAN EN LAS ESTRUCTURAS.pptx
 
TEMA EGIPTO.pdf. Presentación civilización
TEMA EGIPTO.pdf. Presentación civilizaciónTEMA EGIPTO.pdf. Presentación civilización
TEMA EGIPTO.pdf. Presentación civilización
 
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
Realitat o fake news? – Què causa el canvi climàtic? - Modificacions dels pat...
 
Análisis de los factores internos en una Organización
Análisis de los factores internos en una OrganizaciónAnálisis de los factores internos en una Organización
Análisis de los factores internos en una Organización
 
LA ORALIDAD, DEFINICIÓN Y CARACTERÍSTICAS.pptx
LA ORALIDAD, DEFINICIÓN Y CARACTERÍSTICAS.pptxLA ORALIDAD, DEFINICIÓN Y CARACTERÍSTICAS.pptx
LA ORALIDAD, DEFINICIÓN Y CARACTERÍSTICAS.pptx
 
ACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLAACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLA
 
novelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesis
novelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesisnovelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesis
novelas-cortas--3.pdf Analisis introspectivo y retrospectivo, sintesis
 
flujo de materia y energía ecosistemas.
flujo de materia y  energía ecosistemas.flujo de materia y  energía ecosistemas.
flujo de materia y energía ecosistemas.
 
Realitat o fake news? – Què causa el canvi climàtic? - La desertització
Realitat o fake news? – Què causa el canvi climàtic? - La desertitzacióRealitat o fake news? – Què causa el canvi climàtic? - La desertització
Realitat o fake news? – Què causa el canvi climàtic? - La desertització
 
CONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocx
CONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocxCONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocx
CONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocx
 
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdfRESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
 

¿Cómo trabaja un buscador de internet en Mandarín?

  • 1. ¿Como trabaja un buscador de internet en mandarín? BÚSQUEDA EN INTERNET POR EL MÉTODO JERÁRQUICO DE SEGMENTACIÓN AUTOMÁTICA DE PALABRAS CHINAS (ÁRBOL BINARIO COMO UN DICCIONARIO) Universidad de Cartagena Jorge R. Cortés - Luis A. Lenes Programa de Ingeniería de Sistemas Estructura de Datos
  • 2. Con el desarrollo continuo y creciente popularidad de Internet, la cantidad de información en línea está crecimiento en forma explosiva. ¿Cómo encontrar la información que se necesita correcta y rápidamente? El motor de búsqueda de Internet crece rápidamente, así como el libre desarrollo y la distribución de la información.
  • 3. A partir de 1991 el motor de búsqueda chino, el principio general y la tecnología de búsqueda de información en internet se basan, en un conjunto de análisis de la tecnología de segmentación automática de palabras chinas. El motor de búsqueda de información utiliza el índice de las palabras, a través del conjunto algoritmos de alta velocidad, y recuperar la información de los usuarios requieren. Previamente realiza un proceso de prueba de lectura en donde se implementa algoritmos básicos, se trata de eliminar ambigüedades, se identifica los caracteres, y se arrojan lo resultados preliminares.
  • 4. Para darse este proceso se necesita colectar de manera automática la información referente a los sitios web, para disponerla en la búsqueda, para lo cual se crean programas, denominados «spider», con una estrategia que simulan la búsqueda de información para obtener su referencia en internet y con estas referencias se crea un diccionario.
  • 5. La clave tecnológica de la segmentación de palabras chinas En la segmentación de palabras chinas, hay dos cuestiones cruciales: la identificación y eliminación de frases ambiguas y el reconocimiento palabras desconocidas. Para la identificación y omisión de frases ambiguas se realiza un proceso de avance y retroceso a lo largo de la frase para la verificación de las ambigüedades. Y así poder hacer la búsqueda más eficaz. En cuanto al reconocimiento de palabras desconocidas, el sistema al encontrarla trata de omitirlas y reemplazarlas para lleva acabo el proceso.
  • 6. La realización de la segmentación automática de palabras chinas El algoritmo de segmentación es la base de la segmentación automática de palabras chinas. Actualmente, la maquinaria extensamente usada método sub-léxico tiene las ventajas del algoritmo simple y fácil para poner en práctica. Entre ellos, el más representativo es el método de separación máxima, este método consistes en dividir una palabra en el máximo posible de caracteres, para así poderla comparar en el máximo de referencia y obtener un mayor numero de resultados precisos.
  • 7. El método de separación máxima es extensamente usado en la ingeniería práctica con el principio de 'la Palabra más larga primero”. El diccionario de segmentación creado a partir de las referencia obtenidas por el método “spider” es la llave de la maquinaria método sub-léxico basado en la separación.
  • 8. El Diseño del diccionario de segmentación Cuando la sociedad se desarrolla, las nuevas palabras aumentan constantemente. Es imposible construir un diccionario de segmentación completo. Entonces principalmente hablamos sobre la estructura de organización del diccionario de segmentación, que comienza con el mejoramiento de la eficacia de la búsqueda en el diccionario, luego mejorar la interpretación del sistema de segmentación de palabra, en donde el diseño del diccionario y la frase entrada (caracteres a buscar) sean lo más adecuados.
  • 9. Esto incluye dos contenido: uno es el contenido de diccionario, es decir que es una colección de las palabras, que sea lo suficientemente grande para tener una alta cobertura, y ser de gran exactitud en la segmentación. El otro es la estructura del diccionario, que tiene gran precisión, para manejar una buena velocidad en el sistema de segmentación de palabra. Cuando procesamiento es muy largo y difuso, el sistema tiene que preguntar el diccionario de segmentación con frecuencia. ¿Como usar con eficacia el diccionario de segmentación para una búsqueda rápida? tendrá un impacto directo en la interpretación total del sistema. Por lo tanto, propone el diccionario ‘Modelo Jerárquico basado en Árbol de Binario ‘
  • 10. Hay tres partes del diseño de estructura organizativo del diccionario (árbol de binario) basado en lo siguiente de modelo jerárquico: 1) La primera palabra separa los temas en la mesa. En primer lugar, establezca una mesa de separación del léxico, a partir de la primera palabra de la frase, es decir se identifica un tema en concreto a partir de la primera palabra. Si es solo una palabra se toma primer carácter en palabra, y se analiza marca a marca. La búsqueda en el diccionario binario se toma raíz a puntas en el árbol (diccionario binario) con la primera palabra.
  • 11. 2) Diccionario de árbol binario. La información de nodo del árbol de binario de diccionario incluye: Los caracteres corrientes son nodos: palabras. Se toma una frase hacia el siguiente nodo correspondiente. Esfera de Hijo: la dirección de la búsqueda es hacia la izquierda, si el segmento aun hace parte de la palabra. Esfera de Hermano: la dirección de la búsqueda es hacia la derecha, si el segmento corresponde a otra palabra. Se va evaluando carácter correspondiente la palabra desde la raíz del árbol hacia las puntas (hojas)
  • 12.
  • 13. 3) Palabras Información La cuerda de palabras: una secuencia de caracteres. El peso de palabras: el número de caracteres que componen una secuencia. Este tiene una exactitud de 80% en cuanto ala segmentación, y por tal razón tiene un margen de error bastante amplio, la segmentación soporta un máximo de 50.000 caracteres a partir de una frase con sentido completo.
  • 14. Conclusión: 1) La investigación del Algoritmo “de algoritmo de segmentación chino de la exploración máxima positiva basada en la segmentación llena' puede tratar con la mayor parte de los campos de ambigüedad, y alcanzar a la demanda de exactitud de tratar la lengua natural. 2) La medida que usó el tesauro de texto lleno para generar el tesauro geográfico, y depende del tesauro geográfico para corregir el texto lleno puede completar el trabajo de mantenimiento bien, que también hasta cierto punto mejora la interpretación del sistema.
  • 15. 3) Establecer un modelo de datos eficaz y el trabajo en el algoritmo de pregunta excelente. Estas acciones hacen el algoritmo de búsqueda del sistema muy y mucho tiempo de la búsqueda es relativamente bajo. Dependiendo el usuario de debe desplegar una serie de contenidos, a lo largo de un periodo se determina un perfil de búsqueda, para hacer esta más eficiente y menos iterativa.
  • 16. Baidu
  • 17. Gracias por su atención.