SlideShare una empresa de Scribd logo
1 de 12
MINERÍA Y VISUALIZACIÓN DE TEXTO Edwin Fabián Maza S. Estudiante de la UTPL ISUMMIT 2010
INTRODUCCIÓN En la actualidad se busca analizar el texto existente en todo su ámbito y para ello se requiere de procedimientos automáticos para: extraer los temas, determinar en el texto la localización de las rupturas, visualizar la proximidad entre documentos y/o entre términos, indexar los documentos, construir bases de documentos para una interrogación automática a lo posterior.
Búsqueda de información VS Extracción de información Búsqueda de información: Es un tratamiento global de un gran nuero de documentos, búsqueda de temas, construcción de una tipología de los documentos. Extracción de información: consiste en la búsqueda de información “ciblada”, para alimentar una base de datos estructurada (relleno automático de los campos de la base).
Tipos de textos analizados Los tipos de textos analizados se pueden realizar entre: Encuestas de opinión Encuestas de satisfacción de clientela Entrevistas semi-abiertas en estudios de clientela Revistas de prensa Vigilia tecnológica: resúmenes de artículos contenidos en las bases científicas, patentes, entre otras.
Métodos de análisis Para ello se pueden identificar dos puntos importantes como son: La codificación: se debe conocer como se codifica el corpus, esta transforma el corpus en una tabla que se puede analizar mediante métodos estadísticos La distancia: el papel fundamental de la distancia escogida en el análisis estadístico de textos. Distancia entre elementos (entrevistados, categorías de entrevistados, palabras, entre otros.)
¿Porquéesdificil? La minería de textos se ve compleja o difícil para su análisis debido a la conformación de: Títulos Imágenes Tablas Graficas Texto seguro Es difícil la visualización del texto como por ejemplo: la presencia de un objeto extraño se puede interpretar de varias formas como: alucinación, nave extraterrestre, platillo volador, OVNI
Lingüística computacional y procesamiento de textos Esta ciencia ha ayudado para tratar de aplicar métodos computacionales en el estudio del lenguaje natural. Por lo que es ha combinado dos importantes ciencias, la lingüística que el estudio de leyes del lenguaje humano, y la inteligencia artificial que investiga métodos computacionales para el manejo de sistemas complejos.
La solución tradicional de este problema consiste en construir un procesador lingüístico construido por diferentes módulos independientes.
Tipos de minería de textos Web (Web Mining) La Web Mining nos ayuda a descubrir información, encontrar documentados relacionados, mostrar temáticas, averiguar el grado de satisfacción de recursos web, etc. Según el fin deseado, la actividad de excavar en la web se desglosa en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos.
Tipos de minería de textos Web (Web Mining) Web contentmining (minería de contenido web) Web structuremining (minería de estructura web) Web usagemining (minería de uso web)
HERRAMIENTAS DE MINERÍA DE TEXTO Weka RapidMiner Lenguaje R Pentaho GATE Bases de datos de artículos técnicos. biotech medline chemicalabstractregistry
REFERENCIAS [1] Minería de Textos Web Recuperación y organización de la información Disponible en http://mineria-textos-web.awardspace.com/ [2] Explotación minera del texto Disponible en http://enciclopediaespana.com/Explotación_minera_del_texto.html [3] Explotación minera del texto http://www.worldlingo.com/ma/enwiki/es/Text_mining [4] Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica BécueBertaut [5] Minería de texto: Un nuevo reto computacional Manuel Montes-y-Gómez Centro de Investigación en Computación, Instituto Politécnico Nacional.

Más contenido relacionado

La actualidad más candente

Ficha tecnico pedagogica
Ficha tecnico pedagogicaFicha tecnico pedagogica
Ficha tecnico pedagogicapablo
 
Herramientas para la busqueda
Herramientas para la busquedaHerramientas para la busqueda
Herramientas para la busquedaalex vizcarra
 
Taller articulo de revista
Taller articulo de revista Taller articulo de revista
Taller articulo de revista estefany19951
 
Informática Jurídica
Informática JurídicaInformática Jurídica
Informática JurídicaAna Rojas
 

La actualidad más candente (7)

Ficha tecnico pedagogica
Ficha tecnico pedagogicaFicha tecnico pedagogica
Ficha tecnico pedagogica
 
Informatica
Informatica Informatica
Informatica
 
Impacto web
Impacto webImpacto web
Impacto web
 
Minería de Texto (Text mining)
Minería de Texto (Text mining)Minería de Texto (Text mining)
Minería de Texto (Text mining)
 
Herramientas para la busqueda
Herramientas para la busquedaHerramientas para la busqueda
Herramientas para la busqueda
 
Taller articulo de revista
Taller articulo de revista Taller articulo de revista
Taller articulo de revista
 
Informática Jurídica
Informática JurídicaInformática Jurídica
Informática Jurídica
 

Similar a Minería y visualización de texto

BÚSQUEDA de fuentes confiables con TIC.pptx
BÚSQUEDA de fuentes confiables con TIC.pptxBÚSQUEDA de fuentes confiables con TIC.pptx
BÚSQUEDA de fuentes confiables con TIC.pptxSegundoClementeMendo
 
Indización automatizada
Indización automatizadaIndización automatizada
Indización automatizadaJavier Gascón
 
Explotación y visualización de datos de investigación en Humanidades por Gime...
Explotación y visualización de datos de investigación en Humanidades por Gime...Explotación y visualización de datos de investigación en Humanidades por Gime...
Explotación y visualización de datos de investigación en Humanidades por Gime...innovatics
 
¿Cómo buscar información científica?
¿Cómo buscar información científica?¿Cómo buscar información científica?
¿Cómo buscar información científica?Ivonne Lujano
 
Estrategia de busqueda 2003
Estrategia de busqueda 2003Estrategia de busqueda 2003
Estrategia de busqueda 2003carlosmunive
 
Monografia ontologias - Primera Aproximación
Monografia ontologias - Primera AproximaciónMonografia ontologias - Primera Aproximación
Monografia ontologias - Primera AproximaciónMarcos Umaño
 
Tarea 10 de infotecnologia.
Tarea 10 de infotecnologia.Tarea 10 de infotecnologia.
Tarea 10 de infotecnologia.Linabel Ramirez
 
Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.
Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.
Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.www.cathedratic.com
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataJonathan Calero
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataJonathan Calero
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Tesis_doctoral_Jose_Pino_Diaz.
Tesis_doctoral_Jose_Pino_Diaz. Tesis_doctoral_Jose_Pino_Diaz.
Tesis_doctoral_Jose_Pino_Diaz. Pepe
 

Similar a Minería y visualización de texto (20)

BÚSQUEDA de fuentes confiables con TIC.pptx
BÚSQUEDA de fuentes confiables con TIC.pptxBÚSQUEDA de fuentes confiables con TIC.pptx
BÚSQUEDA de fuentes confiables con TIC.pptx
 
Indización automatizada
Indización automatizadaIndización automatizada
Indización automatizada
 
Metadatos
MetadatosMetadatos
Metadatos
 
Explotación y visualización de datos de investigación en Humanidades por Gime...
Explotación y visualización de datos de investigación en Humanidades por Gime...Explotación y visualización de datos de investigación en Humanidades por Gime...
Explotación y visualización de datos de investigación en Humanidades por Gime...
 
¿Cómo buscar información científica?
¿Cómo buscar información científica?¿Cómo buscar información científica?
¿Cómo buscar información científica?
 
Ontología
OntologíaOntología
Ontología
 
Estrategia de busqueda 2003
Estrategia de busqueda 2003Estrategia de busqueda 2003
Estrategia de busqueda 2003
 
Monografia ontologias - Primera Aproximación
Monografia ontologias - Primera AproximaciónMonografia ontologias - Primera Aproximación
Monografia ontologias - Primera Aproximación
 
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
 
Tarea 10 de infotecnologia.
Tarea 10 de infotecnologia.Tarea 10 de infotecnologia.
Tarea 10 de infotecnologia.
 
Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.
Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.
Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.
 
Ontología cis
Ontología cisOntología cis
Ontología cis
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Tesis_doctoral_Jose_Pino_Diaz.
Tesis_doctoral_Jose_Pino_Diaz. Tesis_doctoral_Jose_Pino_Diaz.
Tesis_doctoral_Jose_Pino_Diaz.
 
Preguntas generadoras
Preguntas generadorasPreguntas generadoras
Preguntas generadoras
 
Preguntas generadoras
Preguntas generadorasPreguntas generadoras
Preguntas generadoras
 

Más de Ewing Ma

Servicio de calidad
Servicio de calidadServicio de calidad
Servicio de calidadEwing Ma
 
Servicio de calidad
Servicio de calidadServicio de calidad
Servicio de calidadEwing Ma
 
DISPOSITIVOS DE CAPA 2 DEL MODELO OSI
DISPOSITIVOS DE CAPA 2 DEL MODELO OSIDISPOSITIVOS DE CAPA 2 DEL MODELO OSI
DISPOSITIVOS DE CAPA 2 DEL MODELO OSIEwing Ma
 
open innovation
open innovationopen innovation
open innovationEwing Ma
 
cuestiones de repaso capitulo 20
cuestiones de repaso capitulo 20cuestiones de repaso capitulo 20
cuestiones de repaso capitulo 20Ewing Ma
 
cuestiones de repaso
cuestiones de repasocuestiones de repaso
cuestiones de repasoEwing Ma
 
Algoritmo congruencial aditivo
Algoritmo congruencial aditivoAlgoritmo congruencial aditivo
Algoritmo congruencial aditivoEwing Ma
 
Pruebas de Uniformidad
Pruebas de UniformidadPruebas de Uniformidad
Pruebas de UniformidadEwing Ma
 
Ejercicio 7.3
Ejercicio 7.3Ejercicio 7.3
Ejercicio 7.3Ewing Ma
 
Diagnostico de Mainboard
Diagnostico de MainboardDiagnostico de Mainboard
Diagnostico de MainboardEwing Ma
 
resolución del ejecicio del capitulo 18
resolución del ejecicio del capitulo 18resolución del ejecicio del capitulo 18
resolución del ejecicio del capitulo 18Ewing Ma
 
Ejercicio Del Capitulo 18
Ejercicio Del Capitulo 18Ejercicio Del Capitulo 18
Ejercicio Del Capitulo 18Ewing Ma
 
Cuestiones de repaso capitulo 18
Cuestiones de repaso capitulo 18Cuestiones de repaso capitulo 18
Cuestiones de repaso capitulo 18Ewing Ma
 
CASO DE ESTUDIO DE EASYDRIVE
CASO DE ESTUDIO DE EASYDRIVECASO DE ESTUDIO DE EASYDRIVE
CASO DE ESTUDIO DE EASYDRIVEEwing Ma
 
Cuestiones de repado capitulo 17
Cuestiones de repado capitulo 17Cuestiones de repado capitulo 17
Cuestiones de repado capitulo 17Ewing Ma
 
Cuestiones de estudio del capitulo 15
Cuestiones de estudio del capitulo 15Cuestiones de estudio del capitulo 15
Cuestiones de estudio del capitulo 15Ewing Ma
 
University Accommodation
University AccommodationUniversity Accommodation
University AccommodationEwing Ma
 
Caso de estudio EasyDrive School of Motoring
Caso de estudio EasyDrive School of MotoringCaso de estudio EasyDrive School of Motoring
Caso de estudio EasyDrive School of MotoringEwing Ma
 
Cuestiones de Repaso Capitulo 16
Cuestiones de Repaso Capitulo 16Cuestiones de Repaso Capitulo 16
Cuestiones de Repaso Capitulo 16Ewing Ma
 

Más de Ewing Ma (19)

Servicio de calidad
Servicio de calidadServicio de calidad
Servicio de calidad
 
Servicio de calidad
Servicio de calidadServicio de calidad
Servicio de calidad
 
DISPOSITIVOS DE CAPA 2 DEL MODELO OSI
DISPOSITIVOS DE CAPA 2 DEL MODELO OSIDISPOSITIVOS DE CAPA 2 DEL MODELO OSI
DISPOSITIVOS DE CAPA 2 DEL MODELO OSI
 
open innovation
open innovationopen innovation
open innovation
 
cuestiones de repaso capitulo 20
cuestiones de repaso capitulo 20cuestiones de repaso capitulo 20
cuestiones de repaso capitulo 20
 
cuestiones de repaso
cuestiones de repasocuestiones de repaso
cuestiones de repaso
 
Algoritmo congruencial aditivo
Algoritmo congruencial aditivoAlgoritmo congruencial aditivo
Algoritmo congruencial aditivo
 
Pruebas de Uniformidad
Pruebas de UniformidadPruebas de Uniformidad
Pruebas de Uniformidad
 
Ejercicio 7.3
Ejercicio 7.3Ejercicio 7.3
Ejercicio 7.3
 
Diagnostico de Mainboard
Diagnostico de MainboardDiagnostico de Mainboard
Diagnostico de Mainboard
 
resolución del ejecicio del capitulo 18
resolución del ejecicio del capitulo 18resolución del ejecicio del capitulo 18
resolución del ejecicio del capitulo 18
 
Ejercicio Del Capitulo 18
Ejercicio Del Capitulo 18Ejercicio Del Capitulo 18
Ejercicio Del Capitulo 18
 
Cuestiones de repaso capitulo 18
Cuestiones de repaso capitulo 18Cuestiones de repaso capitulo 18
Cuestiones de repaso capitulo 18
 
CASO DE ESTUDIO DE EASYDRIVE
CASO DE ESTUDIO DE EASYDRIVECASO DE ESTUDIO DE EASYDRIVE
CASO DE ESTUDIO DE EASYDRIVE
 
Cuestiones de repado capitulo 17
Cuestiones de repado capitulo 17Cuestiones de repado capitulo 17
Cuestiones de repado capitulo 17
 
Cuestiones de estudio del capitulo 15
Cuestiones de estudio del capitulo 15Cuestiones de estudio del capitulo 15
Cuestiones de estudio del capitulo 15
 
University Accommodation
University AccommodationUniversity Accommodation
University Accommodation
 
Caso de estudio EasyDrive School of Motoring
Caso de estudio EasyDrive School of MotoringCaso de estudio EasyDrive School of Motoring
Caso de estudio EasyDrive School of Motoring
 
Cuestiones de Repaso Capitulo 16
Cuestiones de Repaso Capitulo 16Cuestiones de Repaso Capitulo 16
Cuestiones de Repaso Capitulo 16
 

Último

TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIAAbelardoVelaAlbrecht1
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfsamyarrocha1
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptxc3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptxMartín Ramírez
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxJUANSIMONPACHIN
 
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxc3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxMartín Ramírez
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...JAVIER SOLIS NOYOLA
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDUgustavorojas179704
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfromanmillans
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOweislaco
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfDannyTola1
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docxAgustinaNuez21
 

Último (20)

TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdf
 
DIA INTERNACIONAL DAS FLORESTAS .
DIA INTERNACIONAL DAS FLORESTAS         .DIA INTERNACIONAL DAS FLORESTAS         .
DIA INTERNACIONAL DAS FLORESTAS .
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdfTema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
 
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptxc3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
c3.hu3.p1.p2.El ser humano y el sentido de su existencia.pptx
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
 
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxc3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
 
PPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptxPPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptx
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdf
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdf
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docx
 

Minería y visualización de texto

  • 1. MINERÍA Y VISUALIZACIÓN DE TEXTO Edwin Fabián Maza S. Estudiante de la UTPL ISUMMIT 2010
  • 2. INTRODUCCIÓN En la actualidad se busca analizar el texto existente en todo su ámbito y para ello se requiere de procedimientos automáticos para: extraer los temas, determinar en el texto la localización de las rupturas, visualizar la proximidad entre documentos y/o entre términos, indexar los documentos, construir bases de documentos para una interrogación automática a lo posterior.
  • 3. Búsqueda de información VS Extracción de información Búsqueda de información: Es un tratamiento global de un gran nuero de documentos, búsqueda de temas, construcción de una tipología de los documentos. Extracción de información: consiste en la búsqueda de información “ciblada”, para alimentar una base de datos estructurada (relleno automático de los campos de la base).
  • 4. Tipos de textos analizados Los tipos de textos analizados se pueden realizar entre: Encuestas de opinión Encuestas de satisfacción de clientela Entrevistas semi-abiertas en estudios de clientela Revistas de prensa Vigilia tecnológica: resúmenes de artículos contenidos en las bases científicas, patentes, entre otras.
  • 5. Métodos de análisis Para ello se pueden identificar dos puntos importantes como son: La codificación: se debe conocer como se codifica el corpus, esta transforma el corpus en una tabla que se puede analizar mediante métodos estadísticos La distancia: el papel fundamental de la distancia escogida en el análisis estadístico de textos. Distancia entre elementos (entrevistados, categorías de entrevistados, palabras, entre otros.)
  • 6. ¿Porquéesdificil? La minería de textos se ve compleja o difícil para su análisis debido a la conformación de: Títulos Imágenes Tablas Graficas Texto seguro Es difícil la visualización del texto como por ejemplo: la presencia de un objeto extraño se puede interpretar de varias formas como: alucinación, nave extraterrestre, platillo volador, OVNI
  • 7. Lingüística computacional y procesamiento de textos Esta ciencia ha ayudado para tratar de aplicar métodos computacionales en el estudio del lenguaje natural. Por lo que es ha combinado dos importantes ciencias, la lingüística que el estudio de leyes del lenguaje humano, y la inteligencia artificial que investiga métodos computacionales para el manejo de sistemas complejos.
  • 8. La solución tradicional de este problema consiste en construir un procesador lingüístico construido por diferentes módulos independientes.
  • 9. Tipos de minería de textos Web (Web Mining) La Web Mining nos ayuda a descubrir información, encontrar documentados relacionados, mostrar temáticas, averiguar el grado de satisfacción de recursos web, etc. Según el fin deseado, la actividad de excavar en la web se desglosa en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos.
  • 10. Tipos de minería de textos Web (Web Mining) Web contentmining (minería de contenido web) Web structuremining (minería de estructura web) Web usagemining (minería de uso web)
  • 11. HERRAMIENTAS DE MINERÍA DE TEXTO Weka RapidMiner Lenguaje R Pentaho GATE Bases de datos de artículos técnicos. biotech medline chemicalabstractregistry
  • 12. REFERENCIAS [1] Minería de Textos Web Recuperación y organización de la información Disponible en http://mineria-textos-web.awardspace.com/ [2] Explotación minera del texto Disponible en http://enciclopediaespana.com/Explotación_minera_del_texto.html [3] Explotación minera del texto http://www.worldlingo.com/ma/enwiki/es/Text_mining [4] Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica BécueBertaut [5] Minería de texto: Un nuevo reto computacional Manuel Montes-y-Gómez Centro de Investigación en Computación, Instituto Politécnico Nacional.