Apresentação do @LeoNaressi no Social Media Week 2013 sobre text mining (mineração de textos), análise preditiva e sua aplicação em monitoramento de redes sociais
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
¿De que hablan los usuarios de Twitter en Lima Metropolitana? ¿Qué perfil tienen los usuarios de Twitter? ¿Como se aplica el Text Mining en redes sociales?
Esta es la presentación que hice en la Iteso en Guadalajara. El trabajo parte de la investigación que coordine juntos a los demás compas de http://datanalysis15m.wordpress.com/ . Aquí puedes encontrar la versión 1.0 del estudio completo. http://journals.uoc.edu/ojs/index.php/in3-working-paper-series/article/view/1878
Introduction to Predictive Analytics with IBM SPSS. Predictive analytics helps organizations use their data to make better decisions by allowing them to draw reliable, data-driven conclusions about current conditions and future events.
Predictive analytics encompasses a variety of techniques such as Statistics, Game theory and Data mining to do this analysis,
and make these predictions.
So by deploying predictive analytics, organizations are addressing their business issues proactively to get the best outcomes.
Big Data & Text Mining: Finding Nuggets in Mountains of Textual Data
Big amount of information is available in textual form in databases or online sources, and for many enterprise functions (marketing, maintenance, finance, etc.) represents a huge opportunity to improve their business knowledge. For example, text mining is starting to be used in marketing, more specifically in analytical customer relationship management, in order to achieve the holy 360° view of the customer (integrating elements from inbound mails, web comments, surveys, internal notes, etc.).
Facing this new domain I have make a personal research, and realize a synthesis, which has help me to clarify some ideas. The below presentation does not intend to be exhaustive on the subject, but could perhaps bring you some useful insights.
Apresentação do @LeoNaressi no Social Media Week 2013 sobre text mining (mineração de textos), análise preditiva e sua aplicação em monitoramento de redes sociais
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
¿De que hablan los usuarios de Twitter en Lima Metropolitana? ¿Qué perfil tienen los usuarios de Twitter? ¿Como se aplica el Text Mining en redes sociales?
Esta es la presentación que hice en la Iteso en Guadalajara. El trabajo parte de la investigación que coordine juntos a los demás compas de http://datanalysis15m.wordpress.com/ . Aquí puedes encontrar la versión 1.0 del estudio completo. http://journals.uoc.edu/ojs/index.php/in3-working-paper-series/article/view/1878
Introduction to Predictive Analytics with IBM SPSS. Predictive analytics helps organizations use their data to make better decisions by allowing them to draw reliable, data-driven conclusions about current conditions and future events.
Predictive analytics encompasses a variety of techniques such as Statistics, Game theory and Data mining to do this analysis,
and make these predictions.
So by deploying predictive analytics, organizations are addressing their business issues proactively to get the best outcomes.
Big Data & Text Mining: Finding Nuggets in Mountains of Textual Data
Big amount of information is available in textual form in databases or online sources, and for many enterprise functions (marketing, maintenance, finance, etc.) represents a huge opportunity to improve their business knowledge. For example, text mining is starting to be used in marketing, more specifically in analytical customer relationship management, in order to achieve the holy 360° view of the customer (integrating elements from inbound mails, web comments, surveys, internal notes, etc.).
Facing this new domain I have make a personal research, and realize a synthesis, which has help me to clarify some ideas. The below presentation does not intend to be exhaustive on the subject, but could perhaps bring you some useful insights.
Presentación sobre la técnica de Scraping como herramienta de investigación. La técnica basada y mediada por software utilizada para el procesamiento, el análisis y la interpretación de grandes cantidades de datos culturalmente significativos.
Novedades tecnológicas de la información y las comunicaciones, avances, descubrimientos, opiniones, comentarios, ofertas de productos, servicios y mucho más.
10ª Conferencia internacional sobre revistas científicas. Guadalajara (México), 23 y 24 de octubre 2019. Organizada por El Profesional de la Información, la Universidad Panamericana y el Grupo Thinkepi
10ª Conferencia internacional sobre revistas científicas. Guadalajara (México), 23 y 24 de octubre 2019. Organizada por El Profesional de la Información, la Universidad Panamericana y el Grupo Thinkepi
10ª Conferencia internacional sobre revistas científicas. Guadalajara (México), 23 y 24 de octubre 2019. Organizada por El Profesional de la Información, la Universidad Panamericana y el Grupo Thinkepi
10ª Conferencia internacional sobre revistas científicas. Guadalajara (México), 23 y 24 de octubre 2019. Organizada por El Profesional de la Información, la Universidad Panamericana y el Grupo Thinkepi
10ª Conferencia internacional sobre revistas científicas. Guadalajara (México), 23 y 24 de octubre 2019. Organizada por El Profesional de la Información, la Universidad Panamericana y el Grupo Thinkepi
Más de CRECS. Conferencia Internacional de Revistas Científicas (20)
1891 - 14 de Julio - Rohrmann recibió una patente alemana (n° 64.209) para s...Champs Elysee Roldan
El concepto del cohete como plataforma de instrumentación científica de gran altitud tuvo sus precursores inmediatos en el trabajo de un francés y dos Alemanes a finales del siglo XIX.
Ludewig Rohrmann de Drauschwitz Alemania, concibió el cohete como un medio para tomar fotografías desde gran altura. Recibió una patente alemana para su aparato (n° 64.209) el 14 de julio de 1891.
En vista de la complejidad de su aparato fotográfico, es poco probable que su dispositivo haya llegado a desarrollarse con éxito. La cámara debía haber sido accionada por un mecanismo de reloj que accionaría el obturador y también posicionaría y retiraría los porta películas. También debía haber sido suspendido de un paracaídas en una articulación universal. Tanto el paracaídas como la cámara debían ser recuperados mediante un cable atado a ellos y desenganchado de un cabrestante durante el vuelo del cohete. Es difícil imaginar cómo un mecanismo así habría resistido las fuerzas del lanzamiento y la apertura del paracaídas.
La mycoplasmosis aviar es una enfermedad contagiosa de las aves causada por bacterias del género Mycoplasma. Esencialmente, afecta a aves como pollos, pavos y otras aves de corral, causando importantes pérdidas económicas en la industria avícola debido a la disminución en la producción de huevos y carne, así como a la mortalidad.
VIRUS COXSACKIE, CASOS CLÍNICOS, ANÁLISIS, MORFOLOGÍA ENTRE OTROS
J15 45 peset_fernanda
1. Text mining versus redes neuronales.
Dos métodos de análisis
aplicados al caso de las políticas de las
revistas sobre datos
Alicia García-García, Xavier García-Massó, Antonia Ferrer, Luis-Millán González,
Fernanda Peset, Miguel Villamón y Rafael Aleixandre
*Agradecimientos a Rosaura Santos Serra*
4ª Conferencia internacional sobre calidad de revistas de ciencias sociales
y humanidades (CRECS 2014)
Madrid, 8-9 de mayo de 2014.
15’45-16’15 Casa del Lector de la Fundación Germán Sánchez Ruipérez
http://www.thinkepi.net/crecs2014
2. Planteamiento del problema
Importancia del tema: En la actual sociedad de la
información cada día a día se multiplica la cantidad de
datos almacenados casi de forma exponencial.
Contienen valiosa información que puede resultar muy
útil para determinados procesos. Actualmente se
buscan las vías para explotarlos de forma eficaz con
diferentes objetivos. Además, estos datos pueden ser
reutilizados
LÍMITACIONES COGNITIVAS Y DE
RECURSOS nos empujan a buscar
esos métodos de análisis del BigData
3. Nuestro objeto de estudio
• Políticas de revistas: cómo las revistas indicaban a los autores
qué debían hacer con el material adicional, es decir con los datos
que subyacen a las publicaciones.
• El almacenamiento de datos junto a las revistas es una vía
reconocida (junto a subirlos a repositorios y bancos). Como
ejemplo: Data Conservancy, IEEE y Portico han recibido una
subvención (600.000 $ para dos años, mayo 2014) de la Alfred P.
Sloan Foundation para conectar publicaciones y sus datos.
• Nosotros estudiamos las políticas en el proyecto DATASEA sobre
las vías de almacenamiento y reutilización de datos de
investigación *OPENDATASCIENCE, centro de recursos para la
preservación y gestión de datos abiertos de investigación*",
CS02012-39632-C02-02.
4. • El objetivo final de DATASEA es crear un
buscador que permita recuperar
conjuntos de datos de investigación
• El problema de la recuperación de la
información es complejo, sobre todo
siendo tan específica
5. Factores determinantes de la eficiencia en la RI
A) existencia de estándares aceptados
con los que trabajar
B) recopilación de la información
C) creación de algoritmos específicos
6. Verdadero problema (al menos en revistas)
Que las ideas están expresadas
en lenguaje natural (NLP)
Las ideas tienen identidad respecto a algo que no son. No hay
relación directa con el soporte que las contienen
7. a) Estándares
• Si los datos estuvieran estructurados y disponibles de
forma uniforme universalmente sería “fácil” analizarlos,
reutilizarlos, recombinarlos...
• Pero...
• UNREALISTIC: cada grupo empresarial tiene sus
propias políticas de expansión
• El acceso abierto o no a la información científica aun
no tiene universalidad; mucho menos en datos
8. b) Recopilación de fuentes de origen de datos
• La búsqueda de información excelente y puesta a disposición en algún
sistema lo hacemos sistemáticamente los documentalistas (directorios,
bibliotecas, inventarios...). Pero cuando cambian, hay que volver a
revisar.
• En 2011 creamos ODiSEA, como inventario de bancos de datos de
investigación. Desde la aparición de Databib (2012) y Re3data (2013),
unidos desde 2014, lo reenfocamos a la recopilación de sedes web de
revistas de mayor impacto de todas las disciplinas que aceptan datos
• Esto nutre el futuro OpenDataScience por parte de expertos
• La interpretación de las políticas por un analista hace que los métodos
sean muy dependientes de quién realiza esa calificación; al tiempo que
están limitados a los recursos humanos que se dediquen a ello.
9. c) creación de algoritmos específicos
• Algoritmo es una secuencia de órdenes que tienen una lógica interna entre sí.
• El de Google usa palabras y luego rankiniza resultados, pero no parece que utilice
modelos avanzados.
• Como ejemplo, en ajedrez se ha de usar inteligencia artificial en los simuladores,
pues no puede calcular tanto número de variantes hasta final del juego. Así que le
introducen algoritmo de análisis con premisas lógicas adaptadas al juego, por
ejemplo asignando peso mayor al centro del tablero
• Hay modelos matemáticos que refinan las búsquedas cuando se escriben en
lenguajes de programación estándar como matlab. Por ejemplo, asignan
determinada fuerza a ciertas palabras, o indican que x término sea la palabra
central dentro del grupo de palabras recuperadas
10. • Indagamos qué sistemas existen en el mercado a nivel
matemático o informático para hacer más inteligente el
futuro buscador. Que no sea la simple recuperación en
las fuentes indicadas. Ambos son complementarios.
Pero no buscan de igual manera. La colaboración con
otros expertos/disciplinas nos permite alimentarlo
• Pretende crear algoritmos de búsqueda que nutran el
modelo de recuperación contemplando premisas
lógicas especiales para el problema estudiado.
• De esa forma, filtran la información hoy, y en el futuro
11. ¿Qué es lo que estamos buscando?
• Método de análisis más eficaz para encontrar
datos que puedan ser reutilizados
• En este momento estamos probando
diferentes soluciones matemáticas para
conseguir el objetivo: un buscador avanzado
• El año pasado ya se presentó un tipo de
método basado en redes neuronales
12. Aproximación al problema a
partir de los mapas auto-
organizados
• SOM-Self Organizing Maps es un Clasificador avanzado de
características o vectores (Teuvo Kohonen en 1981-82)
• Es una clase de algoritmos de redes neuronales competitivas en la
categoría de aprendizaje no supervisado. Construye 1º una red de
nodos con un peso aleatorio. Iterativamente el algoritmo analiza los
distintos casos y los resitúa en nodos (neuronas). Produce una
neurona ganadora y modifica la forma de la red.
• Se representa en un mapa de dos dimensiones, que puede ser
interpretado de forma cualitativa. A diferencia del análisis de clusters,
SOM toma en cuenta todas las variables al tiempo
Empleado para la clasificación de información, redes (Moya, Guerrero-Bote, Herrero-Solana,
Campanario, Olmeda, Ortiz-Repiso...)
14. Resumen de SOM
• VENTAJAS
– Menos subjetivo que la recopilación de fuentes
– Más automatizado que la interpretación de las fuentes recopiladas
– Puede clasificar no sólo los contenidos buscados sino los no
buscados/los contrarios y por tanto el grado de cumplimiento del
criterio que se analiza (discovery y serendipity)
– Emplea lenguaje matemático que puede ser implementado en
algoritmos de búsqueda
• DESVENTAJAS
– Necesita cierta acción del recopilador del material
– Más lento que un buscador normal: el proceso de computación
puedes llevar a durar horas
15.
16. Aproximación al problema a partir de la
minería de texto
• Definición: MINERÍA DE DATOS se define como la extracción no trivial de
información implícita, previamente desconocida y potencialmente útil, a partir de
datos.
• Minería de texto: ofrece con sistemas automáticos una solución, sustituyendo o
complementando el trabajo de personas, sin que importe la cantidad de texto.
Analiza grandes colecciones de texto para descubrir información antes
desconocida. Pueden ser relaciones o patrones escondidos que de otro modo
serían extremadamente difícil o imposibles de descubrir.
http://sitecore.jisc.ac.uk/publications/briefingpapers/2008/bptextminingv2.aspx
• Conjunto de técnicas pero nosotros solo vamos a explicar una: co-word
• Definición. Recuenta las veces en que dos palabras se relacionan en un entorno
de lenguaje natural. Se convierte en un método de procesamiento de lenguaje
natural para encontrar algo de nuestro interés
Courtial, J. P. A coword analysis of scientometrics.
Scientometrics NOVEMBER–DECEMBER 1994, Volume 31, Issue 3, pp 251-260
Courtial, J. P. A coword analysis of scientometrics.
17. • Punto crítico es la sinonimia del término datos (en
revistas).
• Para este experimento
– Hemos tenido que identificar las fuentes y los párrafos exactos
donde se habla de datos ya que está en diferentes lugares:
instrucciones para autor, políticas generales o específicas de
revista...
– Hemos unido en un concepto único las palabras clave que
hemos identificado o generalizado como datos ya que utilizan
todo tipo de términos: supplemental information o
supplementary material. En el futuro cualquier otra que se
utilice
18. Aproximaciones previas
• Piwowar y Chapman utilizan métodos de
análisis del lenguaje natural para
identificar los autores que están
utilizando un tipo determinado de datos,
los microarrays, para después consultar
en los bancos de datos que almacenan
los microarrays. De esta manera,
cuantifican cómo los están depositando.
19. Nuestro procesamiento
1. Obtener el material: los textos (manualmente) y refinar el texto con stop
words (de bibexcel)
2. Generar las redes de co-ocurrencia (bibexcel) con la intención de
automatizarlo con lenguaje de programación como matlab
3. Establecer unos umbrales de interés: reducir la red (pajek o bibexcel)
4. Seleccionar las conexiones que tienen que ver con data (momento
manual del experimento)
5. Calcular (registrar) la fuerza de las relaciones del término de interés
(data) con otros significativos (file u otras similares). Existen muchos
cálculos distintos por ejemplo centralidad de la palabra/s (pajek),
intermediación, densidad (vosviewer) etc. Al buscador se le incluirían las
palabras relacionadas, pero también sus ramificaciones, algo que nunca
haría un buscador convencional
6. Con los cálculos realizados, seleccionar la fuente de donde provienen
las palabras “premiadas” y en consecuencia las revistas
21. 3. Umbral de interés
4. Selección de relaciones significativas
22. 5a. Cálculo de Hubs and authority
5. Cálculo de fuerza de las palabras
Los grises son palabras autoridades y las blancas intermediadoras
23. 5b. Dendograma
Agrupa los términos en clusters. Las
asocia por su lógica
Algunas asociaciones tienen más
importancia que otras asociaciones
para nuestro objetivo, el buscador
24. Recordemos:
1. Obtener el material: los textos (manualmente) y refinar el texto con stop
words (de bibexcel)
2. Generar las redes de co-ocurrencia (bibexcel) con la intención de
automatizarlo con lenguaje de programación como matlab
3. Establecer unos umbrales de interés: reducir la red (pajek o bibexcel)
4. Seleccionar las conexiones que tienen que ver con data (momento
manual del experimento)
5. Calcular (registrar) la fuerza de las relaciones del término de interés
(data) con otros significativos (file u otras similares). Existen muchos
cálculos distintos por ejemplo centralidad de la palabra/s (pajek),
intermediación, densidad (vosviewer) etc. Al buscador se le incluirían las
palabras relacionadas, pero también sus ramificaciones, algo que nunca
haría un buscador convencional
6. Con los cálculos realizados, seleccionar la fuente (URL) de donde
provienen las palabras “premiadas” y en consecuencia las revistas
25. VENTAJAS
• Muy bajo nivel de subjetividad
• No requiere recolección de información por parte de personas
• Emplea algoritmos de análisis en lenguajes de programación y
puede ser implementado en buscadores
DESVENTAJAS
• El tiempo de computación es excesivamente lento y necesita de
hardware sólido
• Que hasta la fecha muchas personas se dedican a la investigación
con data mining pero no existe aplicaciones claras
• Requiere de buenas librerías de palabras (stop word, sinonimias,
plurales... y de palabras clave como supplemental_information)
Resumen de textmining
26.
27. Otros sistemas: clusters (vosviewer)
Otros sistemas: densidad (vosviewer)
No aparece data, no es frecuente
28. Conclusiones
• En este momento no tenemos conclusiones definitivas, pero
si esta metodología es correcta, su uso contaría con varias
ventajas. Por una parte puede acometerse el estudio de
muchas más revistas, pues solo es necesario extraer los
textos de sus políticas y realizar un mínimo tratamiento previo
al análisis. Por otra, podría aplicarse a otro tipo de textos,
como podría ser el apartado de material y método de los
artículos publicados en busca de cómo han tratado esos
datos.
• Datasea sigue por dos vías: recolectando fuentes y
experimentando métodos que puedan llegar a sustituir el
trabajo de personas
CAMPANARIO, J.M. (1995). «Using neural networks to study networks of scieritific journals». Scientometrics. Vol. 33, n° 1, p. 23-40.
Félix de Moya Anegón, Víctor Herrero Solana, Vicente Guerrero Bote (1998). La aplicación de Redes Neuronales Artificiales (RNA): a la recuperación de la información. Bibliodoc: anuari de biblioteconomia, documentació i informació ,. http://www.raco.cat/index.php/Bibliodoc/article/view/56630
Moya-Anegón, Félix, Purificación Moscoso, Carlos Olmeda, Virginia Ortiz-Repiso, Víctor Herrero-Solana y Vicente Guerrero-Bote (1999). NeuroIsoc: un modelo de red neuronal para la representación del conocimiento. IV Congreso ISKO-España EOCONSID'99. (Sociedad Internacional para la Organización del Conocimiento ISKO - capítulo español) Granada, 22 al 24 de abril de 1999.
Moya, F. Herrero Solana, V.; Jiménez-Contreras, Evaristo (2006)1A connectionist and multivariate approach to science maps: the SOM, clustering and MDS applied to library and information science research. Journal of Information Science; 2006, Vol. 32 Issue 1, p63-77
Guerrero-Bote, Vicente P.; Cristina López-Pujalte, Félix de Moya-Anegón, Victor Herrero-Solana, (2003) Comparison of neural models for document clustering, International Journal of Approximate Reasoning, Volume 34, Issues 2–3, Pages 287-305, ISSN 0888-613X, 10.1016/j.ijar.2003.07.012.(http://www.sciencedirect.com/science/article/pii/S0888613X03000963)Guerrero Bote, Vicente P, Félix de Moya Anegón, Victor Herrero Solana, (2002a) Document organization using Kohonen's algorithm, Information Processing & Management, Volume 38, Issue 1, January 2002, Pages 79-89, ISSN 0306-4573, 10.1016/S0306-4573(00)00066-2.(http://www.sciencedirect.com/science/article/pii/S0306457300000662)Vicente P. Guerrero, Félix Moya-Anegón, Victor Herrero-Solana, (2002b) Automatic extraction of relationships between terms by means of Kohonen's algorithm, Library & Information Science Research, Volume 24, Issue 3, 2002, Pages 235-250, ISSN 0740-8188, 10.1016/S0740-8188(02)00124-X.(http://www.sciencedirect.com/science/article/pii/S074081880200124X)
Mandl, Thomas and Eibl, Maximilian (2001) Topographic Maps Based on Kohonen Self Organizing Maps: An Empirical Approach., 2001 . In European Symposium on Intelligent Technologies, Hybrid Systems and their implementation on Smart Adaptive Systems (EUNITE 2001), Teneriffa, Spain, 13-14 Dezember 2001
Guzmán Sánchez, María V. and Sotolongo Aguilar, Gilberto (2002) Mapas tecnológicos para la estrategia empresarial. Situación tecnológica de la neisseria meningitidis. ACIMED, 2002, vol. 10, n. 4.
Saavedra Fernández, Oscar and Sotolongo Aguilar, Gilberto and Guzmán Sánchez, María V. (2002) Contribución al estudio de las revistas de América Latina y el Caribe mediante el mapeo autoorganizado. ACIMED, 2002, vol. 10, n. 3.
Piwowar y Chapman (Piwowar HA (2011) Who Shares? Who Doesn’t? Factors Associated with Openly Archiving Raw Research Data; Piwowar & Chapman (2008) Identifying Data Sharing in Biomedical Literature)
Piwowar y Chapman (Piwowar HA (2011) Who Shares? Who Doesn’t? Factors Associated with Openly Archiving Raw Research Data; Piwowar & Chapman (2008) Identifying Data Sharing in Biomedical Literature), puesto que están redactadas en lenguaje natural.