El documento describe una consultora tecnológica llamada Autoritas que se especializa en inteligencia artificial y análisis de grandes datos. La compañía tiene oficinas en varios países y regiones del mundo. Autoritas realiza investigaciones activas en colaboración con universidades y centros de investigación para desarrollar nuevas tecnologías en áreas como la recuperación de información, el procesamiento de lenguaje natural y el aprendizaje automático.
Los retos a los que se enfrenta un científico de datos en la era del Big Data son múltiples: recuperación de información, procesamiento del lenguaje natural, aprendizaje automático, programación distribuída, bases de datos no-sql, y un largo etcétera. Cuando el científico de datos además trabaja en la empresa tiene que orientar todos los resultados de sus investigaciones hacia la consecución de los objetivos empresariales, esto
es, incrementar el valor económico. Las decisiones y los plazos por lo tanto van ligados a incrementar una función económica y no sólo a empujar el estado de la cuestión. Por otro lado, la evaluación de los resultados se
efectua de manera totalmente subjetiva en base a la percepción de usuarios no siempre doctos en la materia. El resultado es por tanto que el científico de datos en la empresa tiene que desarrollar una dualidad de skills que combinan lo técnico con lo no-técnico, sufriendo una maraña de sentimientos contradictorios como euforia ante el reto y desesperación ante los imposibles.
Our aim is at investigating how people use the language, and especially how they convey verbal emotions, to determine their age and gender. We propose EmoGraph, a graph-based approach that captures how people use language and convey verbal emotions in order to identify their age and gender. Results are competitive with state-of-the-art ones and robust against languages and genres.
Ponencia sobre Escucha Inteligente en el Master Universitario en Ingeniería Informática (MUIinf). Como caso práctico se explica el geoposicionamiento basado en la identificación de variedad del lenguaje.
AL4Trust is the title of the speech given in the Applications of the Computational Linguistics subject at MIARFID'17 degree in Artificial Intelligence, Pattern Recognition and Digital Imaging at Universitat Politècnica de València.
It shows the importance of the artificial intelligence technologies applied in big data environments as part of the six pillars of the digital transformation.
CominCrea: OVTT, vigilancia tecnológica para innovar en redOVTT
En el marco de CominCrea, Máster oficial en comunicación e industrias creativas de la Universidad de Alicante, se participó como caso de estudio en el módulo dedicado a la difusión de la investigación, con la experiencia del OVTT y su labor de sensibilización sobre la importancia de la vigilancia tecnológica para la actividad profesional, proporcionando a los estudiantes metodológicas e instrumentos con los que aplicarla en Internet.
Los retos a los que se enfrenta un científico de datos en la era del Big Data son múltiples: recuperación de información, procesamiento del lenguaje natural, aprendizaje automático, programación distribuída, bases de datos no-sql, y un largo etcétera. Cuando el científico de datos además trabaja en la empresa tiene que orientar todos los resultados de sus investigaciones hacia la consecución de los objetivos empresariales, esto
es, incrementar el valor económico. Las decisiones y los plazos por lo tanto van ligados a incrementar una función económica y no sólo a empujar el estado de la cuestión. Por otro lado, la evaluación de los resultados se
efectua de manera totalmente subjetiva en base a la percepción de usuarios no siempre doctos en la materia. El resultado es por tanto que el científico de datos en la empresa tiene que desarrollar una dualidad de skills que combinan lo técnico con lo no-técnico, sufriendo una maraña de sentimientos contradictorios como euforia ante el reto y desesperación ante los imposibles.
Our aim is at investigating how people use the language, and especially how they convey verbal emotions, to determine their age and gender. We propose EmoGraph, a graph-based approach that captures how people use language and convey verbal emotions in order to identify their age and gender. Results are competitive with state-of-the-art ones and robust against languages and genres.
Ponencia sobre Escucha Inteligente en el Master Universitario en Ingeniería Informática (MUIinf). Como caso práctico se explica el geoposicionamiento basado en la identificación de variedad del lenguaje.
AL4Trust is the title of the speech given in the Applications of the Computational Linguistics subject at MIARFID'17 degree in Artificial Intelligence, Pattern Recognition and Digital Imaging at Universitat Politècnica de València.
It shows the importance of the artificial intelligence technologies applied in big data environments as part of the six pillars of the digital transformation.
CominCrea: OVTT, vigilancia tecnológica para innovar en redOVTT
En el marco de CominCrea, Máster oficial en comunicación e industrias creativas de la Universidad de Alicante, se participó como caso de estudio en el módulo dedicado a la difusión de la investigación, con la experiencia del OVTT y su labor de sensibilización sobre la importancia de la vigilancia tecnológica para la actividad profesional, proporcionando a los estudiantes metodológicas e instrumentos con los que aplicarla en Internet.
Esta presentación comparte experiencias personales al contacto de muchas comunidades de software libre en Perú y de un gran interés en el desarrollo de este país, y propone, humildemente, soluciones para evitar reproducir los mismos errores a futuro, y así mejorar la situación de todos.
Hay una moda globalmente extendida en torno al análisis de opiniones o análisis de sentimiento, pero la Escucha Activa va mucho más allá de ello, la Escucha Activa permite al usuario ubicarse en el universo de Internet no sólo para saber qué hablan de él sino que temas interesan a su público objetivo, cuáles son las tendencias del sector, quienes son los usuarios más activos y los más influyentes... en definitiva, le permite tocar Internet para incorporarlo en el centro de su estrategia.
Presentación Institucional del OVTT (Noviembre, 2014)OVTT
Conozca el proyecto institucional del Observatorio Virtual de Transferencia de Tecnología de la Universidad de Alicante (España). Un recorrido desde su origen hasta las actividades más recientes, pasando por su misión, el equipo que lo integra, las funcionalidades de la plataforma virtual y las herramientas digitales que ofrece para fomentar la vigilancia tecnológica y el uso avanzado de Internet en proyectos emprendedores e I+D+i. Incluye también una información detallada sobre #MoocVT, el Primer MOOC de Introducción a la vigilancia tecnológica para emprender, y todas las actividades y talleres que se están organizado para dinamizar esta comunidad de práctica iberoamericana.
Sánchez, M. (2016). Docentes e-competentes: estrategias y herramientas para el desarrollo de marcas digitales y proyectos en red en docencia e investigación. Programa de Formación de Profesorado de Universidad de Burgos, marzo de 2016.
Samurai Digital - Ciclo de talleres 2019
Aprendemos sobre seguridad digital, fake news, comunicación para campañas digitales y uso de datos.
Santa Cruz, Cochabamba, Sucre y La Paz.
El papel del Software Libre para el Ecosistema Científico, Tecnológico y el E...CañeteL@b
Presentación que dió el Ing. Eddie Malca en CañeteL@b, para hablar acerca del papel del Software Libre para el Ecosistema Científico, Tecnológico y el Emprendimiento. https://www.facebook.com/LabUNDC/
Foro Empresarial sobre vigilancia tecnológica e inteligencia competitiva. Ori...Alba Santa
Foro Empresarial sobre vigilancia tecnológica e inteligencia competitiva, intervención “Vigilancia tecnológica para innovar en red: desafíos y oportunidades” (SlideShare). Corporación Empresarial del Oriente Antioqueño y Comité Universidad Empresa Estado Capítulo Oriente Universidad de Antioquia (Colombia). Septiembre, 2014.
10 formas de aumentar los beneficios de los medios utilizando metadatos - pre...MeaningCloud
Presentación de Eduardo Valencia en webinar "10 formas de aumentar los beneficios de los medios utilizando metadatos", MeaningCloud, 6 de abril de 2016
Situación de las iniciativas de Open Data internacionales (y algunas recomen...Oscar Corcho
Presentación sobre iniciativas de Open Data Internacionales y nacionales, realizada en el contexto del Curso de Verano de la Universidad de Extremadura "BigData y Machine Learning junto a fuentes de datos abiertos para especializar el sector agroganadero", el 25/09/2018
Obsevatorio Vitivinicola Argentino: la experiencia del OVTT en vigilancia tec...OVTT
El 15 de Octubre de 2015 se celebró en Mendoza (Argentina) la Jornada-taller de intercambio de experiencias en vigilancia tecnológica e inteligencia competitiva, promovida por el Observatorio Vitivínicola Argentino (OVA) y el apoyo de la Corporación Vitivinicola Argentina, la Bolsa de Comercio de Mendoza, el IDITS, la Universidad Nacional de Cuyo y el Instituto Nacional de Vitivinicultara. Contó con la participación del Observatorio Virtual de Transferencia de Tecnología (OVTT) de la Universidad de Alicante para compartir sus experiencias sobre vigilancia tecnológica en red. Ésta fue la presentación disertada en el encuentro. Más información: http://www.ovtt.org/2015-10-15/jornada_vigilancia_tecnologica_sector_vitivinicola
Modelo de Evaluación de Madurez de Sitios Web - una metodología para evaluar sitios en marcha o soportar el desarrollo y planificación de nuevas iniciativas
These are the slides of the overview of the ninth Author Profiling task at PAN-CLEF 2022 presented online. This year task aimed at Profiling Irony and Stereotype Spreaders.
These are the slides of the overview of the ninth Author Profiling task at PAN-CLEF 2021 presented online. This year task aimed at Profiling Hate Speech Spreaders on Twitter.
Esta presentación comparte experiencias personales al contacto de muchas comunidades de software libre en Perú y de un gran interés en el desarrollo de este país, y propone, humildemente, soluciones para evitar reproducir los mismos errores a futuro, y así mejorar la situación de todos.
Hay una moda globalmente extendida en torno al análisis de opiniones o análisis de sentimiento, pero la Escucha Activa va mucho más allá de ello, la Escucha Activa permite al usuario ubicarse en el universo de Internet no sólo para saber qué hablan de él sino que temas interesan a su público objetivo, cuáles son las tendencias del sector, quienes son los usuarios más activos y los más influyentes... en definitiva, le permite tocar Internet para incorporarlo en el centro de su estrategia.
Presentación Institucional del OVTT (Noviembre, 2014)OVTT
Conozca el proyecto institucional del Observatorio Virtual de Transferencia de Tecnología de la Universidad de Alicante (España). Un recorrido desde su origen hasta las actividades más recientes, pasando por su misión, el equipo que lo integra, las funcionalidades de la plataforma virtual y las herramientas digitales que ofrece para fomentar la vigilancia tecnológica y el uso avanzado de Internet en proyectos emprendedores e I+D+i. Incluye también una información detallada sobre #MoocVT, el Primer MOOC de Introducción a la vigilancia tecnológica para emprender, y todas las actividades y talleres que se están organizado para dinamizar esta comunidad de práctica iberoamericana.
Sánchez, M. (2016). Docentes e-competentes: estrategias y herramientas para el desarrollo de marcas digitales y proyectos en red en docencia e investigación. Programa de Formación de Profesorado de Universidad de Burgos, marzo de 2016.
Samurai Digital - Ciclo de talleres 2019
Aprendemos sobre seguridad digital, fake news, comunicación para campañas digitales y uso de datos.
Santa Cruz, Cochabamba, Sucre y La Paz.
El papel del Software Libre para el Ecosistema Científico, Tecnológico y el E...CañeteL@b
Presentación que dió el Ing. Eddie Malca en CañeteL@b, para hablar acerca del papel del Software Libre para el Ecosistema Científico, Tecnológico y el Emprendimiento. https://www.facebook.com/LabUNDC/
Foro Empresarial sobre vigilancia tecnológica e inteligencia competitiva. Ori...Alba Santa
Foro Empresarial sobre vigilancia tecnológica e inteligencia competitiva, intervención “Vigilancia tecnológica para innovar en red: desafíos y oportunidades” (SlideShare). Corporación Empresarial del Oriente Antioqueño y Comité Universidad Empresa Estado Capítulo Oriente Universidad de Antioquia (Colombia). Septiembre, 2014.
10 formas de aumentar los beneficios de los medios utilizando metadatos - pre...MeaningCloud
Presentación de Eduardo Valencia en webinar "10 formas de aumentar los beneficios de los medios utilizando metadatos", MeaningCloud, 6 de abril de 2016
Situación de las iniciativas de Open Data internacionales (y algunas recomen...Oscar Corcho
Presentación sobre iniciativas de Open Data Internacionales y nacionales, realizada en el contexto del Curso de Verano de la Universidad de Extremadura "BigData y Machine Learning junto a fuentes de datos abiertos para especializar el sector agroganadero", el 25/09/2018
Obsevatorio Vitivinicola Argentino: la experiencia del OVTT en vigilancia tec...OVTT
El 15 de Octubre de 2015 se celebró en Mendoza (Argentina) la Jornada-taller de intercambio de experiencias en vigilancia tecnológica e inteligencia competitiva, promovida por el Observatorio Vitivínicola Argentino (OVA) y el apoyo de la Corporación Vitivinicola Argentina, la Bolsa de Comercio de Mendoza, el IDITS, la Universidad Nacional de Cuyo y el Instituto Nacional de Vitivinicultara. Contó con la participación del Observatorio Virtual de Transferencia de Tecnología (OVTT) de la Universidad de Alicante para compartir sus experiencias sobre vigilancia tecnológica en red. Ésta fue la presentación disertada en el encuentro. Más información: http://www.ovtt.org/2015-10-15/jornada_vigilancia_tecnologica_sector_vitivinicola
Modelo de Evaluación de Madurez de Sitios Web - una metodología para evaluar sitios en marcha o soportar el desarrollo y planificación de nuevas iniciativas
These are the slides of the overview of the ninth Author Profiling task at PAN-CLEF 2022 presented online. This year task aimed at Profiling Irony and Stereotype Spreaders.
These are the slides of the overview of the ninth Author Profiling task at PAN-CLEF 2021 presented online. This year task aimed at Profiling Hate Speech Spreaders on Twitter.
These are the slides of the overview of the eighth Author Profiling task at PAN-CLEF 2020 presented online. This year task aimed at Profiling Fake News spreaders on Twitter
These are the slides of the overview of the fourth Author Profiling task at PAN-CLEF 2019 presented in Lugano. This year task aimed at discriminating bots from humans in Twitter accounts, and in the case of humans, between males and females.
AL4Trust is the title of the speech given in the Applications of the Computational Linguistics subject at MIARFID'19 degree in Artificial Intelligence, Pattern Recognition and Digital Imaging at Universitat Politècnica de València.
It shows the importance of the artificial intelligence technologies applied in big data environments as part of the six pillars of the digital transformation.
Diapositivas utilizadas en mi charla a los alumnos del máster Universitario en Sistemas Inteligentes de la Universitat Jaume I de Castellón. En la charla presento dos aproximaciones a los problemas de author profiling de identificación de sexo y edad, y de variedad del lenguaje, haciendo hincapié en la doble perspectiva universidad-empresa cuando se trata del rendimiento de los métodos aplicados: precisos y/o rápidos.
These are the slides of the overview of the fourth Author Profiling task at PAN-CLEF 2018 presented at Avignon. This year task aimed at multimodal (texts + images) gender identification of Twitter users.
In these slides, the overview of the RusProfiling shared task at PAN@FIRE 2017 in Bangalore, India.
This year task aimed at gender identification in Russian texts in a cross-genre perspective: training on Twitter, evaluating on Twitter, Facebook, reviews, essays and gender-imitated texts.
In these slides, the overview of the fifth Author Profiling task at PAN-CLEF 2017 presented at Dublin.
This year task aimed at gender and language variety identification problems in Spanish, English, and as a novelty, Arabic and Portuguese.
These are the slides of the overview of the fourth Author Profiling task at PAN-CLEF 2017 presented at Evora. This year task aimed at cross-genre evaluation of the age and gender identification problems.
Cyberacoso (cyber bullying), cyberabuso (cyber grooming), la ballena azul, el abecedario del diablo, la privacidad en las redes sociales, lo perjudicial de estar siempre conectado las redes sociales, el postureo y la apariencia...
Las redes sociales son maravillosas, permiten una interconexión con el mundo impensable cuando algunos éramos pequeños, pero hay que tener ciertas precauciones y así se lo tenemos que hacer ver a nuestros (pre)adolescentes para que las usen con sentido y responsabilidad, y sean capaces de detectar y denunciar casos como los anteriores.
Esta charla fue dada a mi hija mayor y tres de mis sobrinas que, a priori, ya estaban de vuelta y media y creían que se lo sabían todo. Sus caras lo decían todo...
Author profiling aims at identifying personal traits such as age, gender, native language or personality traits from writings. PR-SOCO task at PAN@FIRE goal is to predict Personality Traits from Source Codes.
Overview of the PAN laboratory at CLEF 2016 in Évora.
It presents an overview on new challenges for authorship analysis from the perspectives of the cross-genre author profiling, author clustering and diarization, and author obfuscation.
Presentación de Autoritas en la mesa redonda de las jornadas Activa tu Futuro de la Universitat Politècnica de València sobre el futuro de las comunicaciones personales a través de los dispositivos móviles y su análisis mediante tecnologías big data.
El objetivo de las jornadas es dar a conocer los másteres de la UPV, como el master en Big Data donde Autoritas participa activamente. En esta ponencia mostramos las diferentes problemáticas a solucionar en la generación de inteligencia social de negocio y las oportunidades que se brindan a los profesionales que deseen activar su futuro en tecnologías de análisis del big data.
Language variety identification aims at labelling texts in a native lan- guage (e.g. Spanish, Portuguese, English) with its specific variation (e.g. Ar- gentina, Chile, Mexico, Peru, Spain; Brazil, Portugal; UK, US). In this work we propose a low dimensionality representation (LDR) to address this task with five different varieties of Spanish: Argentina, Chile, Mexico, Peru and Spain. We compare our LDR method with common state-of-the-art representations and show an increase in accuracy of ∼35%. Furthermore, we compare LDR with two reference distributed representation models. Experimental results show com- petitive performance while dramatically reducing the dimensionality — and in- creasing the big data suitability — to only 6 features per variety. Additionally, we analyse the behaviour of the employed machine learning algorithms and the most discriminating features. Finally, we employ an alternative dataset to test the robustness of our low dimensionality representation with another set of similar languages.
Language variety identification is an author profiling subtask which aims to detect lexical and semantic variations in order to classify different varieties of the same language. In this work we approach the task by using distributed representations based on Mikolov et al. investigations.
Summary of my Phd first year:
- Language use depending on the Internet channel
- Emotions identification in Facebook
- PAN-13 Author Profiling organisation
- Some experiments and results with PAN-13-AP dataset
Este documento ha sido elaborado por el Observatorio Ciudadano de Seguridad Justicia y Legalidad de Irapuato siendo nuestro propósito conocer datos sociodemográficos en conjunto con información de incidencia delictiva de las 10 colonias y/o comunidades que del año 2020 a la fecha han tenido mayor incidencia.
Existen muchas más colonias que presentan cifras y datos en materia de seguridad, sin embargo, en este primer acercamiento lo que se prevées darle al lector una idea de como se encuentran las colonias analizadas, tomando como referencia los datos del INEGI 2020, datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública del 2020 al 2023 y las bases de datos propias que desde el 2017 el Observatorio Ciudadano ha recopilado de manera puntual con datos de las vıć timas de homicidio doloso, accidentes de tránsito, personas lesionadas por arma de fuego, entre otros indicadores.
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
2. AUTORITAS
Autoritas es una
consultora tecnológica
con profesionales
multidisciplinares de
diferentes países del
mundo:
- Ingenieros en
Informática y
Telecomunicaciones
- Psicólogos
- Economistas
- Abogados
- Politólogos
3. Nuestra sede central
está en Madrid
(España), y tenemos
oficinas en Argentina,
Brasil, Chile, México,
Panamá y Reino Unido.
AUTORITAS
4. Nos especializamos
en :
- Español
- Portugués
- Inglés
Estamos empezando a
trabajar con:
- Italiano
- Alemán
- Francés
AUTORITAS
5. La formación y la
comunicación son muy
importantes para
nosotros.
La Escucha Activa es
una nueva disciplina y
nosotros estamos
comprometidos con su
difusión y formación a
los profesionales
interesados en el
campo.
Iberolabs
AUTORITAS
6. En Autoritas hacemos
una investigación
activa en colaboración
con reputadas
universidades y
centros de
investigación.
‣ 2008-2009: Avanza AL4Tour (ITC/464/2008)
Objective: Develop an Active Listening platform specialized in the
Tourism Sector
Budget: 744,681.83 €
‣ 2011-2012: Avanza Competitividad HCE (TSI-020100-2011-156)
Objective: Specialize the Active Listening platform in the Healthcare
Sector by developing an automatic coder of diseases expressed in
natural language into ICD-9 MC codes.
Budget: 432,129.25€
‣ 2012: Innpacto Ecoportunity (IPT-2012-1220-430000)
Objective: Combine macroeconomic indicators with social media
information to predict trends.
Budget: 576,629.00€
AUTORITAS
8. autoritas
8
¿Qué es Social Business Intelligence?
http://hdwall.co/facebook-wallpaper-digg/
DATOS -> INFORMACIÓN -> CONOCIMIENTO -> INTELIGENCIA
Herramientas y
métodos
Interpretación
humana
Aplicación
estratégica
14. consulting, s.a.autoritas
• > 500 millones de usuarios de
Facebook
• > 150 millones de usuarios de Twitter
• > 90 millones de Webs
• > 150 millones de blogs
• aprox. 1000 exabytes anuales
EXCESO DE INFORMACIÓN
DESESTRUCTURADA
Algunas cifras... (muy antiguas)
16. consulting, s.a.autoritas
API vs.
Crawler
‣API restringe el acceso a los datos:
Facilitan sólo una muestra de la información
existente y accesible a través de buscador
‣API restringe la cantidad de peticiones
realizables
‣Crawler requiere infraestructura y solución
a problemas IR (periodicidad, fechas,
idiomas, almacenamiento...)
‣Crawler puede generar problemas legales
API gratuita
vs. pago
‣Restricción de resultados: las APIs gratuítas
restringen en exceso los resultados frente a la
interfaz del buscador
‣Limitaciones de licencia de las APIs
gratuítas, no permitiendo por ejemplo la
reordenación, mezclado y almacenamiento de
datos
17. consulting, s.a.autoritas
(Re)Clasificar lo recuperado
¿Qué pasa cuando entra una noticia desde
un buscador generalista?
¿Qué canal es la url que se enlaza desde otro
canal?
¿Cómo diferenciar un blog de una web
corporativa?
¿Cómo determinar de qué dominio es una
determinada página?
Identificar
Acotar
Clasificar
Desambiguar
18. consulting, s.a.autoritas
Sección de
anuncios sin
relevancia para el
contenido
Sección de última
hora que
distorsiona la
semántica de la
página
Contenido útil
Recuperar contenido útil
19. consulting, s.a.autoritas
Inglés
estoy sin internet ¬¬ fuuuuck!!!
Finlandés
... euskocaja, como euskolabel, euskotren,
euskomueble... XDDD
Portugués
Flowah Powah!
Alemán
Vierrrrrrrrrrrrnes, egunon!!
Modelos del lenguaje vs. n-Gramms vs. Machine Learning
Filtrar por idioma
24. consulting, s.a.autoritas
7.000 recuperados
54 incorrectos
99.23% precisión
3.000 recuperados
50 no recuperados
98.36% alcance
Evaluación de la Recuperación de Información...
...en la empresa
¡¡Estamos
perdiendo
credibilidad!!
33. autoritas
33
Si la fecha va
en la url es fácil saberla
Eso es relativo,
esta URL es de Julio o de
Enero:
http://xxx/07/01/2010/
crawler-403-
forbidden.html
35. autoritas
35
¿Cómo? -> No sólo sentiment analysis
La polaridad es sólo
una dimensión, la
emocional, la de
valores, DAFO...
todas ellas
responden a la
cuestión ¿cómo?
37. autoritas
37
Un ejemplo: “La prima de riesgo en España está a 235”
¿Positivo, negativo, neutro o none?
Mi pregunta: ¿Para quién?
- ¿Para el presidente del país?
- ¿Para el líder de la oposición?
- ¿Para el director del Banco de España?
- ¿Para el inversor extranjero?
- ¿Para el capitalista nacional?
- ¿Para el que tiene una hipoteca?
38. autoritas
38
¿Quién? -> Análisis de Red Social
Si quiero
transmitir con
éxito un mensaje,
¿quién me puede
ayudar?
Si hay un
conflicto,¿a
quién tengo que
vigilar?
40. autoritas
TIEMPO REAL ES CUANDO EL USUARIO ASÍ LO PERCIBE
NOCHE DE ELECCIONES
GENERALES
216.000 documentos analizados (picos
de 120 docs/seg)
‣Tweets: 176.815
‣Posts: 7.034
‣News: 2013
‣Facebook: 2.184
‣Multimedia: 671
283.000 etiquetas generadas
1.900.000 términos indexados
-Elevado número usuarios concurrentes
Por supuesto, en ¡¡tiempo real!!
43. autoritas
43
El big data es la solución, el problema... y la oportunidad
https://github.com/autoritas/RD-Lab/blob/master/doc/presentations/ataque.mov
59. autoritas
59
Resultados con HispaBlogs
• Algoritmos de aprendizaje
• Impacto del preprocesamiento en la precisión
• Impacto del preprocesamiento en la dimensionalidad
• Resultados de identificación
• Análisis del error
• Características más discriminantes
• Análisis de costes
Rangel et al., 2016
76. consulting, s.a.autoritas
SKILLS
TÉCNICOS
Aprendizaje
Automático: Para
inferir nuevos modelos a
partir de los datos
existentes, para dotar de
inteligencia a nuestras
aplicaciones
Recuperación de
Información: Para
acceder a las enormes
cantidades de
información disponibles
en Internet
Data Mining: Para
identificar patrones
válidos, novedosos,
potencialmente útiles y
deseablemente
comprensibles a partir
de los datos
Natural Language
Processing: Porque el
contenido textual de la
Web está escrito en el
lenguaje humano
Data
Visualization
Collective
Intelligence
System
Architecture
User
eXperience
Social
Investigation
Social Network
Analysis
79. autoritas
79
Referencias
• Rangel, F., Franco, M., Rosso, P. A Low Dimensionality Representation for Language Variety
Identification. In: Proc. of the 17th. Int. Conf. on Intelligent Text Processing and Computational
Linguistics (CICLing’16), Springer-Verlag, LNCS (??)
• Fabra, R. Language Variety Identification to Improve Geotagging. Master thesis in Artificial
Intelligence, Pattern Recognition and Digital Imaging, Universitat Politècnica de València 2016?.
Advisors: Francisco Rangel and Paolo Rosso.
• Franco, M., Rosso, P., Rangel, F. Language Variety Identification using Distributed Representations of
Words and Documents. In: 6th. Int. Conf. of CLEF on Experimental IR meets Multilinguality,
Multimodality, and Interaction. CLEF 2015, Springer-Verlag, LNCS(9283)
• Rangel, F., Rosso, P., Koppel, M., Stamatatos, E., Inches, G. Overview of the Author Profiling Task at
PAN 2013. In: Forner P., Navigli, R., Tufis, D. (Eds.). Note-book Papers of CLEF 2013 LABs and
Workshops, CLEF-2013, CEUR-WS.org (1179)