La teoría de conjuntos difusos surgió hace cincuenta años. Esta teoría permite dar un tratamiento matemático-computacional a conceptos vagos del lenguaje natural. El interés de aplicar esta teoría a las bases de datos tiene ya unos treinta años. Sin embargo, hasta la fecha este es un tema que no ha sido completamente explorado. Los sistemas gestores de bases de datos en la actualidad siguen adoleciendo de problemas de rigidez en la representación de datos imperfectos y consultas basadas en preferencias del usuario y el contexto. Hace unos veinte años se propuso el un modelo de datos llamado GEFRED (GEneralized Fuzzy RElational Datamodel). Éste que permite representar relaciones difusas y atributos difusos. Basado en este modelo se han definido extensiones a SQL y se han implementado prototipos de sistemas gestores de bases de datos difusas. Sin embargo, aún hay desafíos que se presentan como temas de investigación y desarrollo: No está completamente resuelto para los datos difusos los problemas de ordenamiento, particionamiento, agregación y aritmética. Las estructuras de almacenamiento físico y recuperación de los manejadores relacional no se adecúan en forma directa. Hay mucho trabajo por hacer en Matemáticas e Informática para dar soporte consistente y eficiente a bases de datos difusas.
DATOS DIFUSOS EN UN DBMS: SEMÁNTICA Y PRAGMÁTICALeonid TINEO
Conferencia presentada en el Segundo Congreso Andino de Computación, Informática y Educación (CACIED 2015)
Contienen resultados y persepectivas del Grupo de Bases de Datos Difusas de la Universidad Simón Bolívar, Venezuela
DATOS DIFUSOS EN UN DBMS: SEMÁNTICA Y PRAGMÁTICALeonid TINEO
Conferencia presentada en el Segundo Congreso Andino de Computación, Informática y Educación (CACIED 2015)
Contienen resultados y persepectivas del Grupo de Bases de Datos Difusas de la Universidad Simón Bolívar, Venezuela
Caracterización geográfica de la población de la Ciudad de MéxicoSoftware Guru
En esta plática presentamos una propuesta de metodología para caracterizar a la población de la Ciudad de México, aplicando el aprendizaje en conjunto (ensemble learning) sobre datos abiertos para obtener clusters de características.
En matemáticas, lógica, ciencias de la computación y disciplinas relacionadas, un algoritmo (del latín algorithmus y este del griego arithmos, que significa «número», quizá también con influencia del nombre del matemático persa Al-Juarismi)1 es un conjunto de instrucciones o reglas definidas y no-ambiguas, ordenadas y finitas que permite, típicamente, solucionar un problema, realizar un cómputo, procesar datos y llevar a cabo otras tareas o actividades.2 Dado un estado inicial y una entrada, siguiendo los pasos sucesivos se llega a un estado final y se obtiene una solución. Los algoritmos son el objeto de estudio de la algoritmia.
Caracterización geográfica de la población de la Ciudad de MéxicoSoftware Guru
En esta plática presentamos una propuesta de metodología para caracterizar a la población de la Ciudad de México, aplicando el aprendizaje en conjunto (ensemble learning) sobre datos abiertos para obtener clusters de características.
En matemáticas, lógica, ciencias de la computación y disciplinas relacionadas, un algoritmo (del latín algorithmus y este del griego arithmos, que significa «número», quizá también con influencia del nombre del matemático persa Al-Juarismi)1 es un conjunto de instrucciones o reglas definidas y no-ambiguas, ordenadas y finitas que permite, típicamente, solucionar un problema, realizar un cómputo, procesar datos y llevar a cabo otras tareas o actividades.2 Dado un estado inicial y una entrada, siguiendo los pasos sucesivos se llega a un estado final y se obtiene una solución. Los algoritmos son el objeto de estudio de la algoritmia.
La mycoplasmosis aviar es una enfermedad contagiosa de las aves causada por bacterias del género Mycoplasma. Esencialmente, afecta a aves como pollos, pavos y otras aves de corral, causando importantes pérdidas económicas en la industria avícola debido a la disminución en la producción de huevos y carne, así como a la mortalidad.
2. surgió hace 50+ años
Zadeh, L. A. (1965). “Fuzzy Sets”
Information Control, Vol. 8, pp. 338-353
La teoría de conjuntos difusos
2
3. La teoría de conjuntos difusos
permite dar un tratamiento matemático-computacional a
conceptos vagos del lenguaje natural
𝜇 𝐹: 𝑋 → 0,1
0,00
0,25
0,50
0,75
1,00
x1 x2 x3 x4 x5
0,00
0,25
0,50
0,75
1,00
x1 x2 x3 x4
3
4. Conjuntos difusos en bases de datos
30+ años como tema de interés
Datos Difusos
Buckles, B., Petry, F. (1982). “A Fuzzy Representation of Data for
Relational Databases”, Fuzzy Sets and Systems
Consultas Difusas
Bosc, P., Galibourg, M., Hamon, G. (1988). “Fuzzy Querying with SQL:
Extensions and Implementation Aspects”, Fuzzy Sets and Systems
4
5. Conjuntos difusos en bases de datos
30+ años, mas no ha sido completamente explorado
No se ha incluido en el más reciente estándar
ISO/IEC (2011) Information technology — Database languages
— SQL — Part 2: Foundation (SQL/Foundation), ISO/IEC 9075-
2:2011 (en)
5
6. Conjuntos difusos en bases de datos
30+ años, mas no ha sido completamente explorado
No se han resuelto interrogantes en el más reciente libro
Pivert, O. & Bosc, P. (2012) Fuzzy Preference Queries to
Relational Databases, Imperial College Press
6
7. Conjuntos difusos en bases de datos
30+ años, mas no ha sido completamente explorado
No se ha aplicado el más reciente principio
Zadeh, L. A. (2015) “The Information Principle”, Information
Sciences
7
8. Conjuntos difusos en bases de datos
30+ años, mas no ha sido completamente explorado
No se ha llevado a la más reciente tendencia: Big Data
Abadi, D. et al. (2016) “The Beckman Report on Database
Research”, Communications of the ACM
8
9. Conjuntos difusos en bases de datos
Los SGBD actuales siguen adoleciendo de rigidez en la
representación de datos imperfectos y consultas basadas
en preferencias del usuario y el contexto
9
10. Modelo Relacional Difuso
20+ años se propuso GEFRED
permite representar relaciones difusas y atributos difusos
𝑅 𝑎1, 𝑎2, … , 𝑎 𝑛 = Τ𝑡𝑖 𝜇𝑖
𝜇𝑖 = 𝜇 𝑅 𝑡𝑖
𝑡𝑖 = 𝑑𝑖,1, 𝑑𝑖,2, … , 𝑑𝑖,𝑛
𝑑𝑖,𝑗 𝜖𝐹𝑑𝑜𝑚 𝑎𝑗
Medina, J. et al (1993). “GEFRED: A Generalized Model of Fuzzy
Relational Databases”, Information Sciences
10
11. Modelo Relacional Difuso
Basado en GEFRED se han definido extensiones a SQL y se
han implementado prototipos de DBMS
Galindo, J. (2005). “New Characteristics in FSQL, a Fuzzy SQL for
Fuzzy Databases”. WSEAS Transactions on Information Science
and Applications
Galindo, J. (Ed.) (2008), Handbook of Research on Fuzzy
Information Processing in Databases. Hershey, PA, USA
11
12. Atributos Difusos
Se distinguen cuatro tipos de Fdom
Tipo 1, Tipo 2, Tipo 3, Tipo 4
Galindo, J., Urrutia, A., Piattini, M. (2006). Fuzzy Database
Modeling, Design and Implementation, Idea Group
Publishing
12
13. Atributos Difusos
Se separa en dos* uno de los tipos de Fdom
Tipo 1, Tipo 2, Tipo 3*, Tipo 4, , Tipo 5*
Coronado, D. et al (2015) "Portal de fuzzydoDB".
Memorias de la Tercera Conferencia Nacional de
Computación, Informática y Sistemas, Valencia, Venezuela
13
14. Atributos Difusos
Tipo 1
atributos con valores de datos precisos que se pueden
consultar usando términos lingüísticos vagos (difusos)
14
0,00
0,25
0,50
0,75
1,00
x1 x2 x3 x4 x5
0,00
0,25
0,50
0,75
1,00
x1 x2 x3 x4
término difuso término difuso
15. Atributos Difusos
Tipo 2
atributos numéricos cuyos valores son datos difusos
representados como números difusos
15
0,00
0,25
0,50
0,75
1,00
x1 x2 x3 x4 x5
0,00
0,25
0,50
0,75
1,00
x1 x2 x3 x4
valor difuso valor difuso
16. Atributos Difusos
Tipo 3
atributos cuyos valores son etiquetas de un conjunto
provisto de una relación difusa de similitud
16
x1 x2 x3 x4
x1 1.00 0.25 1.00 0.75
x2 0.25 1.00 0.25 0.50
x3 1.00 0.25 1.00 0.75
x4 0.75 0.50 0.75 1.00
relación de similitud
17. Atributos Difusos
Tipo 4
cuyos valores son distribuciones de posibilidad sobre
conjunto de etiquetas
17
0,00
0,25
0,50
0,75
1,00
x1 x2 x3 x4 x5
valor posibilístico
18. Atributos Difusos
Tipo 5
cuyos valores son distribuciones de posibilidad sobre
conjunto de etiquetas con una relación de similitud
18
x1 x2 x3 x4
x1 1.00 0.25 1.00 0.75
x2 0.25 1.00 0.25 0.50
x3 1.00 0.25 1.00 0.75
x4 0.75 0.50 0.75 1.00
relación de similitud
0,00
0,25
0,50
0,75
1,00
x1 x2 x3 x4 x5
valor posibilístico
23. No resuelto:
Las estructuras de almacenamiento físico y recuperación
de los manejadores relacionales no se adecúan en forma
directa para datos difusos
Hay mucho trabajo por hacer en Matemáticas e
Informática para dar soporte consistente y eficiente a
bases de datos difusas
23
24. ABDI-USB: qué proponemos
Grupo de Aplicaciones y Bases de Datos Inteligentes de la
Universidad Simón Bolívar
Tiene varios resultados en el área que están publicados en
revistas y memorias de congresos
Puede albergar y dirigir estudiantes en trabajo de grado y
postgrado, de forma presencial o remota
24