1. “Tendencias del Análisis de
Datos a Nivel Mundial”
Conferencia presentada en el Curso de:
Métodos de Investigación Cuantitativa
Doctorado en Ciencias Agrícolas y
Ambientales Facultad de Agronomía
Universidad de San Carlos de Guatemala
DR. MARIO MELGAR
Guatemala, 19 de Noviembre 2012
4. The next five years will produce more research data than has been produced in all of
previous human history, presenting researchers with daunting discovery challenges.
The data deluge was highlighted and deepened by monumental big bang and astronomy
projects such as the Large Hadron Collider and the planned Square Kilometre Array,
said Ross Wilkinson, executive director of the Monash University-based Australian
National Data Service.
The European Union's collider would produce a petabyte of data each month, while the
data generation of the SKA was so mind-boggling that the term exobyte had been coined
to describe its data output.
"An exabyte is 1000 petabytes; a petabyte is 1000 terabytes; a terabyte is 1000 gigabytes
and a gigabyte is 1000 megabytes," Dr. Wilkinson said.
"You can read about 2GB of text, or about as much text that can fit on two CDs, in a
lifetime, so it's really scary numbers."
SOURCE: THE AUSTRALIAN, APRIL 29, 2009
7. UNIDAD VALOR/EJEMPLO
Byte Es la unidad elemental de información que
puede guardar un carácter: letra, número o
signo
2 kilobytes Una página
5 megabytes Obras completas de Shakespare; 30 segundos
de video.
100 megabytes Radiografia Digital.
500 megabytes CD
8. 1 gigabyte (GB) Sinfonía en sonido de alta fidelidad.
2 gigabytes 20 metros de estantería de libros, lo que una
persona puede leer en toda su vida
20 gigabytes Archivos de audio de la obra de Beethoven
Terabyte (TB) 1000 GB
1 terabyte Todas las películas radiográficas de un hospital de
alta tecnología.
50000 árboles transformados en papel e impresos.
10 terabytes Colección impresa de la biblioteca del Congreso de
EE.UU.
Petabytes (PB) 1000 TB
2 petabytes Todas las bibliotecas de investigación académica de
EE.UU.
Exabyte (EB) 10000 PB
5 exabytes Todas las palabras dichas alguna vez por los seres
humanos.
Zettabyte 1000 Exabytes
Fuente: Ambrosi, H. 2008. La Verdad de las
Estadisticas. Ediciones Lumiere.
9.
10.
11.
12.
13.
14.
15.
16. 1. Internet
2. Celulares
3. NASA
4. Astronomía
5. Universo
6. Genómica
7. Física
8. Imágenes Médicas
9. AT&T, WALMART, etc.
21. Science & Petabytes
NASA: Earth Observing System
4 PB in 2005 (images)
2008 MySQL Conference & Expo Jacek Becla, SLAC 21
22. Science & Petabytes
Astronomy
Huge telescopes
Multi-gigapixel cameras
Getting ready for…
– Trillions of observations
– 50+ PB of images
– 20+ PB database
2008 MySQL Conference & Expo Jacek Becla, SLAC 22
23. Untangling the Universe
Needle in haystack
Astronomy: It’s All About Spatial correlations
“Astronomical Objects” Time series
Overlapping
Moving
Disappearing
Highly correlated
2008 MySQL Conference & Expo Jacek Becla, SLAC 23
24. Science & Petabytes
Genomics
Trying to put together database
of all known DNA sequences
Multi-petabytes
2008 MySQL Conference & Expo Jacek Becla, SLAC 24
25. How does the human genome stack
up?
Organism Genome Size (Bases) Estimated Genes
Amoeba dubia (ameba) 670 billion ?
Porocentrum micans (protista) 245 billion 92,000
Pez leopardo (Propterus aethiopicus) 130 billion ?
Caña de azúcar (S. officinarum) 7.4 billion 35,000
Human (Homo sapiens) 3 billion 25,000
Laboratory mouse (M. musculus) 2.6 billion 30,000
Mustard weed (A. thaliana) 100 million 25,000
Roundworm (C. elegans) 97 million 19,000
Fruit fly (D. melanogaster) 137 million 13,000
Yeast (S. cerevisiae) 12.1 million 6,000
Bacterium (E. coli) 4.6 million 3,200
Human immunodeficiency virus (HIV) 9700 9
25
26. Examples of Large Data Sets:
Genomics
• 25,000 genes in
human genome
• 3 billion bases
• 3 Gigabytes of genetic
data
26
27. Understanding Dynamics of
Biological Processes
Needle in haystack
Correlations
Time series
2008 MySQL Conference & Expo Jacek Becla, SLAC 27
42. Science & Petabytes
High Energy Physics: LHC
½ PB/sec
– Small fraction saved
Trillions of collisions
15 PB/year
– Starting later this year
2008 MySQL Conference & Expo Jacek Becla, SLAC 42
44. Examples of Large Data Sets:
Credit card transactions
• 142 billion transactions
in 2004 in US alone
• 115 Terabytes of data
transmitted to
processing center in
2004
44
45. Examples of Large Data Sets:
Phone call billing records
• 250M calls/day
• 60G calls/year
• 40 bytes/call
• 2.5 Terabytes/year
45
46. Science, Industry & Petabytes
150
Google
100 ? Yahoo!
Microsoft
PB
AT&T
50 Walmart
EBay
Facebook
few others
0
2000 2005 2010 2015 2020 2025
year
2008 MySQL Conference & Expo Jacek Becla, SLAC 46
80. Enfoques para el Manejo de los
Datos
81
1. Empresas Especializadas en
Gerencia de Datos
2. Data Science
3. Minería de Datos
4. Visualización
81. Data Science: An Introduction/A
History of Data Science
Chapter Summary
Data Science is a composite of a number of pre-existing disciplines. It is a young
professional and academic discipline. The term was first coined in 2001. Its popularity has
exploded since 2010, pushed by the need for teams of people to analyze the big data that
corporations and governments are collecting. The Google search engine is a classic
example of the power of data science.
Discussion
Data science is a discipline that incorporates varying degrees of Data Engineering,
Scientific Method, Math, Statistics, Advanced Computing, Visualization, Hacker mindset,
and Domain Expertise. A practitioner of Data Science is called a Data Scientist. Data
Scientists solve complex data analysis problems.
Origins
The term "Data Science" was coined at the beginning of the 21st Century. It is attributed to
William S. Cleveland[1] who, in 2001, wrote "Data Science: An Action Plan for Expanding
the Technical Areas of the Field of Statistics."[2] About a year later, the International
Council for Science: Committee on Data for Science and Technology[3] started publishing
the CODATA Data Science Journal beginning April 2002.[4] Shortly thereafter, in January
of 2003, Columbia University began publishing The Journal of Data Science .
90. ANÁLISIS UNIVARIADO ASOCIACIÓN ENTRE VARIABLES
Variables Variables Cualitativas Cualitativas con Cuantitativas con Análisis
Cualitativas Cuantitativas con cuantitativas cuantitativas multivariado
cualitativas
Frecuencias Distr. De frecuencias Tablas de Tablas de clasificación Diagrama de Gráficas de
Proporciones Histogramas Contingencia Gráficas de medias dispersión Histogramas
Gráficas de barras Gráficas de tallos y Gráficas de 3D Caras de Chernoff
Gráficas de pastel hojas barras Estrellas
Pictogramas Gráficas de cajas Flechas
Gráficas de puntos Gráficas de Glifos
Pirámides normalidad Matriz de
Medidas de: correlaciones
- Tendencias central
- Dispersión
- Percentiles
91. Temas tratados en el libro digital. http://www.statsoft.com/textbook
92. Temas tratados en el libro digital. http://www.statsoft.com/textbook
93. VARIABLES CUANTITATIVAS VARIABLES CUALITATIVAS
POBLACIONES Contínuas Discretas Binominal Multinomial
Una t Wilcoxon Binomial, Z X²
Dos t Mann-Whitney Irwin-Fisher X²
independientes Exacta Fisher
X², Z
Dos dependientes t Wilcoxon McNemar Stuart
Tres o más F ANDEVA X² X²
independientes D.C.A. Kruskal-Wallis Contrastes Contrastes
Una vía
Contrastes Contrastes
Tres o más F ANDEVA
dependientes D.C.A. Friedman Cochran Friedman
Dos vías (Ordinal)
Contrastes Contrastes Contrastes
Dependencia Regresión Wilcoxon
Hipergeométrica
Relación Pearson Spearman 0
94. Análisis Multivariado
• Conjunto de técnicas para el análisis estadístico de datos,
obtenidas a través de la medición de varias variables sobre
cada individuo o unidad estudiada.
• Esas variables están correlacionadas.
ESTRUCTURA DE LOS DATOS
PROVENIENTES DE UN
ESTUDIO
UNIDAD Variables a explicar o Variables Explicativas
dependientes o independientes
Y1, Y2, . . . . . . . . . . . X1, X2, . . . . . .. . . . .Xƿ
.Yɋ
U1
U2
.
.
.
Un
95. Variables independientes
Variables Cualitativa Cuantitativa
dependientes 1 variable >1 variable 1 variable >1 variable
Ninguna Binomial Chi-cuadrado T Matriz de
Medidas de correlaciones
asociación Componentes
Principales
Análisis de factores
Análisis Cluster
Cualitativa Chi-cuadrado Log-Linear Regresión Regresión
1 Exacta Modelos Logística Logística
Fischer Regresión
Logística
Log-Linear Log-Linear Análisis Análisis
>1 Modelos modelos discriminante discriminante
Cuantitativa T Análisis de varianza Regresión lineal Regresión múltiple
1 Análisis de varianza Regresión no lineal
Correlación
T² Hotelling Análisis de varianza Regresión Regresión
>1 Análisis de varianza Multivariado multivariada multivariada
Multivariado Correlación canónica Correlación canónica
Path Analysis
117. Example
Which state has the highest income?
Questions: Is there a relationship between income and education?
Are there any outliers?
Example courtesy 119
InfoVis
of Chris North
123. Summary
Data avalanche
Need scalable,
sophisticated
tools
You are facing
it too
Credit: ncids.org
2008 MySQL Conference & Expo Jacek Becla, SLAC 125
125. Bienvenidos
CENGICAÑA
Visión:
Ser líderes en generar cambios tecnológicos para
incrementar la competitividad de la Agroindustria Azucarera
en la región.
Dr. Mario Melgar
02/03/2012
132. Factores relacionados con el
rendimiento de un cultivo
y = f (A, G, M)
Y = Rendimiento
A = Ambiente
G = Genética
M = Manejo
Fuente: Altieri, M. 1987. Agroecology. Westview Press. 227 p.
133. VARIABLES
RESPUESTA FACTORES
Balance hídrico
Zona agroecológica (1-44)
Grupos de suelo
Finca (1 – n1)
Ambientales
Lote (1 – n2) (total 14,000)
Variedad (67)
TCH Genéticos No. de corte
TAH Mes de cosecha
$/H
Ingenio (1-8) N (1-7)
P (1-4)
Fertilización K (1-4)
Manejo
Riegos (1-4) S (1-3)
Madurantes (1-6)
Edad de cosecha
134. Sistemas de
Información Mapas
Geográfica
Estadística descriptiva
(Gráficos, cuadros)
Bases de
datos Estadística inferencial
Análisis Minería de datos
Análisis
detallado ZAE, finca, lote,
de Mes de cosecha
variedades Factores de manejo
135.
136.
137.
138.
139.
140. BASE DE DATOS DE EXCEL PARA COMPARTIR
Menú Principal
Formularios de
Comparación
Menú Principal Gráficos
Productividad
141. Indicadores de Competitividad
36
Azúcar producida por tonelada de capacitdad de molienda (tib azúcar/ton
Colombia
31 11.5
9.4
6.5
26 9.5
swazilandia 14.6
Sudáfrica Brasil (C.S.) 12.2
capacidad)
7.9
21
9.3
6.6
Brasil (N.E.) Al 02/05/2010
Sudan Australia
10.8
16 Guatemala
México 13.9
China 7.3
India 9.1
11 USA
13.15
Thailand
6
6 7 8 9 10 11 12 13 14 15 16
Rendimiento azúcar (TAH)
Fuente: LMC Sugar Technical Performance - Executive Summary-Sma605 September 2008
142. Gráficos por países, períodos por quinquénios:
1988
Utilización Área
de la Sembrada
País TAH Capacidad
Australia 9.80 12.60 352,023.00
Brasil (C.S.) 8.60 15.00 2,585,063.00
Brasil (N.E.) 5.80 15.40 1,287,453.00
China 4.80 9.40 881,000.00
Colombia 11.10 24.40 140,297.00
Guatemala 6.99 8.80 84,333.00
India 7.10 12.50 3,072,052.00
México 8.00 10.00 535,884.00
South Africa 5.70 19.90 408,743.00
Swaziland 23.90 36,014.00
Thailand 5.30 7.80 559,638.00
USA 9.30 10.60 344,436.00
143. Gráficos por países, períodos por quinquénios:
1998
Utilización Área
de la Sembrada
País TAH Capacidad
Australia 11.60 17.40 420,572.00
Brasil (C.S.) 9.90 18.30 3,250,190.00
Brasil (N.E.) 6.30 12.00 1,105,856.00
China 6.80 9.50 915,878.00
Colombia 12.50 27.90 178,687.00
Guatemala 10.30 12.50 151,540.00
India 8.00 13.60 3,836,021.00
México 9.10 12.70 570,322.00
South Africa 4.90 15.70 397,026.00
Swaziland 13.60 22.00 38,182.00
Thailand 6.40 8.40 963,256.00
USA 8.80 10.60 391,873.00
144. Gráficos por países, períodos por quinquénios:
2008
Utilización Área
de la Sembrada
País TAH Capacidad
Australia 11.50 16.70 453,316.00
Brasil (C.S.) 10.40 22.70 5,035,284.00
Brasil (N.E.) 7.40 17.00 1,120,375.00
China 9.50 13.20 1,128,841.00
Colombia 14.60 31.80 199,910.00
Guatemala 12.20 15.90 197,600.00
India 7.90 12.20 4,294,400.00
México 9.30 14.80 686,855.00
South Africa 6.60 23.50 426,738.00
Swaziland 13.90 24.30 50,720.00
Thailand 7.30 8.60 1,070,630.00
USA 9.10 11.40 393,744.00
145.
146.
147.
148.
149.
150.
151.
152.
153.
154.
155.
156. CONCLUSIONES
1. A nivel mundial esta ocurriendo literalmente una explosión de datos, tanto a
nivel social (redes sociales, comunicación digital, etc.), a nivel comercial
(internet, tarjetas de crédito, etc.) a nivel científico (astronomía, física,
genómica, medicina, etc.). A este fenómeno se le a denominado “BIG
DATA”. Se menciona ya no solo gigabytes sino Tera, peta y exabytes y hasta
zettabytes.
2. Se están desarrollando constantemente tecnologías para la recolección
(sensores, imágenes, etc.) Almacenamiento (datawarehouse, nube, etc),
análisis y visualización de los datos. Los datos deben convertirse en
información y estos en conocimiento.
3. Todos los países, sectores, empresas o personas, que quieran obtener un
valor agregado de este diluvio de datos, deben de prepararse para utilizar la
tecnologías apropiadas.
157. 4. El Big Data Análisis que es la aplicación de técnicas avanzadas de
análisis para conjuntos de grandes volúmenes de datos, esta
generando el surgimiento de cientos de empresas asociadas:
Microsoft, Oracle, SAP, Tableau, Teradata, SAS, Cloudera, MySQL,
Hadoop, Cassandra, Data Miner , Cubenube, etc.
5. Esta surgiendo una nueva ciencia denominada “La Ciencia de los
Datos”, que reúne disciplinas como: Ingeniería de datos, método
científico, matemáticas, estadística, computación avanzada,
visualización y experiencia en áreas especificas para resolver problemas
de análisis de datos. Data Science requiere trabajo multidisciplinario.
158. CONCLUSIONES ESPECIFICAS
DE LA AGROINDUSTRIA AZUCARERA
GUATEMALTECA
1. En cada uno de los eslabones de la cadena de valor de la agroindustria
(campo, fabrica, transporte y comercialización) esta creciendo el volumen de
datos que se generan, algunos ingenios han contratado empresas especificas
para el manejo de los datos: Automatización, manejo integral de toda la
información: Pantaleón (SAP), La Unión (BIOSALC), Magdalena(ORACLE), etc.
2. Para el manejo de información tecnológica de las áreas de trabajo de
CENGICAÑA, se esta desarrollando la base de datos institucional con aportes
principalmente del área de análisis de productividad, sistemas de
información para agricultura de precisión (SIAP), Sistema de información
meteorológica (SIM) y CENGIDOC. Para el desarrollo de la base de datos
institucional cada área deberá aportar la información respectiva y
actualizarse en el uso de las tecnologías de información.
Source: Human Genome Project (http://www.ornl.gov/sci/techresources/Human_Genome/faq/faqs1.shtml)
Source: Visa USA annual report (http://corporate.visa.com/av/corp_report.jsp)
Source: “Gecko: Tracking a Very Large Billing System” (Proc. 2000 Usenix, http://www.usenix.org/publications/library/proceedings/usenix2000/general/full_papers/hume/hume.pdf)