Data analysis worldwide trends

“Tendencias del Análisis de
Datos a Nivel Mundial”

Conferencia presentada en el Curso de:
Métodos de Investigación Cuantitativa
Doctorado en Ciencias Agrícolas y
Ambientales Facultad de Agronomía
Universidad de San Carlos de Guatemala

DR. MARIO MELGAR

Guatemala, 19 de Noviembre 2012

Contenido
 BIG DATA
 ENFOQUES
 DATA SCIENCE
 MINERÍA DE
DATOS
 VISUALIZACIÓN

The next five years will produce more research data than has been produced in all of
previous human history, presenting researchers with daunting discovery challenges.
The data deluge was highlighted and deepened by monumental big bang and astronomy
projects such as the Large Hadron Collider and the planned Square Kilometre Array,
said Ross Wilkinson, executive director of the Monash University-based Australian
National Data Service.

The European Union's collider would produce a petabyte of data each month, while the
data generation of the SKA was so mind-boggling that the term exobyte had been coined
to describe its data output.

"An exabyte is 1000 petabytes; a petabyte is 1000 terabytes; a terabyte is 1000 gigabytes
and a gigabyte is 1000 megabytes," Dr. Wilkinson said.
"You can read about 2GB of text, or about as much text that can fit on two CDs, in a
lifetime, so it's really scary numbers."

SOURCE: THE AUSTRALIAN, APRIL 29, 2009

NOMBRE TAMAÑO

BYTE 1
KBYTE 1000
MEGABYTE 1 000 000
GYGABYTE 1 000 000 000
TERABYTE 1 000 000 000 000

PETABYTE 1 000 000 000 000 000
EXABYTE 1 000 000 000 000 000 000
ZETTABYTE 1 000 000000000000000000

UNIDAD VALOR/EJEMPLO
Byte Es la unidad elemental de información que
puede guardar un carácter: letra, número o
signo

2 kilobytes Una página
5 megabytes Obras completas de Shakespare; 30 segundos
de video.

100 megabytes Radiografia Digital.

500 megabytes CD

1 gigabyte (GB) Sinfonía en sonido de alta fidelidad.
2 gigabytes 20 metros de estantería de libros, lo que una
persona puede leer en toda su vida
20 gigabytes Archivos de audio de la obra de Beethoven
Terabyte (TB) 1000 GB
1 terabyte Todas las películas radiográficas de un hospital de
alta tecnología.
50000 árboles transformados en papel e impresos.

10 terabytes Colección impresa de la biblioteca del Congreso de
EE.UU.
Petabytes (PB) 1000 TB
2 petabytes Todas las bibliotecas de investigación académica de
EE.UU.
Exabyte (EB) 10000 PB
5 exabytes Todas las palabras dichas alguna vez por los seres
humanos.
Zettabyte 1000 Exabytes
Fuente: Ambrosi, H. 2008. La Verdad de las
Estadisticas. Ediciones Lumiere.

1. Internet
2. Celulares
3. NASA
4. Astronomía
5. Universo
6. Genómica
7. Física
8. Imágenes Médicas
9. AT&T, WALMART, etc.

The Conversation Prism Infographic
http://jess3.com/the-conversation-prism-v3/

2008 MySQL Conference &
Jacek Becla, SLAC
Expo

Science & Petabytes
NASA: Earth Observing System

4 PB in 2005 (images)

2008 MySQL Conference & Expo Jacek Becla, SLAC 21

Science & Petabytes
Astronomy
Huge telescopes
Multi-gigapixel cameras
Getting ready for…
– Trillions of observations
– 50+ PB of images
– 20+ PB database


Untangling the Universe
 Needle in haystack
Astronomy: It’s All About  Spatial correlations
“Astronomical Objects”  Time series

Overlapping
Moving
Disappearing
Highly correlated


Science & Petabytes
Genomics
Trying to put together database
of all known DNA sequences
Multi-petabytes


How does the human genome stack
up?
Organism Genome Size (Bases) Estimated Genes
Amoeba dubia (ameba) 670 billion ?

Porocentrum micans (protista) 245 billion 92,000

Pez leopardo (Propterus aethiopicus) 130 billion ?

Caña de azúcar (S. officinarum) 7.4 billion 35,000

Human (Homo sapiens) 3 billion 25,000

Laboratory mouse (M. musculus) 2.6 billion 30,000

Mustard weed (A. thaliana) 100 million 25,000

Roundworm (C. elegans) 97 million 19,000

Fruit fly (D. melanogaster) 137 million 13,000

Yeast (S. cerevisiae) 12.1 million 6,000
Bacterium (E. coli) 4.6 million 3,200
Human immunodeficiency virus (HIV) 9700 9

25

Examples of Large Data Sets:
Genomics

• 25,000 genes in
human genome
• 3 billion bases
• 3 Gigabytes of genetic
data

26

Understanding Dynamics of
Biological Processes
 Needle in haystack
 Correlations
 Time series


Science & Petabytes
High Energy Physics: LHC
½ PB/sec
– Small fraction saved

Trillions of collisions
15 PB/year
– Starting later this year


Credit card transactions

• 142 billion transactions
in 2004 in US alone
• 115 Terabytes of data
transmitted to
processing center in
2004

44

Phone call billing records

• 250M calls/day
• 60G calls/year
• 40 bytes/call
• 2.5 Terabytes/year

45

Science, Industry & Petabytes
150

Google
100 ? Yahoo!
Microsoft
PB

AT&T
50 Walmart
EBay
Facebook
few others
0
2000 2005 2010 2015 2020 2025
year


Competitive Edger or
Colossal Migraine?

Big Challenge

• How do we make sense of it?
• How do we harness this data in decision-
making processes?

InfoVis 51

Enfoques para el Manejo de los
Datos
53

1. Empresas Especializadas en
Gerencia de Datos
2. Data Science
3. Minería de Datos
4. Visualización

Grandes Empresas

IBM
Microsoft
Oracle
SAP
IMB
SAS
Etc. …Están surgiendo cientos…

Enfoques para el Manejo de los
Datos
81

1. Empresas Especializadas en
Gerencia de Datos
2. Data Science
3. Minería de Datos
4. Visualización

Data Science: An Introduction/A
History of Data Science
 Chapter Summary
Data Science is a composite of a number of pre-existing disciplines. It is a young
professional and academic discipline. The term was first coined in 2001. Its popularity has
exploded since 2010, pushed by the need for teams of people to analyze the big data that
corporations and governments are collecting. The Google search engine is a classic
example of the power of data science.

 Discussion
Data science is a discipline that incorporates varying degrees of Data Engineering,
Scientific Method, Math, Statistics, Advanced Computing, Visualization, Hacker mindset,
and Domain Expertise. A practitioner of Data Science is called a Data Scientist. Data
Scientists solve complex data analysis problems.

 Origins
The term "Data Science" was coined at the beginning of the 21st Century. It is attributed to
William S. Cleveland[1] who, in 2001, wrote "Data Science: An Action Plan for Expanding
the Technical Areas of the Field of Statistics."[2] About a year later, the International
Council for Science: Committee on Data for Science and Technology[3] started publishing
the CODATA Data Science Journal beginning April 2002.[4] Shortly thereafter, in January
of 2003, Columbia University began publishing The Journal of Data Science .

El “Ecosistema” de los datos

Data Mining: Confluence of Multiple
Disciplines

ANÁLISIS UNIVARIADO ASOCIACIÓN ENTRE VARIABLES

Variables Variables Cualitativas Cualitativas con Cuantitativas con Análisis
Cualitativas Cuantitativas con cuantitativas cuantitativas multivariado
cualitativas
Frecuencias Distr. De frecuencias Tablas de Tablas de clasificación Diagrama de Gráficas de
Proporciones Histogramas Contingencia Gráficas de medias dispersión Histogramas
Gráficas de barras Gráficas de tallos y Gráficas de 3D Caras de Chernoff
Gráficas de pastel hojas barras Estrellas
Pictogramas Gráficas de cajas Flechas
Gráficas de puntos Gráficas de Glifos
Pirámides normalidad Matriz de
Medidas de: correlaciones
- Tendencias central
- Dispersión
- Percentiles

Temas tratados en el libro digital. http://www.statsoft.com/textbook

VARIABLES CUANTITATIVAS VARIABLES CUALITATIVAS
POBLACIONES Contínuas Discretas Binominal Multinomial
Una t Wilcoxon Binomial, Z X²
Dos t Mann-Whitney Irwin-Fisher X²
independientes Exacta Fisher
X², Z

Dos dependientes t Wilcoxon McNemar Stuart
Tres o más F ANDEVA X² X²
independientes D.C.A. Kruskal-Wallis Contrastes Contrastes
Una vía

Contrastes Contrastes
Tres o más F ANDEVA
dependientes D.C.A. Friedman Cochran Friedman
Dos vías (Ordinal)

Contrastes Contrastes Contrastes
Dependencia Regresión Wilcoxon
Hipergeométrica
Relación Pearson Spearman 0

Análisis Multivariado
• Conjunto de técnicas para el análisis estadístico de datos,
obtenidas a través de la medición de varias variables sobre
cada individuo o unidad estudiada.
• Esas variables están correlacionadas.
ESTRUCTURA DE LOS DATOS
PROVENIENTES DE UN
ESTUDIO
UNIDAD Variables a explicar o Variables Explicativas
dependientes o independientes
Y1, Y2, . . . . . . . . . . . X1, X2, . . . . . .. . . . .Xƿ
.Yɋ
U1
U2
.
.
.
Un

Variables independientes
Variables Cualitativa Cuantitativa
dependientes 1 variable >1 variable 1 variable >1 variable

Ninguna Binomial Chi-cuadrado T Matriz de
Medidas de correlaciones
asociación Componentes
Principales
Análisis de factores
Análisis Cluster
Cualitativa Chi-cuadrado Log-Linear Regresión Regresión
1 Exacta Modelos Logística Logística
Fischer Regresión
Logística

Log-Linear Log-Linear Análisis Análisis
>1 Modelos modelos discriminante discriminante

Cuantitativa T Análisis de varianza Regresión lineal Regresión múltiple
1 Análisis de varianza Regresión no lineal
Correlación

T² Hotelling Análisis de varianza Regresión Regresión
>1 Análisis de varianza Multivariado multivariada multivariada
Multivariado Correlación canónica Correlación canónica
Path Analysis

Example
Which state has the highest income?
Questions: Is there a relationship between income and education?
Are there any outliers?

Example courtesy 119
InfoVis
of Chris North

Visualize the Data
College Degree %

InfoVis Per Capita Income 120

Atlanta Flight Traffic

AJC

InfoVis 121

London Subway

InfoVis 122

Summary
Data avalanche
Need scalable,
sophisticated
tools
You are facing
it too

Credit: ncids.org


Bienvenidos
CENGICAÑA
Visión:
Ser líderes en generar cambios tecnológicos para
incrementar la competitividad de la Agroindustria Azucarera
en la región.

Dr. Mario Melgar
02/03/2012

Evolución de la productividad
Guatemala

11

10 Quinquenio TCH % Sac TAH
9
1959/60* 53 9.70 5.20
8
1960/65 57 9.34 5.34
7
1965/70 62 9.24 5.76
6
1970/75 74 8.83 6.58
TAH

5
1975/80 77 8.49 6.54
4

3
1980/85 76 9.10 6.58

2 1985/90 71 9.66 6.90
1 1990/95 82 10.10 8.32
0 1995/00 85 10.42 8.87
60 65 70 75 80 85 90 95 00 05 10
2000/05 90 11.33 10.17
2005/10 94 10.75 10.05
Año

Rendimiento de Azúcar/TAH 1960-2010

Evolución de análisis de
productividad de la
Agroindustria Azucarera
Guatemalteca

Factores relacionados con el
rendimiento de un cultivo

y = f (A, G, M)
Y = Rendimiento
A = Ambiente
G = Genética
M = Manejo

Fuente: Altieri, M. 1987. Agroecology. Westview Press. 227 p.

VARIABLES
RESPUESTA FACTORES

Balance hídrico
Zona agroecológica (1-44)
Grupos de suelo
Finca (1 – n1)
Ambientales
Lote (1 – n2) (total 14,000)

Variedad (67)
TCH Genéticos No. de corte
TAH Mes de cosecha
$/H
Ingenio (1-8) N (1-7)
P (1-4)
Fertilización K (1-4)
Manejo
Riegos (1-4) S (1-3)
Madurantes (1-6)
Edad de cosecha

Sistemas de
Información Mapas
Geográfica

Estadística descriptiva
(Gráficos, cuadros)
Bases de
datos Estadística inferencial
Análisis Minería de datos

Análisis
detallado ZAE, finca, lote,
de Mes de cosecha
variedades Factores de manejo

BASE DE DATOS DE EXCEL PARA COMPARTIR

Menú Principal
Formularios de
Comparación

Menú Principal Gráficos
Productividad

Indicadores de Competitividad

36
Azúcar producida por tonelada de capacitdad de molienda (tib azúcar/ton

Colombia
31 11.5
9.4
6.5

26 9.5

swazilandia 14.6
Sudáfrica Brasil (C.S.) 12.2
capacidad)

7.9
21
9.3
6.6
Brasil (N.E.) Al 02/05/2010
Sudan Australia
10.8
16 Guatemala
México 13.9

China 7.3
India 9.1
11 USA
13.15

Thailand

6
6 7 8 9 10 11 12 13 14 15 16
Rendimiento azúcar (TAH)

Fuente: LMC Sugar Technical Performance - Executive Summary-Sma605 September 2008

Gráficos por países, períodos por quinquénios:
1988

Utilización Área
de la Sembrada
País TAH Capacidad
Australia 9.80 12.60 352,023.00
Brasil (C.S.) 8.60 15.00 2,585,063.00
Brasil (N.E.) 5.80 15.40 1,287,453.00
China 4.80 9.40 881,000.00
Colombia 11.10 24.40 140,297.00
Guatemala 6.99 8.80 84,333.00
India 7.10 12.50 3,072,052.00
México 8.00 10.00 535,884.00
South Africa 5.70 19.90 408,743.00
Swaziland 23.90 36,014.00
Thailand 5.30 7.80 559,638.00
USA 9.30 10.60 344,436.00

1998

Utilización Área
de la Sembrada
País TAH Capacidad
Australia 11.60 17.40 420,572.00
Brasil (C.S.) 9.90 18.30 3,250,190.00
Brasil (N.E.) 6.30 12.00 1,105,856.00
China 6.80 9.50 915,878.00
Colombia 12.50 27.90 178,687.00
Guatemala 10.30 12.50 151,540.00
India 8.00 13.60 3,836,021.00
México 9.10 12.70 570,322.00
South Africa 4.90 15.70 397,026.00
Swaziland 13.60 22.00 38,182.00
Thailand 6.40 8.40 963,256.00
USA 8.80 10.60 391,873.00

2008

Utilización Área
de la Sembrada
País TAH Capacidad
Australia 11.50 16.70 453,316.00
Brasil (C.S.) 10.40 22.70 5,035,284.00
Brasil (N.E.) 7.40 17.00 1,120,375.00
China 9.50 13.20 1,128,841.00
Colombia 14.60 31.80 199,910.00
Guatemala 12.20 15.90 197,600.00
India 7.90 12.20 4,294,400.00
México 9.30 14.80 686,855.00
South Africa 6.60 23.50 426,738.00
Swaziland 13.90 24.30 50,720.00
Thailand 7.30 8.60 1,070,630.00
USA 9.10 11.40 393,744.00

CONCLUSIONES
1. A nivel mundial esta ocurriendo literalmente una explosión de datos, tanto a
nivel social (redes sociales, comunicación digital, etc.), a nivel comercial
(internet, tarjetas de crédito, etc.) a nivel científico (astronomía, física,
genómica, medicina, etc.). A este fenómeno se le a denominado “BIG
DATA”. Se menciona ya no solo gigabytes sino Tera, peta y exabytes y hasta
zettabytes.

2. Se están desarrollando constantemente tecnologías para la recolección
(sensores, imágenes, etc.) Almacenamiento (datawarehouse, nube, etc),
análisis y visualización de los datos. Los datos deben convertirse en
información y estos en conocimiento.

3. Todos los países, sectores, empresas o personas, que quieran obtener un
valor agregado de este diluvio de datos, deben de prepararse para utilizar la
tecnologías apropiadas.

4. El Big Data Análisis que es la aplicación de técnicas avanzadas de
análisis para conjuntos de grandes volúmenes de datos, esta
generando el surgimiento de cientos de empresas asociadas:
Microsoft, Oracle, SAP, Tableau, Teradata, SAS, Cloudera, MySQL,
Hadoop, Cassandra, Data Miner , Cubenube, etc.

5. Esta surgiendo una nueva ciencia denominada “La Ciencia de los
Datos”, que reúne disciplinas como: Ingeniería de datos, método
científico, matemáticas, estadística, computación avanzada,
visualización y experiencia en áreas especificas para resolver problemas
de análisis de datos. Data Science requiere trabajo multidisciplinario.

CONCLUSIONES ESPECIFICAS
DE LA AGROINDUSTRIA AZUCARERA
GUATEMALTECA
1. En cada uno de los eslabones de la cadena de valor de la agroindustria
(campo, fabrica, transporte y comercialización) esta creciendo el volumen de
datos que se generan, algunos ingenios han contratado empresas especificas
para el manejo de los datos: Automatización, manejo integral de toda la
información: Pantaleón (SAP), La Unión (BIOSALC), Magdalena(ORACLE), etc.

2. Para el manejo de información tecnológica de las áreas de trabajo de
CENGICAÑA, se esta desarrollando la base de datos institucional con aportes
principalmente del área de análisis de productividad, sistemas de
información para agricultura de precisión (SIAP), Sistema de información
meteorológica (SIM) y CENGIDOC. Para el desarrollo de la base de datos
institucional cada área deberá aportar la información respectiva y
actualizarse en el uso de las tecnologías de información.

Muchas gracias
Foto: Paulo Stupiello

Data analysis worldwide trends

Recomendados

Recomendados

Más contenido relacionado

Similar a Data analysis worldwide trends

Similar a Data analysis worldwide trends (20)

Más de Mario Melgar M

Más de Mario Melgar M (7)

Último

Último (20)

Data analysis worldwide trends

Notas del editor