SlideShare una empresa de Scribd logo
1 de 159
“Tendencias del Análisis de
  Datos a Nivel Mundial”

            Conferencia presentada en el Curso de:
            Métodos de Investigación Cuantitativa
            Doctorado en Ciencias Agrícolas y
            Ambientales Facultad de Agronomía
            Universidad de San Carlos de Guatemala


                                          DR. MARIO MELGAR


        Guatemala, 19 de Noviembre 2012
Contenido
 BIG DATA
 ENFOQUES
 DATA SCIENCE
 MINERÍA DE
  DATOS
 VISUALIZACIÓN
The next five years will produce more research data than has been produced in all of
previous human history, presenting researchers with daunting discovery challenges.
The data deluge was highlighted and deepened by monumental big bang and astronomy
projects such as the Large Hadron Collider and the planned Square Kilometre Array,
said Ross Wilkinson, executive director of the Monash University-based Australian
National Data Service.

The European Union's collider would produce a petabyte of data each month, while the
data generation of the SKA was so mind-boggling that the term exobyte had been coined
to describe its data output.

"An exabyte is 1000 petabytes; a petabyte is 1000 terabytes; a terabyte is 1000 gigabytes
and a gigabyte is 1000 megabytes," Dr. Wilkinson said.
"You can read about 2GB of text, or about as much text that can fit on two CDs, in a
lifetime, so it's really scary numbers."




                                  SOURCE: THE AUSTRALIAN, APRIL 29, 2009
NOMBRE               TAMAÑO

BYTE                1
KBYTE               1000
MEGABYTE            1 000 000
GYGABYTE            1 000 000 000
TERABYTE            1 000 000 000 000

PETABYTE            1 000 000 000 000 000
EXABYTE             1 000 000 000 000 000 000
ZETTABYTE           1 000 000000000000000000
UNIDAD                 VALOR/EJEMPLO
Byte                     Es la unidad elemental de información que
                         puede guardar un carácter: letra, número o
                         signo

2 kilobytes              Una página
5 megabytes              Obras completas de Shakespare; 30 segundos
                         de video.

100 megabytes            Radiografia Digital.

500 megabytes            CD
1 gigabyte (GB)                              Sinfonía en sonido de alta fidelidad.
2 gigabytes                                  20 metros de estantería de libros, lo que una
                                             persona puede leer en toda su vida
20 gigabytes                                 Archivos de audio de la obra de Beethoven
Terabyte (TB)                                1000 GB
1 terabyte                                   Todas las películas radiográficas de un hospital de
                                             alta tecnología.
                                             50000 árboles transformados en papel e impresos.

10 terabytes                                 Colección impresa de la biblioteca del Congreso de
                                             EE.UU.
Petabytes (PB)                               1000 TB
2 petabytes                                  Todas las bibliotecas de investigación académica de
                                             EE.UU.
Exabyte (EB)                                 10000 PB
5 exabytes                                   Todas las palabras dichas alguna vez por los seres
                                             humanos.
Zettabyte                                    1000 Exabytes
Fuente: Ambrosi, H. 2008. La Verdad de las
Estadisticas. Ediciones Lumiere.
1.   Internet
2.   Celulares
3.   NASA
4.   Astronomía
5.   Universo
6.   Genómica
7.   Física
8.   Imágenes Médicas
9.   AT&T, WALMART, etc.
The Conversation Prism Infographic
http://jess3.com/the-conversation-prism-v3/
2008 MySQL Conference &
                          Jacek Becla, SLAC
Expo
Science & Petabytes
 NASA: Earth Observing System

      4 PB in 2005 (images)




2008 MySQL Conference & Expo   Jacek Becla, SLAC   21
Science & Petabytes
 Astronomy
   Huge telescopes
      Multi-gigapixel cameras
      Getting ready for…
        – Trillions of observations
        – 50+ PB of images
        – 20+ PB database




2008 MySQL Conference & Expo   Jacek Becla, SLAC   22
Untangling the Universe
                                                    Needle in haystack
      Astronomy: It’s All About                     Spatial correlations
      “Astronomical Objects”                        Time series

            Overlapping
            Moving
            Disappearing
            Highly correlated


2008 MySQL Conference & Expo   Jacek Becla, SLAC                        23
Science & Petabytes
 Genomics
  Trying to put together database
  of all known DNA sequences
      Multi-petabytes




2008 MySQL Conference & Expo   Jacek Becla, SLAC   24
How does the human genome stack
                     up?
Organism                               Genome Size (Bases)   Estimated Genes
Amoeba dubia (ameba)                   670 billion           ?

Porocentrum micans (protista)          245 billion           92,000

Pez leopardo (Propterus aethiopicus)   130 billion           ?

Caña de azúcar (S. officinarum)        7.4 billion           35,000

Human (Homo sapiens)                   3 billion             25,000

Laboratory mouse (M. musculus)         2.6 billion           30,000

Mustard weed (A. thaliana)             100 million           25,000

Roundworm (C. elegans)                 97 million            19,000

Fruit fly (D. melanogaster)            137 million           13,000

Yeast (S. cerevisiae)                  12.1 million          6,000
Bacterium (E. coli)                    4.6 million           3,200
Human immunodeficiency virus (HIV)     9700                  9

                                                                               25
Examples of Large Data Sets:
Genomics

                  • 25,000 genes in
                    human genome
                  • 3 billion bases
                  • 3 Gigabytes of genetic
                    data



                                26
Understanding Dynamics of
         Biological Processes
                                Needle in haystack
                                Correlations
                                Time series




2008 MySQL Conference & Expo         Jacek Becla, SLAC   27
29
30
31
32
33
34
35
36
37
38
39
40
41
Science & Petabytes
 High Energy Physics: LHC
      ½ PB/sec
        – Small fraction saved

      Trillions of collisions
      15 PB/year
        – Starting later this year




2008 MySQL Conference & Expo    Jacek Becla, SLAC   42
43
Examples of Large Data Sets:
Credit card transactions

                     • 142 billion transactions
                       in 2004 in US alone
                     • 115 Terabytes of data
                       transmitted to
                       processing center in
                       2004



                                    44
Examples of Large Data Sets:
Phone call billing records

                     • 250M calls/day
                     • 60G calls/year
                     • 40 bytes/call
                     • 2.5 Terabytes/year




                                       45
Science, Industry & Petabytes
                  150



                                                  Google
                  100                       ?     Yahoo!
                                                 Microsoft
             PB




                                 AT&T
                   50           Walmart
                                 EBay
                               Facebook
                               few others
                    0
                     2000          2005         2010            2015   2020   2025
                                                       year



2008 MySQL Conference & Expo                Jacek Becla, SLAC                        46
Enfoques
Competitive Edger or
 Colossal Migraine?
Big Challenge

• How do we make sense of it?
• How do we harness this data in decision-
  making processes?




InfoVis                                      51
Enfoques para el Manejo de los
             Datos
                53


1. Empresas    Especializadas   en
   Gerencia de Datos
2. Data Science
3. Minería de Datos
4. Visualización
Grandes Empresas

IBM
Microsoft
Oracle
SAP
IMB
SAS
Etc.        …Están surgiendo cientos…
Enfoques para el Manejo de los
             Datos
                81


1. Empresas    Especializadas   en
   Gerencia de Datos
2. Data Science
3. Minería de Datos
4. Visualización
Data Science: An Introduction/A
           History of Data Science
 Chapter Summary
  Data Science is a composite of a number of pre-existing disciplines. It is a young
  professional and academic discipline. The term was first coined in 2001. Its popularity has
  exploded since 2010, pushed by the need for teams of people to analyze the big data that
  corporations and governments are collecting. The Google search engine is a classic
  example of the power of data science.

 Discussion
  Data science is a discipline that incorporates varying degrees of Data Engineering,
  Scientific Method, Math, Statistics, Advanced Computing, Visualization, Hacker mindset,
  and Domain Expertise. A practitioner of Data Science is called a Data Scientist. Data
  Scientists solve complex data analysis problems.

 Origins
  The term "Data Science" was coined at the beginning of the 21st Century. It is attributed to
  William S. Cleveland[1] who, in 2001, wrote "Data Science: An Action Plan for Expanding
  the Technical Areas of the Field of Statistics."[2] About a year later, the International
  Council for Science: Committee on Data for Science and Technology[3] started publishing
  the CODATA Data Science Journal beginning April 2002.[4] Shortly thereafter, in January
  of 2003, Columbia University began publishing The Journal of Data Science .
El “Ecosistema” de los datos
Data Mining: Confluence of Multiple
Disciplines
ANÁLISIS UNIVARIADO                           ASOCIACIÓN ENTRE VARIABLES

    Variables            Variables            Cualitativas     Cualitativas con        Cuantitativas con      Análisis
   Cualitativas         Cuantitativas             con           cuantitativas            cuantitativas       multivariado
                                              cualitativas
Frecuencias          Distr. De frecuencias    Tablas de      Tablas de clasificación   Diagrama de         Gráficas de
Proporciones         Histogramas              Contingencia   Gráficas de medias        dispersión          Histogramas
Gráficas de barras   Gráficas de tallos y     Gráficas de                              3D                  Caras de Chernoff
Gráficas de pastel   hojas                    barras                                                       Estrellas
Pictogramas          Gráficas de cajas                                                                     Flechas
Gráficas de puntos   Gráficas de                                                                           Glifos
Pirámides            normalidad                                                                            Matriz de
                     Medidas de:                                                                           correlaciones
                       - Tendencias central
                       - Dispersión
                       - Percentiles
Temas tratados en el libro digital. http://www.statsoft.com/textbook
Temas tratados en el libro digital. http://www.statsoft.com/textbook
VARIABLES CUANTITATIVAS            VARIABLES CUALITATIVAS
POBLACIONES        Contínuas        Discretas        Binominal         Multinomial
Una                t                Wilcoxon         Binomial, Z       X²
Dos                t                Mann-Whitney     Irwin-Fisher      X²
independientes                                       Exacta Fisher
                                                     X², Z

Dos dependientes   t                Wilcoxon         McNemar           Stuart
Tres o más         F ANDEVA                          X²                X²
independientes     D.C.A.           Kruskal-Wallis   Contrastes        Contrastes
                   Una vía

                   Contrastes       Contrastes
Tres o más         F ANDEVA
dependientes       D.C.A.           Friedman         Cochran           Friedman
                   Dos vías                                            (Ordinal)

                   Contrastes       Contrastes       Contrastes
Dependencia        Regresión        Wilcoxon
                                                     Hipergeométrica
Relación           Pearson          Spearman         0
Análisis Multivariado
• Conjunto de técnicas para el análisis estadístico de datos,
  obtenidas a través de la medición de varias variables sobre
  cada individuo o unidad estudiada.
• Esas variables están correlacionadas.
                  ESTRUCTURA DE LOS DATOS
                      PROVENIENTES DE UN
                           ESTUDIO
      UNIDAD            Variables a explicar o          Variables Explicativas
                        dependientes                    o independientes
                        Y1, Y2, . . . . . . . . . . .   X1, X2, . . . . . .. . . . .Xƿ
                        .Yɋ
      U1
      U2
      .
      .
      .
      Un
Variables independientes
   Variables                      Cualitativa                                  Cuantitativa
 dependientes        1 variable                 >1 variable         1 variable             >1 variable


Ninguna         Binomial                Chi-cuadrado           T                      Matriz de
                                        Medidas de                                    correlaciones
                                        asociación                                    Componentes
                                                                                      Principales
                                                                                      Análisis de factores
                                                                                      Análisis Cluster
Cualitativa     Chi-cuadrado            Log-Linear             Regresión              Regresión
1               Exacta                  Modelos                Logística              Logística
                Fischer                 Regresión
                                        Logística

                Log-Linear              Log-Linear             Análisis               Análisis
>1              Modelos                 modelos                discriminante          discriminante

Cuantitativa    T                       Análisis de varianza   Regresión lineal       Regresión múltiple
1               Análisis de varianza                           Regresión no lineal
                                                               Correlación

                T² Hotelling            Análisis de varianza   Regresión              Regresión
>1              Análisis de varianza    Multivariado           multivariada           multivariada
                Multivariado                                   Correlación canónica   Correlación canónica
                                                                                      Path Analysis
SAS


 SQL
XL Miner
Visualización
Example
                       Which state has the highest income?
          Questions:   Is there a relationship between income and education?
                       Are there any outliers?




                                                       Example courtesy   119
InfoVis
                                                       of Chris North
Visualize the Data
College Degree %




     InfoVis       Per Capita Income   120
Atlanta Flight Traffic




          AJC

InfoVis                  121
London Subway




InfoVis         122
• Tabla periodica
Summary
            Data avalanche
            Need scalable,
            sophisticated
            tools
            You are facing
            it too



                                          Credit: ncids.org


2008 MySQL Conference & Expo    Jacek Becla, SLAC             125
HANS
Bienvenidos
           CENGICAÑA
                            Visión:
      Ser líderes en generar cambios tecnológicos para
incrementar la competitividad de la Agroindustria Azucarera
                         en la región.



                                            Dr. Mario Melgar
                                                      02/03/2012
Evolución de la productividad
                         Guatemala

      11

      10                                                            Quinquenio   TCH   % Sac   TAH
       9
                                                                     1959/60*    53    9.70    5.20
       8
                                                                     1960/65     57    9.34    5.34
       7
                                                                     1965/70     62    9.24    5.76
       6
                                                                     1970/75     74    8.83    6.58
TAH




       5
                                                                     1975/80     77    8.49    6.54
       4

       3
                                                                     1980/85     76    9.10    6.58

       2                                                             1985/90     71    9.66    6.90
       1                                                             1990/95     82    10.10   8.32
       0                                                             1995/00     85    10.42   8.87
           60   65   70   75   80     85   90   95   00   05   10
                                                                     2000/05     90    11.33   10.17
                                                                     2005/10     94    10.75   10.05
                                    Año

Rendimiento de Azúcar/TAH 1960-2010
Evolución de análisis de
  productividad de la
Agroindustria Azucarera
     Guatemalteca
Factores relacionados con el
           rendimiento de un cultivo



                               y = f (A, G, M)
Y = Rendimiento
A = Ambiente
G = Genética
M = Manejo

Fuente: Altieri, M. 1987. Agroecology. Westview Press. 227 p.
VARIABLES
RESPUESTA                          FACTORES

                                                           Balance hídrico
                          Zona agroecológica (1-44)
                                                           Grupos de suelo
                          Finca (1 – n1)
            Ambientales
                          Lote (1 – n2) (total 14,000)



                           Variedad (67)
   TCH      Genéticos      No. de corte
   TAH                     Mes de cosecha
   $/H
                          Ingenio (1-8)          N (1-7)
                                                 P (1-4)
                          Fertilización          K (1-4)
            Manejo
                          Riegos (1-4)           S (1-3)
                          Madurantes (1-6)
                          Edad de cosecha
Sistemas de
           Información   Mapas
           Geográfica


                         Estadística descriptiva
                         (Gráficos, cuadros)
           Bases de
           datos         Estadística inferencial
Análisis                 Minería de datos




           Análisis
           detallado     ZAE, finca, lote,
           de            Mes de cosecha
           variedades    Factores de manejo
BASE DE DATOS DE EXCEL PARA COMPARTIR



                                                                  Menú Principal
                                                                  Formularios de
                                                                   Comparación




                                        Menú Principal Gráficos
                                           Productividad
Indicadores de Competitividad

                                                                          36
Azúcar producida por tonelada de capacitdad de molienda (tib azúcar/ton




                                                                                                                                                                                      Colombia
                                                                          31                                                                                                                     11.5
                                                                                                                                                                                                 9.4
                                                                                                                                                                                                 6.5

                                                                          26                                                                                                                     9.5

                                                                                                                                                                              swazilandia        14.6
                                                                                    Sudáfrica                          Brasil (C.S.)                                                             12.2
                              capacidad)




                                                                                                                                                                                                 7.9
                                                                          21
                                                                                                                                                                                                 9.3
                                                                                                                                                                                                 6.6
                                                                                   Brasil (N.E.)                                                                      Al 02/05/2010
                                                                                                                                            Sudan Australia
                                                                                                                                                                                                 10.8
                                                                          16                                                                              Guatemala
                                                                                                                      México                                                                     13.9

                                                                                                                       China                                                                     7.3
                                                                                                       India                                                                                     9.1
                                                                          11                                         USA
                                                                                                                                                                                                 13.15

                                                                                             Thailand

                                                                           6
                                                                               6       7           8             9          10             11               12   13         14         15              16
                                                                                                                                 Rendimiento azúcar (TAH)


                                                Fuente: LMC Sugar Technical Performance - Executive Summary-Sma605 September 2008
Gráficos por países, períodos por quinquénios:
                                                           1988


                        Utilización     Área
                           de la     Sembrada
     País        TAH    Capacidad
Australia        9.80     12.60      352,023.00
Brasil (C.S.)    8.60     15.00     2,585,063.00
Brasil (N.E.)    5.80     15.40     1,287,453.00
China            4.80       9.40     881,000.00
Colombia        11.10     24.40      140,297.00
Guatemala        6.99       8.80      84,333.00
India            7.10     12.50     3,072,052.00
México           8.00     10.00      535,884.00
South Africa     5.70     19.90      408,743.00
Swaziland                 23.90       36,014.00
Thailand        5.30        7.80     559,638.00
USA             9.30      10.60      344,436.00
Gráficos por países, períodos por quinquénios:
                                                           1998


                        Utilización     Área
                           de la     Sembrada
     País        TAH    Capacidad
Australia       11.60     17.40      420,572.00
Brasil (C.S.)    9.90     18.30     3,250,190.00
Brasil (N.E.)    6.30     12.00     1,105,856.00
China            6.80       9.50     915,878.00
Colombia        12.50     27.90      178,687.00
Guatemala       10.30     12.50      151,540.00
India            8.00     13.60     3,836,021.00
México           9.10     12.70      570,322.00
South Africa     4.90     15.70      397,026.00
Swaziland       13.60     22.00       38,182.00
Thailand         6.40       8.40     963,256.00
USA              8.80     10.60      391,873.00
Gráficos por países, períodos por quinquénios:
                                                             2008


                        Utilización      Área
                           de la       Sembrada
     País        TAH    Capacidad
Australia       11.50     16.70        453,316.00
Brasil (C.S.)   10.40     22.70       5,035,284.00
Brasil (N.E.)    7.40     17.00       1,120,375.00
China            9.50     13.20       1,128,841.00
Colombia        14.60     31.80        199,910.00
Guatemala       12.20     15.90        197,600.00
India            7.90     12.20       4,294,400.00
México           9.30     14.80        686,855.00
South Africa     6.60     23.50        426,738.00
Swaziland       13.90     24.30         50,720.00
Thailand         7.30       8.60      1,070,630.00
USA              9.10     11.40        393,744.00
CONCLUSIONES
1. A nivel mundial esta ocurriendo literalmente una explosión de datos, tanto a
   nivel social (redes sociales, comunicación digital, etc.), a nivel comercial
   (internet, tarjetas de crédito, etc.) a nivel científico (astronomía, física,
   genómica, medicina, etc.). A este fenómeno se le a denominado “BIG
   DATA”. Se menciona ya no solo gigabytes sino Tera, peta y exabytes y hasta
   zettabytes.

2. Se están desarrollando constantemente tecnologías para la recolección
   (sensores, imágenes, etc.) Almacenamiento (datawarehouse, nube, etc),
   análisis y visualización de los datos. Los datos deben convertirse en
   información y estos en conocimiento.

3. Todos los países, sectores, empresas o personas, que quieran obtener un
   valor agregado de este diluvio de datos, deben de prepararse para utilizar la
   tecnologías apropiadas.
4. El Big Data Análisis que es la aplicación de técnicas avanzadas de
   análisis para conjuntos de grandes volúmenes de datos, esta
   generando el surgimiento de cientos de empresas asociadas:
   Microsoft, Oracle, SAP, Tableau, Teradata, SAS, Cloudera, MySQL,
   Hadoop, Cassandra, Data Miner , Cubenube, etc.

5. Esta surgiendo una nueva ciencia denominada “La Ciencia de los
   Datos”, que reúne disciplinas como: Ingeniería de datos, método
   científico, matemáticas, estadística, computación avanzada,
   visualización y experiencia en áreas especificas para resolver problemas
   de análisis de datos. Data Science requiere trabajo multidisciplinario.
CONCLUSIONES ESPECIFICAS
  DE LA AGROINDUSTRIA AZUCARERA
          GUATEMALTECA
1. En cada uno de los eslabones de la cadena de valor de la agroindustria
   (campo, fabrica, transporte y comercialización) esta creciendo el volumen de
   datos que se generan, algunos ingenios han contratado empresas especificas
   para el manejo de los datos: Automatización, manejo integral de toda la
   información: Pantaleón (SAP), La Unión (BIOSALC), Magdalena(ORACLE), etc.


2. Para el manejo de información tecnológica de las áreas de trabajo de
   CENGICAÑA, se esta desarrollando la base de datos institucional con aportes
   principalmente del área de análisis de productividad, sistemas de
   información para agricultura de precisión (SIAP), Sistema de información
   meteorológica (SIM) y CENGIDOC. Para el desarrollo de la base de datos
   institucional cada área deberá aportar la información respectiva y
   actualizarse en el uso de las tecnologías de información.
Muchas gracias
Foto: Paulo Stupiello

Más contenido relacionado

Similar a Data analysis worldwide trends

Introduccion a la bioinformatica
Introduccion a la bioinformaticaIntroduccion a la bioinformatica
Introduccion a la bioinformaticacursoNGS
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Fernando-Ariel Lopez
 
2015 colegio la-inmaculada_-_cartagena
2015 colegio la-inmaculada_-_cartagena2015 colegio la-inmaculada_-_cartagena
2015 colegio la-inmaculada_-_cartagena19manu69
 
Nanotecnología: del laboratorio al supermercado, del sueño a la realidad, las...
Nanotecnología: del laboratorio al supermercado, del sueño a la realidad, las...Nanotecnología: del laboratorio al supermercado, del sueño a la realidad, las...
Nanotecnología: del laboratorio al supermercado, del sueño a la realidad, las...Universidad Popular Carmen de Michelena
 
Big data y Open Data -Linea de tiempo
Big data y Open Data -Linea de tiempoBig data y Open Data -Linea de tiempo
Big data y Open Data -Linea de tiempoAllan Blanco
 
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOSCap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOSEdwin Ruiz
 
¿Es La Nanotecnologia la Solución a los Problemas de la Humanidad?
¿Es La Nanotecnologia la Solución a los Problemas de la Humanidad?¿Es La Nanotecnologia la Solución a los Problemas de la Humanidad?
¿Es La Nanotecnologia la Solución a los Problemas de la Humanidad?Gabriel Sojo Muñoz
 
Presentacion (mercado)
Presentacion (mercado)Presentacion (mercado)
Presentacion (mercado)JAM32
 
ensayo nanotecnología LUIS ANDRÉS PALLASCO SEVILLA
ensayo nanotecnología LUIS ANDRÉS PALLASCO SEVILLAensayo nanotecnología LUIS ANDRÉS PALLASCO SEVILLA
ensayo nanotecnología LUIS ANDRÉS PALLASCO SEVILLALUIS PALLASCO
 
Nanotecnologia
NanotecnologiaNanotecnologia
Nanotecnologiaalejandro
 
Nanotecnologia
NanotecnologiaNanotecnologia
Nanotecnologiaalejandro
 

Similar a Data analysis worldwide trends (20)

Nanotecnologia1
Nanotecnologia1Nanotecnologia1
Nanotecnologia1
 
Introduccion a la bioinformatica
Introduccion a la bioinformaticaIntroduccion a la bioinformatica
Introduccion a la bioinformatica
 
Barrientos fabis
Barrientos fabisBarrientos fabis
Barrientos fabis
 
NanotecnologíA Final
NanotecnologíA FinalNanotecnologíA Final
NanotecnologíA Final
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬
 
Perspectiva big data Olman Cruz
Perspectiva big data Olman CruzPerspectiva big data Olman Cruz
Perspectiva big data Olman Cruz
 
2015 colegio la-inmaculada_-_cartagena
2015 colegio la-inmaculada_-_cartagena2015 colegio la-inmaculada_-_cartagena
2015 colegio la-inmaculada_-_cartagena
 
Nanotecnología: del laboratorio al supermercado, del sueño a la realidad, las...
Nanotecnología: del laboratorio al supermercado, del sueño a la realidad, las...Nanotecnología: del laboratorio al supermercado, del sueño a la realidad, las...
Nanotecnología: del laboratorio al supermercado, del sueño a la realidad, las...
 
E jercicio
E jercicioE jercicio
E jercicio
 
Big data y Open Data -Linea de tiempo
Big data y Open Data -Linea de tiempoBig data y Open Data -Linea de tiempo
Big data y Open Data -Linea de tiempo
 
Trabajo cmc
Trabajo cmcTrabajo cmc
Trabajo cmc
 
Luisa perez
Luisa perezLuisa perez
Luisa perez
 
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOSCap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOS
 
¿Es La Nanotecnologia la Solución a los Problemas de la Humanidad?
¿Es La Nanotecnologia la Solución a los Problemas de la Humanidad?¿Es La Nanotecnologia la Solución a los Problemas de la Humanidad?
¿Es La Nanotecnologia la Solución a los Problemas de la Humanidad?
 
SQL Server Fundamentals
SQL Server FundamentalsSQL Server Fundamentals
SQL Server Fundamentals
 
Las 11 bases de datos mas grandes
Las 11 bases de datos mas grandesLas 11 bases de datos mas grandes
Las 11 bases de datos mas grandes
 
Presentacion (mercado)
Presentacion (mercado)Presentacion (mercado)
Presentacion (mercado)
 
ensayo nanotecnología LUIS ANDRÉS PALLASCO SEVILLA
ensayo nanotecnología LUIS ANDRÉS PALLASCO SEVILLAensayo nanotecnología LUIS ANDRÉS PALLASCO SEVILLA
ensayo nanotecnología LUIS ANDRÉS PALLASCO SEVILLA
 
Nanotecnologia
NanotecnologiaNanotecnologia
Nanotecnologia
 
Nanotecnologia
NanotecnologiaNanotecnologia
Nanotecnologia
 

Más de Mario Melgar M

Desarrollo tecnológico y sostenible aia completa
Desarrollo tecnológico y sostenible aia completaDesarrollo tecnológico y sostenible aia completa
Desarrollo tecnológico y sostenible aia completaMario Melgar M
 
Book sugarcane crop in guatemala
Book sugarcane crop in guatemalaBook sugarcane crop in guatemala
Book sugarcane crop in guatemalaMario Melgar M
 
Libro el cultivo de la caña de azúcar 16 feb.doc
Libro el cultivo de la caña de azúcar 16 feb.docLibro el cultivo de la caña de azúcar 16 feb.doc
Libro el cultivo de la caña de azúcar 16 feb.docMario Melgar M
 
Tendencias de la investigacion en caña de azucar
Tendencias de la investigacion en caña de azucarTendencias de la investigacion en caña de azucar
Tendencias de la investigacion en caña de azucarMario Melgar M
 
Xviii ataca dr. mario melgar con fuentes
Xviii ataca dr. mario melgar con fuentesXviii ataca dr. mario melgar con fuentes
Xviii ataca dr. mario melgar con fuentesMario Melgar M
 

Más de Mario Melgar M (7)

agricultura 4.0 CG
 agricultura 4.0    CG agricultura 4.0    CG
agricultura 4.0 CG
 
MARIO MELGAR CV 2020
MARIO MELGAR  CV 2020MARIO MELGAR  CV 2020
MARIO MELGAR CV 2020
 
Desarrollo tecnológico y sostenible aia completa
Desarrollo tecnológico y sostenible aia completaDesarrollo tecnológico y sostenible aia completa
Desarrollo tecnológico y sostenible aia completa
 
Book sugarcane crop in guatemala
Book sugarcane crop in guatemalaBook sugarcane crop in guatemala
Book sugarcane crop in guatemala
 
Libro el cultivo de la caña de azúcar 16 feb.doc
Libro el cultivo de la caña de azúcar 16 feb.docLibro el cultivo de la caña de azúcar 16 feb.doc
Libro el cultivo de la caña de azúcar 16 feb.doc
 
Tendencias de la investigacion en caña de azucar
Tendencias de la investigacion en caña de azucarTendencias de la investigacion en caña de azucar
Tendencias de la investigacion en caña de azucar
 
Xviii ataca dr. mario melgar con fuentes
Xviii ataca dr. mario melgar con fuentesXviii ataca dr. mario melgar con fuentes
Xviii ataca dr. mario melgar con fuentes
 

Último

Movimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en VenezuelaMovimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en Venezuelacocuyelquemao
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFlor Idalia Espinoza Ortega
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 
Mapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdfMapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdfvictorbeltuce
 
Cuadernillo de las sílabas trabadas.pdf
Cuadernillo de las sílabas trabadas.pdfCuadernillo de las sílabas trabadas.pdf
Cuadernillo de las sílabas trabadas.pdfBrandonsanchezdoming
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
Procesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxProcesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxMapyMerma1
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALEDUCCUniversidadCatl
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfTarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfCarol Andrea Eraso Guerrero
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteJuan Hernandez
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024IES Vicent Andres Estelles
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIAAbelardoVelaAlbrecht1
 

Último (20)

Movimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en VenezuelaMovimientos Precursores de La Independencia en Venezuela
Movimientos Precursores de La Independencia en Venezuela
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamica
 
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdfTema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
 
Unidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDIUnidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDI
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 
Mapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdfMapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdf
 
Cuadernillo de las sílabas trabadas.pdf
Cuadernillo de las sílabas trabadas.pdfCuadernillo de las sílabas trabadas.pdf
Cuadernillo de las sílabas trabadas.pdf
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
Procesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxProcesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptx
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfTarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parte
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
 

Data analysis worldwide trends

  • 1. “Tendencias del Análisis de Datos a Nivel Mundial” Conferencia presentada en el Curso de: Métodos de Investigación Cuantitativa Doctorado en Ciencias Agrícolas y Ambientales Facultad de Agronomía Universidad de San Carlos de Guatemala DR. MARIO MELGAR Guatemala, 19 de Noviembre 2012
  • 2. Contenido  BIG DATA  ENFOQUES  DATA SCIENCE  MINERÍA DE DATOS  VISUALIZACIÓN
  • 3.
  • 4. The next five years will produce more research data than has been produced in all of previous human history, presenting researchers with daunting discovery challenges. The data deluge was highlighted and deepened by monumental big bang and astronomy projects such as the Large Hadron Collider and the planned Square Kilometre Array, said Ross Wilkinson, executive director of the Monash University-based Australian National Data Service. The European Union's collider would produce a petabyte of data each month, while the data generation of the SKA was so mind-boggling that the term exobyte had been coined to describe its data output. "An exabyte is 1000 petabytes; a petabyte is 1000 terabytes; a terabyte is 1000 gigabytes and a gigabyte is 1000 megabytes," Dr. Wilkinson said. "You can read about 2GB of text, or about as much text that can fit on two CDs, in a lifetime, so it's really scary numbers." SOURCE: THE AUSTRALIAN, APRIL 29, 2009
  • 5.
  • 6. NOMBRE TAMAÑO BYTE 1 KBYTE 1000 MEGABYTE 1 000 000 GYGABYTE 1 000 000 000 TERABYTE 1 000 000 000 000 PETABYTE 1 000 000 000 000 000 EXABYTE 1 000 000 000 000 000 000 ZETTABYTE 1 000 000000000000000000
  • 7. UNIDAD VALOR/EJEMPLO Byte Es la unidad elemental de información que puede guardar un carácter: letra, número o signo 2 kilobytes Una página 5 megabytes Obras completas de Shakespare; 30 segundos de video. 100 megabytes Radiografia Digital. 500 megabytes CD
  • 8. 1 gigabyte (GB) Sinfonía en sonido de alta fidelidad. 2 gigabytes 20 metros de estantería de libros, lo que una persona puede leer en toda su vida 20 gigabytes Archivos de audio de la obra de Beethoven Terabyte (TB) 1000 GB 1 terabyte Todas las películas radiográficas de un hospital de alta tecnología. 50000 árboles transformados en papel e impresos. 10 terabytes Colección impresa de la biblioteca del Congreso de EE.UU. Petabytes (PB) 1000 TB 2 petabytes Todas las bibliotecas de investigación académica de EE.UU. Exabyte (EB) 10000 PB 5 exabytes Todas las palabras dichas alguna vez por los seres humanos. Zettabyte 1000 Exabytes Fuente: Ambrosi, H. 2008. La Verdad de las Estadisticas. Ediciones Lumiere.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16. 1. Internet 2. Celulares 3. NASA 4. Astronomía 5. Universo 6. Genómica 7. Física 8. Imágenes Médicas 9. AT&T, WALMART, etc.
  • 17.
  • 18. The Conversation Prism Infographic http://jess3.com/the-conversation-prism-v3/
  • 19.
  • 20. 2008 MySQL Conference & Jacek Becla, SLAC Expo
  • 21. Science & Petabytes NASA: Earth Observing System 4 PB in 2005 (images) 2008 MySQL Conference & Expo Jacek Becla, SLAC 21
  • 22. Science & Petabytes Astronomy Huge telescopes Multi-gigapixel cameras Getting ready for… – Trillions of observations – 50+ PB of images – 20+ PB database 2008 MySQL Conference & Expo Jacek Becla, SLAC 22
  • 23. Untangling the Universe  Needle in haystack Astronomy: It’s All About  Spatial correlations “Astronomical Objects”  Time series Overlapping Moving Disappearing Highly correlated 2008 MySQL Conference & Expo Jacek Becla, SLAC 23
  • 24. Science & Petabytes Genomics Trying to put together database of all known DNA sequences Multi-petabytes 2008 MySQL Conference & Expo Jacek Becla, SLAC 24
  • 25. How does the human genome stack up? Organism Genome Size (Bases) Estimated Genes Amoeba dubia (ameba) 670 billion ? Porocentrum micans (protista) 245 billion 92,000 Pez leopardo (Propterus aethiopicus) 130 billion ? Caña de azúcar (S. officinarum) 7.4 billion 35,000 Human (Homo sapiens) 3 billion 25,000 Laboratory mouse (M. musculus) 2.6 billion 30,000 Mustard weed (A. thaliana) 100 million 25,000 Roundworm (C. elegans) 97 million 19,000 Fruit fly (D. melanogaster) 137 million 13,000 Yeast (S. cerevisiae) 12.1 million 6,000 Bacterium (E. coli) 4.6 million 3,200 Human immunodeficiency virus (HIV) 9700 9 25
  • 26. Examples of Large Data Sets: Genomics • 25,000 genes in human genome • 3 billion bases • 3 Gigabytes of genetic data 26
  • 27. Understanding Dynamics of Biological Processes  Needle in haystack  Correlations  Time series 2008 MySQL Conference & Expo Jacek Becla, SLAC 27
  • 28.
  • 29. 29
  • 30. 30
  • 31. 31
  • 32. 32
  • 33. 33
  • 34. 34
  • 35. 35
  • 36. 36
  • 37. 37
  • 38. 38
  • 39. 39
  • 40. 40
  • 41. 41
  • 42. Science & Petabytes High Energy Physics: LHC ½ PB/sec – Small fraction saved Trillions of collisions 15 PB/year – Starting later this year 2008 MySQL Conference & Expo Jacek Becla, SLAC 42
  • 43. 43
  • 44. Examples of Large Data Sets: Credit card transactions • 142 billion transactions in 2004 in US alone • 115 Terabytes of data transmitted to processing center in 2004 44
  • 45. Examples of Large Data Sets: Phone call billing records • 250M calls/day • 60G calls/year • 40 bytes/call • 2.5 Terabytes/year 45
  • 46. Science, Industry & Petabytes 150 Google 100 ? Yahoo! Microsoft PB AT&T 50 Walmart EBay Facebook few others 0 2000 2005 2010 2015 2020 2025 year 2008 MySQL Conference & Expo Jacek Becla, SLAC 46
  • 47.
  • 49. Competitive Edger or Colossal Migraine?
  • 50.
  • 51. Big Challenge • How do we make sense of it? • How do we harness this data in decision- making processes? InfoVis 51
  • 52.
  • 53. Enfoques para el Manejo de los Datos 53 1. Empresas Especializadas en Gerencia de Datos 2. Data Science 3. Minería de Datos 4. Visualización
  • 55.
  • 56.
  • 57.
  • 58.
  • 59.
  • 60.
  • 61.
  • 62.
  • 63.
  • 64.
  • 65.
  • 66.
  • 67.
  • 68.
  • 69.
  • 70.
  • 71.
  • 72.
  • 73.
  • 74.
  • 75.
  • 76.
  • 77.
  • 78.
  • 79.
  • 80. Enfoques para el Manejo de los Datos 81 1. Empresas Especializadas en Gerencia de Datos 2. Data Science 3. Minería de Datos 4. Visualización
  • 81. Data Science: An Introduction/A History of Data Science  Chapter Summary Data Science is a composite of a number of pre-existing disciplines. It is a young professional and academic discipline. The term was first coined in 2001. Its popularity has exploded since 2010, pushed by the need for teams of people to analyze the big data that corporations and governments are collecting. The Google search engine is a classic example of the power of data science.  Discussion Data science is a discipline that incorporates varying degrees of Data Engineering, Scientific Method, Math, Statistics, Advanced Computing, Visualization, Hacker mindset, and Domain Expertise. A practitioner of Data Science is called a Data Scientist. Data Scientists solve complex data analysis problems.  Origins The term "Data Science" was coined at the beginning of the 21st Century. It is attributed to William S. Cleveland[1] who, in 2001, wrote "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics."[2] About a year later, the International Council for Science: Committee on Data for Science and Technology[3] started publishing the CODATA Data Science Journal beginning April 2002.[4] Shortly thereafter, in January of 2003, Columbia University began publishing The Journal of Data Science .
  • 82.
  • 84.
  • 85.
  • 86.
  • 87.
  • 88.
  • 89. Data Mining: Confluence of Multiple Disciplines
  • 90. ANÁLISIS UNIVARIADO ASOCIACIÓN ENTRE VARIABLES Variables Variables Cualitativas Cualitativas con Cuantitativas con Análisis Cualitativas Cuantitativas con cuantitativas cuantitativas multivariado cualitativas Frecuencias Distr. De frecuencias Tablas de Tablas de clasificación Diagrama de Gráficas de Proporciones Histogramas Contingencia Gráficas de medias dispersión Histogramas Gráficas de barras Gráficas de tallos y Gráficas de 3D Caras de Chernoff Gráficas de pastel hojas barras Estrellas Pictogramas Gráficas de cajas Flechas Gráficas de puntos Gráficas de Glifos Pirámides normalidad Matriz de Medidas de: correlaciones - Tendencias central - Dispersión - Percentiles
  • 91. Temas tratados en el libro digital. http://www.statsoft.com/textbook
  • 92. Temas tratados en el libro digital. http://www.statsoft.com/textbook
  • 93. VARIABLES CUANTITATIVAS VARIABLES CUALITATIVAS POBLACIONES Contínuas Discretas Binominal Multinomial Una t Wilcoxon Binomial, Z X² Dos t Mann-Whitney Irwin-Fisher X² independientes Exacta Fisher X², Z Dos dependientes t Wilcoxon McNemar Stuart Tres o más F ANDEVA X² X² independientes D.C.A. Kruskal-Wallis Contrastes Contrastes Una vía Contrastes Contrastes Tres o más F ANDEVA dependientes D.C.A. Friedman Cochran Friedman Dos vías (Ordinal) Contrastes Contrastes Contrastes Dependencia Regresión Wilcoxon Hipergeométrica Relación Pearson Spearman 0
  • 94. Análisis Multivariado • Conjunto de técnicas para el análisis estadístico de datos, obtenidas a través de la medición de varias variables sobre cada individuo o unidad estudiada. • Esas variables están correlacionadas. ESTRUCTURA DE LOS DATOS PROVENIENTES DE UN ESTUDIO UNIDAD Variables a explicar o Variables Explicativas dependientes o independientes Y1, Y2, . . . . . . . . . . . X1, X2, . . . . . .. . . . .Xƿ .Yɋ U1 U2 . . . Un
  • 95. Variables independientes Variables Cualitativa Cuantitativa dependientes 1 variable >1 variable 1 variable >1 variable Ninguna Binomial Chi-cuadrado T Matriz de Medidas de correlaciones asociación Componentes Principales Análisis de factores Análisis Cluster Cualitativa Chi-cuadrado Log-Linear Regresión Regresión 1 Exacta Modelos Logística Logística Fischer Regresión Logística Log-Linear Log-Linear Análisis Análisis >1 Modelos modelos discriminante discriminante Cuantitativa T Análisis de varianza Regresión lineal Regresión múltiple 1 Análisis de varianza Regresión no lineal Correlación T² Hotelling Análisis de varianza Regresión Regresión >1 Análisis de varianza Multivariado multivariada multivariada Multivariado Correlación canónica Correlación canónica Path Analysis
  • 96.
  • 97.
  • 98.
  • 99.
  • 100.
  • 102.
  • 103.
  • 104.
  • 105.
  • 107.
  • 108.
  • 109.
  • 110.
  • 111.
  • 112.
  • 113.
  • 114.
  • 115.
  • 116.
  • 117. Example Which state has the highest income? Questions: Is there a relationship between income and education? Are there any outliers? Example courtesy 119 InfoVis of Chris North
  • 118. Visualize the Data College Degree % InfoVis Per Capita Income 120
  • 119. Atlanta Flight Traffic AJC InfoVis 121
  • 121.
  • 123. Summary Data avalanche Need scalable, sophisticated tools You are facing it too Credit: ncids.org 2008 MySQL Conference & Expo Jacek Becla, SLAC 125
  • 124. HANS
  • 125. Bienvenidos CENGICAÑA Visión: Ser líderes en generar cambios tecnológicos para incrementar la competitividad de la Agroindustria Azucarera en la región. Dr. Mario Melgar 02/03/2012
  • 126. Evolución de la productividad Guatemala 11 10 Quinquenio TCH % Sac TAH 9 1959/60* 53 9.70 5.20 8 1960/65 57 9.34 5.34 7 1965/70 62 9.24 5.76 6 1970/75 74 8.83 6.58 TAH 5 1975/80 77 8.49 6.54 4 3 1980/85 76 9.10 6.58 2 1985/90 71 9.66 6.90 1 1990/95 82 10.10 8.32 0 1995/00 85 10.42 8.87 60 65 70 75 80 85 90 95 00 05 10 2000/05 90 11.33 10.17 2005/10 94 10.75 10.05 Año Rendimiento de Azúcar/TAH 1960-2010
  • 127. Evolución de análisis de productividad de la Agroindustria Azucarera Guatemalteca
  • 128.
  • 129.
  • 130.
  • 131.
  • 132. Factores relacionados con el rendimiento de un cultivo y = f (A, G, M) Y = Rendimiento A = Ambiente G = Genética M = Manejo Fuente: Altieri, M. 1987. Agroecology. Westview Press. 227 p.
  • 133. VARIABLES RESPUESTA FACTORES Balance hídrico Zona agroecológica (1-44) Grupos de suelo Finca (1 – n1) Ambientales Lote (1 – n2) (total 14,000) Variedad (67) TCH Genéticos No. de corte TAH Mes de cosecha $/H Ingenio (1-8) N (1-7) P (1-4) Fertilización K (1-4) Manejo Riegos (1-4) S (1-3) Madurantes (1-6) Edad de cosecha
  • 134. Sistemas de Información Mapas Geográfica Estadística descriptiva (Gráficos, cuadros) Bases de datos Estadística inferencial Análisis Minería de datos Análisis detallado ZAE, finca, lote, de Mes de cosecha variedades Factores de manejo
  • 135.
  • 136.
  • 137.
  • 138.
  • 139.
  • 140. BASE DE DATOS DE EXCEL PARA COMPARTIR Menú Principal Formularios de Comparación Menú Principal Gráficos Productividad
  • 141. Indicadores de Competitividad 36 Azúcar producida por tonelada de capacitdad de molienda (tib azúcar/ton Colombia 31 11.5 9.4 6.5 26 9.5 swazilandia 14.6 Sudáfrica Brasil (C.S.) 12.2 capacidad) 7.9 21 9.3 6.6 Brasil (N.E.) Al 02/05/2010 Sudan Australia 10.8 16 Guatemala México 13.9 China 7.3 India 9.1 11 USA 13.15 Thailand 6 6 7 8 9 10 11 12 13 14 15 16 Rendimiento azúcar (TAH) Fuente: LMC Sugar Technical Performance - Executive Summary-Sma605 September 2008
  • 142. Gráficos por países, períodos por quinquénios: 1988 Utilización Área de la Sembrada País TAH Capacidad Australia 9.80 12.60 352,023.00 Brasil (C.S.) 8.60 15.00 2,585,063.00 Brasil (N.E.) 5.80 15.40 1,287,453.00 China 4.80 9.40 881,000.00 Colombia 11.10 24.40 140,297.00 Guatemala 6.99 8.80 84,333.00 India 7.10 12.50 3,072,052.00 México 8.00 10.00 535,884.00 South Africa 5.70 19.90 408,743.00 Swaziland 23.90 36,014.00 Thailand 5.30 7.80 559,638.00 USA 9.30 10.60 344,436.00
  • 143. Gráficos por países, períodos por quinquénios: 1998 Utilización Área de la Sembrada País TAH Capacidad Australia 11.60 17.40 420,572.00 Brasil (C.S.) 9.90 18.30 3,250,190.00 Brasil (N.E.) 6.30 12.00 1,105,856.00 China 6.80 9.50 915,878.00 Colombia 12.50 27.90 178,687.00 Guatemala 10.30 12.50 151,540.00 India 8.00 13.60 3,836,021.00 México 9.10 12.70 570,322.00 South Africa 4.90 15.70 397,026.00 Swaziland 13.60 22.00 38,182.00 Thailand 6.40 8.40 963,256.00 USA 8.80 10.60 391,873.00
  • 144. Gráficos por países, períodos por quinquénios: 2008 Utilización Área de la Sembrada País TAH Capacidad Australia 11.50 16.70 453,316.00 Brasil (C.S.) 10.40 22.70 5,035,284.00 Brasil (N.E.) 7.40 17.00 1,120,375.00 China 9.50 13.20 1,128,841.00 Colombia 14.60 31.80 199,910.00 Guatemala 12.20 15.90 197,600.00 India 7.90 12.20 4,294,400.00 México 9.30 14.80 686,855.00 South Africa 6.60 23.50 426,738.00 Swaziland 13.90 24.30 50,720.00 Thailand 7.30 8.60 1,070,630.00 USA 9.10 11.40 393,744.00
  • 145.
  • 146.
  • 147.
  • 148.
  • 149.
  • 150.
  • 151.
  • 152.
  • 153.
  • 154.
  • 155.
  • 156. CONCLUSIONES 1. A nivel mundial esta ocurriendo literalmente una explosión de datos, tanto a nivel social (redes sociales, comunicación digital, etc.), a nivel comercial (internet, tarjetas de crédito, etc.) a nivel científico (astronomía, física, genómica, medicina, etc.). A este fenómeno se le a denominado “BIG DATA”. Se menciona ya no solo gigabytes sino Tera, peta y exabytes y hasta zettabytes. 2. Se están desarrollando constantemente tecnologías para la recolección (sensores, imágenes, etc.) Almacenamiento (datawarehouse, nube, etc), análisis y visualización de los datos. Los datos deben convertirse en información y estos en conocimiento. 3. Todos los países, sectores, empresas o personas, que quieran obtener un valor agregado de este diluvio de datos, deben de prepararse para utilizar la tecnologías apropiadas.
  • 157. 4. El Big Data Análisis que es la aplicación de técnicas avanzadas de análisis para conjuntos de grandes volúmenes de datos, esta generando el surgimiento de cientos de empresas asociadas: Microsoft, Oracle, SAP, Tableau, Teradata, SAS, Cloudera, MySQL, Hadoop, Cassandra, Data Miner , Cubenube, etc. 5. Esta surgiendo una nueva ciencia denominada “La Ciencia de los Datos”, que reúne disciplinas como: Ingeniería de datos, método científico, matemáticas, estadística, computación avanzada, visualización y experiencia en áreas especificas para resolver problemas de análisis de datos. Data Science requiere trabajo multidisciplinario.
  • 158. CONCLUSIONES ESPECIFICAS DE LA AGROINDUSTRIA AZUCARERA GUATEMALTECA 1. En cada uno de los eslabones de la cadena de valor de la agroindustria (campo, fabrica, transporte y comercialización) esta creciendo el volumen de datos que se generan, algunos ingenios han contratado empresas especificas para el manejo de los datos: Automatización, manejo integral de toda la información: Pantaleón (SAP), La Unión (BIOSALC), Magdalena(ORACLE), etc. 2. Para el manejo de información tecnológica de las áreas de trabajo de CENGICAÑA, se esta desarrollando la base de datos institucional con aportes principalmente del área de análisis de productividad, sistemas de información para agricultura de precisión (SIAP), Sistema de información meteorológica (SIM) y CENGIDOC. Para el desarrollo de la base de datos institucional cada área deberá aportar la información respectiva y actualizarse en el uso de las tecnologías de información.

Notas del editor

  1. Source: Human Genome Project (http://www.ornl.gov/sci/techresources/Human_Genome/faq/faqs1.shtml)
  2. Source: Visa USA annual report (http://corporate.visa.com/av/corp_report.jsp)
  3. Source: “Gecko: Tracking a Very Large Billing System” (Proc. 2000 Usenix, http://www.usenix.org/publications/library/proceedings/usenix2000/general/full_papers/hume/hume.pdf)