El “arte”del análisis de
          datos:
De las hojas de cálculo a R
                 Juan Freire
           Universidade da Coruña
            http://juanfreire.net/



    Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC)
                                         Universidade Federal da Bahía (UFBA)
                                                                    Abril 2010
¿Para qué el análisis de datos?


• Fuentes de información disponibles
• Hipótesis a priori
• Patrones posibles
http://en.wikipedia.org/wiki/Data_analysis

Analysis of data is a process of inspecting, cleaning,
transforming, and modeling data with the goal of
highlighting useful information, suggesting conclusions,
and supporting decision making. Data analysis has
multiple facets and approaches, encompassing diverse
techniques under a variety of names, in different
business, science, and social science domains.
Texto
                                    Cultural analytics
                                    (Lev Manovich)
Visualization shows 1048576 Manga pages
Each point represents one page

grey points - all pages in the set
red points - all pages corresponding to a single title: Anatolia Story
(artist: Chie Shinohara)

X axis - brightness mean
Y axis - entropy
Antes de iniciar el diseño
    del análisis de datos
  Análisis cuantitativos ... a veces de
  información cualitativa


• Hipótesis
• Exploración de patrones
Fuentes de información

- Unidades de información (casos)
- Contenido (variables)
- Tipos de contenido (codificación):
   cuantitativo
   semi-cuantitativo (ordenado)
   categórico
   1/0
Fases del análisis de datos

a) Diseño de bases de datos: variables
(codificación); casos
b) Exploración de datos - Visualización
c) Depuración de datos: errores, outliers,
redefinición de variables
d) Análisis estadísticos - Visualización
Análisis exploratorio
  Métodos gráficos


• Depuración de datos
• Visualización de patrones: sugerir hipótesis
• Planificar la obtención de nueva información
Gráficos estadísticos
    Visualización de datos cuantitativos


•   Box-plots
•   Histogramas
•   Scatter plots
•   ...
Blox plots
Histogramas
Pareto chart
Scatter plot
Correlation scatter-plot matrix
 for ordered-categorical data
A visualization of thousands of Wikipedia edits that were
made by a single software bot. Each color corresponds to
a different page.
Detección de outliers
An outlier is an observation that lies an abnormal
distance from other values in a random sample
from a population. In a sense, this definition leaves
it up to the analyst (or a consensus process) to
decide what will be considered abnormal. Before
abnormal observations can be singled out, it is
necessary to characterize normal observations.
                  Engeneering Statistics Handbook
Errores / Outliers
Algunos ejemplos de análisis
  de datos y visualización
     científica en arte
Harun Farocki. Deep Play
Harun Farocki – Deep Play
Ben Fry. Cartografías genéticas (Processing)
Ben Fry. Cartografías genéticas. Processing
Análisis y visualización de redes tróficas
Compilation and Network Analyses of
        Cambrian Food Webs




                               Chengjiang Shale




Burgess Shale
East River Valley Trophic Web
Little Rock Lake Trophic Web: Dynamic View 5
Software para análisis de
    datos y visualización

• Bases de datos
• Hojas de cálculo
• Paquetes de gráficos (+ estadística básica)
• Paquetes estadísticos (+visualización +
  lenguaje de programación)
Curvas de aprendizaje

                         R
resultados




                          hoja de cálculo
                          planilha eletrônica



                                tiempo
Sistemas de gestión de
        bases de datos

• OpenOffice.org Base
• Microsoft Office Access
• mySQL
• ...
Holas de cálculo
      (Planilha eletrônica)
• Open Office.org Calc
• Gnumeric
• Microsoft Office Excel
• Google Docs
• ...
http://upload.wikimedia.org/wikipedia/en/2/23/Spreadsheet_animation.gif
OpenOffice.org Calc
Gnumeric
Algunos usos de hojas de
          cálculo

• Gestión e importación de datos
• Tablas de dinámicas
• Correlación y regresión
Sofware estadítico
• SAS: Business Analytics and Business Intelligence
  Software. Windows. $$$$$$$. GUI
• IBM SPSS Statistics (antes: Statistical Package for
  the Social Sciences). Windows, Mac, Linux. $$$.
  GUI
• Statistica. Windows, Mac. $$$. GUI
• R. Software libre. Linux, Mac, Windows. Línea de
  comandos
http://www.r-project.org/
¿Qué es R?

• Lenguaje de programación
• Software libre, gratuito y multiplataforma
• Línea de comandos
• Extensible
• Área de trabajo
Paquetes en R


• Colecciones de funciones, datos y código
• compilado
• formato estandarizado
Extensiones de la interfaz

• Windows, Mac: Tienen una GUI que te deja hacer
  bastantes cosas con menús
• Edición de Scripts:
   • Interno a la GUI
   • Externo: Tinn-R, R-WinEdt, o mediante
     plugins
Tinn-R
ggplot2

Curso_Analisis_Datos_UFBA

  • 1.
    El “arte”del análisisde datos: De las hojas de cálculo a R Juan Freire Universidade da Coruña http://juanfreire.net/ Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC) Universidade Federal da Bahía (UFBA) Abril 2010
  • 2.
    ¿Para qué elanálisis de datos? • Fuentes de información disponibles • Hipótesis a priori • Patrones posibles
  • 3.
    http://en.wikipedia.org/wiki/Data_analysis Analysis of datais a process of inspecting, cleaning, transforming, and modeling data with the goal of highlighting useful information, suggesting conclusions, and supporting decision making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains.
  • 5.
    Texto Cultural analytics (Lev Manovich) Visualization shows 1048576 Manga pages Each point represents one page grey points - all pages in the set red points - all pages corresponding to a single title: Anatolia Story (artist: Chie Shinohara) X axis - brightness mean Y axis - entropy
  • 8.
    Antes de iniciarel diseño del análisis de datos Análisis cuantitativos ... a veces de información cualitativa • Hipótesis • Exploración de patrones
  • 9.
    Fuentes de información -Unidades de información (casos) - Contenido (variables) - Tipos de contenido (codificación): cuantitativo semi-cuantitativo (ordenado) categórico 1/0
  • 10.
    Fases del análisisde datos a) Diseño de bases de datos: variables (codificación); casos b) Exploración de datos - Visualización c) Depuración de datos: errores, outliers, redefinición de variables d) Análisis estadísticos - Visualización
  • 11.
    Análisis exploratorio Métodos gráficos • Depuración de datos • Visualización de patrones: sugerir hipótesis • Planificar la obtención de nueva información
  • 12.
    Gráficos estadísticos Visualización de datos cuantitativos • Box-plots • Histogramas • Scatter plots • ...
  • 14.
  • 15.
  • 16.
  • 17.
  • 19.
    Correlation scatter-plot matrix for ordered-categorical data
  • 20.
    A visualization ofthousands of Wikipedia edits that were made by a single software bot. Each color corresponds to a different page.
  • 21.
    Detección de outliers Anoutlier is an observation that lies an abnormal distance from other values in a random sample from a population. In a sense, this definition leaves it up to the analyst (or a consensus process) to decide what will be considered abnormal. Before abnormal observations can be singled out, it is necessary to characterize normal observations. Engeneering Statistics Handbook
  • 23.
  • 24.
    Algunos ejemplos deanálisis de datos y visualización científica en arte
  • 25.
  • 26.
  • 29.
    Ben Fry. Cartografíasgenéticas (Processing)
  • 32.
    Ben Fry. Cartografíasgenéticas. Processing
  • 35.
    Análisis y visualizaciónde redes tróficas
  • 37.
    Compilation and NetworkAnalyses of Cambrian Food Webs Chengjiang Shale Burgess Shale
  • 38.
    East River ValleyTrophic Web
  • 39.
    Little Rock LakeTrophic Web: Dynamic View 5
  • 40.
    Software para análisisde datos y visualización • Bases de datos • Hojas de cálculo • Paquetes de gráficos (+ estadística básica) • Paquetes estadísticos (+visualización + lenguaje de programación)
  • 41.
    Curvas de aprendizaje R resultados hoja de cálculo planilha eletrônica tiempo
  • 42.
    Sistemas de gestiónde bases de datos • OpenOffice.org Base • Microsoft Office Access • mySQL • ...
  • 45.
    Holas de cálculo (Planilha eletrônica) • Open Office.org Calc • Gnumeric • Microsoft Office Excel • Google Docs • ...
  • 47.
  • 48.
  • 49.
  • 50.
    Algunos usos dehojas de cálculo • Gestión e importación de datos • Tablas de dinámicas • Correlación y regresión
  • 51.
    Sofware estadítico • SAS:Business Analytics and Business Intelligence Software. Windows. $$$$$$$. GUI • IBM SPSS Statistics (antes: Statistical Package for the Social Sciences). Windows, Mac, Linux. $$$. GUI • Statistica. Windows, Mac. $$$. GUI • R. Software libre. Linux, Mac, Windows. Línea de comandos
  • 52.
  • 54.
    ¿Qué es R? •Lenguaje de programación • Software libre, gratuito y multiplataforma • Línea de comandos • Extensible • Área de trabajo
  • 55.
    Paquetes en R •Colecciones de funciones, datos y código • compilado • formato estandarizado
  • 58.
    Extensiones de lainterfaz • Windows, Mac: Tienen una GUI que te deja hacer bastantes cosas con menús • Edición de Scripts: • Interno a la GUI • Externo: Tinn-R, R-WinEdt, o mediante plugins
  • 59.
  • 60.

Notas del editor

  • #5 http://ubergrid.tumblr.com/post/528551058 http://en.wikipedia.org/wiki/The_Wire http://en.wikipedia.org/wiki/Life_on_Mars_(TV_series)
  • #6 http://lab.softwarestudies.com/ http://www.flickr.com/photos/culturevis/ Manga research: http://lab.softwarestudies.com/2010/02/1000000-manga-pages-visualization.html http://www.flickr.com/photos/culturevis/sets/72157623691111589/
  • #8 http://www.wired.com/wired/issue/16-07
  • #16 http://en.wikipedia.org/wiki/File:Black_cherry_tree_histogram.svg
  • #19 http://www.star.bris.ac.uk/~mbt/topcat/sun253/Cartesian3DWindow.html
  • #20 http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/
  • #21 http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing A visualization of thousands of Wikipedia edits that were made by a single software bot. Each color corresponds to a different page. Image: Fernanda B. Viégas, Martin Wattenberg, and Kate Hollenbach
  • #24 http://www.itl.nist.gov/div898/handbook/eda/section3/scattera.htm http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm
  • #27 http://www.farocki-film.de/deepeg.htm
  • #28 http://www.flickr.com/photos/architektur/sets/72157600380226624/
  • #29 http://www.farocki-film.de/deepeg.htm
  • #31 http://genome.ucsc.edu/cgi-bin/hgTables
  • #33 http://benfry.com/aasd/
  • #34 http://acg.media.mit.edu/people/fry/genocarto.html
  • #35 http://benfry.com/genomevalence/
  • #37 http://biology.plosjournals.org/perlserv/?request=get-document&doi=10.1371/journal.pbio.0060102&ct=1
  • #38 http://biology.plosjournals.org/perlserv/?request=get-document&doi=10.1371/journal.pbio.0060102&ct=1
  • #44 http://en.wikipedia.org/wiki/Database_management_system http://en.wikipedia.org/wiki/OpenOffice.org_Base
  • #45 http://www.openoffice.org/product/base.html
  • #47 http://www.openoffice.org/product/calc.html
  • #48 http://en.wikipedia.org/wiki/Spreadsheet
  • #49 http://en.wikipedia.org/wiki/OpenOffice.org_Calc