SlideShare una empresa de Scribd logo
1 de 71
Investigación Reproducible
La investigación vista como un producto de software
2
Resumen
El tema central de la presentación es que la investigación sobre áreas
computacionales tiene muchas similitudes con la construcción de
productos de software, de esta manera, se propone la adopción de
prácticas de Ingeniería de Software para el proceso de Investigación.
Aprovecho la oportunidad para señalar las megatendencias en tecnología y
su impacto sobre la investigación en diversos campos. Asimismo para
mostrar ejemplos sobre el proceso para la generación dinámica de diversos
documentos tales como artículos, presentaciones, tesis, libros, y sobre las
herramientas para un entorno basado en R.
Megatendencias en Tecnología
3
Entrega
Acceso
Contenido
Com
portam
iento
Megatendencias en Tecnología
3
Compartir
experiencias
Buscar respuestas
Pertenecer a una
comunidad
BYOD
Estar conectado
Alternar entre
trabajo y no
trabajo
Accesar lo que sea
de donde sea
Usar múltiples
dispositivos
Consumir y
generar
información
Entrega
Acceso
Contenido
Com
portam
iento
Megatendencias en Tecnología
3
Compartir
experiencias
Buscar respuestas
Pertenecer a una
comunidad
BYOD
Estar conectado
Alternar entre
trabajo y no
trabajo
Accesar lo que sea
de donde sea
Usar múltiples
dispositivos
Consumir y
generar
información
Entrega
Acceso
Contenido
Com
portam
iento
Las investigaciones realizadas durante los últimos años han
identificado la evolución independiente de estas cuatro fuerzas:
social, móvil, la nube e información. Como resultado de la
consumerización y la ubicuidad de los dispositivos inteligentes
conectados, el comportamiento de la gente ha causado una
convergencia de estas fuerzas.
Megatendencias en Tecnología continuación
4
2005
2013
5
Escalabilidad y Almacenamiento Masivo
6
Influencia de Métodos Computacionales
7
Nuevos Paradigmas en Investigación
Teoría, experimentación, computación,
descubrimiento orientado a datos
Modelo clásico: “Query the
world” (Adquisición de datos para
una determinada hipótesis).
Nuevo modelo: “Download the world,
query the DB” (Adquisición masiva de
datos para soportar muchos hipótesis) Ciencia orientada a datos
7
Nuevos Paradigmas en Investigación
Teoría, experimentación, computación,
descubrimiento orientado a datos
Modelo clásico: “Query the
world” (Adquisición de datos para
una determinada hipótesis).
Nuevo modelo: “Download the world,
query the DB” (Adquisición masiva de
datos para soportar muchos hipótesis) Ciencia orientada a datos
Ejemplos:
Astronomía: Estudios de alta
resolución y alta frecuencia
Biología: Automatización de
laboratorios, análisis de
secuencias
Oceanografía: Modelos de alta
resolución, sensores de bajo
costo
8
Nuevos Paradigmas en Investigación continuación
La tecnología facilita la comunicación y
c o m p a r t i c i ó n a c e l e r a n d o e l
d e s c u b r i m i e n t o c i e n t í f i c o y
promoviendo la inteligencia colectiva.
• Las redes sociales pueden ser un medio
para compartir ideas e información.
• Están apareciendo áreas emergentes
para mejorar los procesos sociales con
tecnología para resolver problemas
difíciles utilizando las aportaciones de un
grupo.
Ciencia interconectada
Artículos Acerca de Ciencias Computacionales
Un artículo acerca de ciencias
computacionales en una publicación
científica no es la investigación en si,
es solamente la presentación del
estudio. El trabajo real es el entorno
completo de software, los datos
completos y el conjunto completo de
programas (código) que genera los
resultados.
9
La Importancia del Código Fuente
10
Scientific communication relies on evidence that cannot be entirely included in
publications, but the rise of computational science has added a new layer of
inaccessibility. Although it is now accepted that data should be made available on
request, the current regulations regarding the availability of software are inconsistent.
We argue that, with some exceptions, anything less than the release of source programs
is intolerable for results that depend on computation. The vagaries of hardware,
software and natural language will always ensure that exact reproducibility remains
uncertain, but withholding code increases the chances that efforts to reproduce results
will fail.
doi:10.1038/nature10836
doi: 10.1126/science.1218263
Principales Razones para no Compartir
11
Código Datos
77% Tiempo para documentar y depurar 54%
52% Contestar las preguntas de usuarios 34%
44% No recibir reconocimiento 42%
40% Posibilidad de patentes —
34% Barreras legales (derechos de autor) 41%
— Tiempo para verificar la liberación 38%
30% Posible pérdida de futuras publicaciones 35%
30% Dar ventaja a competidores 33%
20% Limitaciones de almacenamiento 29%
Survey of Machine Learning Community (Stodden, 2010)
Otras Razones para no Compartir
12
Aún no está listo.
N e c e s i t o o t r a
publicación.
Está muy feo. No
hemos tenido la
oportunidad de
depurarlo.
La política de la
Institución no nos
permite compartir.
No tenemos el
personal suficiente.
A d e m á s n o e s
n e c e s a r i o p a r a
entender el artículo.
La persona que lo hizo
y a n o e s t á c o n
n o s o t r o s . N o
podemos localizarlo ni
encontrar la versión.
No lo entenderías.
De hecho nadie lo
e n t i e n d e n i l o
p u e d e h a c e r
funcionar.
No hemos tenido
t i e m p o p a r a
documentarlo. Está
lleno de hacks.
Sólo funciona con
una versión muy
antigua de Matlab.
Danos oportunidad
de migrarlo.
T e n g o q u e
preguntar si te lo
p o d e m o s
compartir.
Principales Razones Para Compartir
13
Código Datos
91% Alentar el avance científico 81%
90% Fomentar la participación de otros 79%
86% Ser un buen miembro de la comunidad cientifica 79%
82% Establecer un estándar 76%
85% Mejorar la investigación 74%
81% Lograr que otros investigadores trabajen en el problema 79%
85% Mayor publicidad 73%
78% Retroalimentación 71%
71% Encontrar nuevos colaboradores 71%
Survey of Machine Learning Community (Stodden, 2010)
Analogia con Artículos sobre Matemáticas
14
No sería concebible que un artículo de
matemáticas no incluyera las demostraciones
de los lemas, teoremas y corolarios.
Ni tampoco que los lectores de dichos artículos
no tuvieran interés en ver las demostraciones
ni los autores en incluirlos en la publicación.
Y que al solicitar la demostración como árbitros
o lectores nos dieran cualquiera de estas
razones para no poder o no querer compartirla:
• La demostración está muy fea.
• No he trabajado en los detalles, pero es
sencillo demostrarlo.
• La demostración es propiedad intelectual.
• Estoy considerando comercializar la
demostración.
• El artículo se extendería demasiado.
• Implica matemáticas sofisticadas y limitaría
la audiencia del artículo.
© Sidney Harris
Adaptado de “Top 10 Reasons to Not Share Your Code”, Randall J. LeVeque
Reproducibilidad
Pilar fundamental del método científico:
“La capacidad de repetir un experimento, en
cualquier lugar y por cualquier persona”
15
16
Repetibilidad vs Reproducibilidad
Se obtienen
los mismos
resultados al
e j e c u t a r e l
mismo código
Repetibilidad
Se obtienen diferentes
resultados al ejecutar el
mismo código
Reproducibilidad
Se obtienen los mismos
resultados usando un
programa diferente
Los resultados
no pueden ser
r e p e t i d o s n i
reproducidos
17
Estadísticas Sobre Reproducibilidad
De	
  18	
  ar(culos,	
  los	
  resultados	
  de	
  
10	
  no	
  se	
  pueden	
  reproducir
18
Crisis de Credibilidad - Manipulación de Resultados
18
Crisis de Credibilidad - Manipulación de Resultados
Resumen del caso: 10 artículos retirados, 6 en
correcciones o parcialmente retirados. Demandas al
hospital por pacientes.
El otro pilar del método científico es la refutación.
Desafortunadamente este no es caso aislado. Para la
mayoría de los casos, no es posible verificar los
resultados y conclusiones de los artículos.
19
El Problema Sobre Artículos Retirados
20
Estructura de un Artículo
Establecer un dominio
Identificar área de investigación general / revisar
investigación previa
Establecer un nicho
Existencia de gaps / pregunta
Ocuparlo
Propósito de investigación / hallazgos /
esbozo de artículo
Introducción
¿Qué pregunta o
problema fue estudiado?
20
Estructura de un Artículo
Establecer un dominio
Identificar área de investigación general / revisar
investigación previa
Establecer un nicho
Existencia de gaps / pregunta
Ocuparlo
Propósito de investigación / hallazgos /
esbozo de artículo
Método
Resultados
Introducción
¿Qué pregunta o
problema fue estudiado?
¿Cómo se abordó el problema?
¿Cuáles son los hallazgos?
¿Cómo se probó la validez de la
hipotesis?
20
Estructura de un Artículo
Establecer un dominio
Identificar área de investigación general / revisar
investigación previa
Establecer un nicho
Existencia de gaps / pregunta
Ocuparlo
Propósito de investigación / hallazgos /
esbozo de artículo
Resumen de hallazgos
con respecto a las preguntas de la
investigación
Conclusión
recomendaciones
Método
Resultados
Introducción
¿Qué pregunta o
problema fue estudiado?
Discusión
¿Qué significan?
¿Cómo se abordó el problema?
¿Cuáles son los hallazgos?
¿Cómo se probó la validez de la
hipotesis?
21
Anatomia de un Artículo
21
Anatomia de un Artículo
21
Anatomia de un Artículo
21
Anatomia de un Artículo
21
Anatomia de un Artículo
Este artículo se compone de 11 páginas con
• texto incluyendo 7 fórmulas y 1 algoritmo
• 12 figuras
• 6 tablas
No se puede apreciar el esfuerzo y tiempo de
la investigación y su conceptualización.
También se desconoce el entorno de
cómputo completo.
Flujo de Trabajo
22
Datos
Datos
procesados
Métodos
Artefactos
Figuras
Tablas
Resultados
Numéricos
Artículo
Texto
Código
Autor
Lector
Flujo de Trabajo
22
Datos
Datos
procesados
Métodos
Artefactos
Figuras
Tablas
Resultados
Numéricos
Artículo
Texto
Código
Autor
Lector
¿Cuál es el problema con este flujo?
Flujo con Intervención Manual
23
Flujo con Intervención Manual
23
Principales inconvenientes:
• Sujeto a errores
• Demandante en tiempo
Prácticas de Ingeniería de Software
24
Generación Dinámica de Documentos
25
+
Código y Texto
Imágenes
estáticas
Producto intermedio
incluye resultados (figuras
y tablas)
Producto
final
+
Datos
Generación Dinámica de Documentos
25
+
Código y Texto
Imágenes
estáticas
Producto intermedio
incluye resultados (figuras
y tablas)
Producto
final
+
Datos
Entorno de Cómputo
Generación Dinámica de Documentos
25
+
Código y Texto
Imágenes
estáticas
Producto intermedio
incluye resultados (figuras
y tablas)
Producto
final
+
Datos
Entorno de Cómputo
Se puede extender o adaptar a otros
tipos de documentos: tesis,
presentaciones, libros o a otro
formato de salida, por ejemplo HTML.
Ejemplo
26
Ejemplo
26
Este documento es la versión corta de un
reporte sobre modelos de regresión.
Ejemplo continuación
27
Ejemplo continuación
27
Ejemplo continuación
28
Ejemplo continuación
28
Múltiples Versiones
29
Múltiples Versiones
29
L a s i t u a c i ó n s e c o m p l i c a
introduciendo más revisores:
árbitros, sinodales, colaboradores,
colegas.
¿ Q u é s u c e d e s i e n u n a
corrección / adición se borra una
sección importante, se genera un
error, o se altera el funcionamiento
de los programas?
¿Cómo se coordinan o sincronizan
los cambios si es un trabajo
c o n j u n t o e n t r e v a r i o s
colaboradores?
Control de Versiones
30
Control de Versiones
30
Desarrollo
Producción
Control de Versiones
30
Defecto
Control de Versiones
30
Funcionalidad adicional
Control de Versiones
30
Funcionalidad adicional
Un Documento de Mayor Complejidad
31
Un Documento de Mayor Complejidad
31
Si la generación completa del documento se tarda alrededor de 2
horas.
¿Qué sucede si solo tengo que modificar 2 figuras del capítulo 2 y
una tabla de la sección de conclusiones?
La solución simple es volver a generar todo el documento, pero no
es la solución óptima ya que si hay un error en el cambio hay que
esperar a que el documento esté listo para revisarlo y por otro
lado, continuamente hay que crear nuevas versiones durante el
periodo de revisión.
Gestor de Dependencias
32
Gestor de Dependencias
32
La idea es actualizar automáticamente sólo un
conjunto de artefactos a partir de sus dependencias
(otros artefactos), cada vez que éstas cambien en lugar
de realizar la actualización completa de todos los
artefactos.
Resultado: Un ahorro considerable en tiempo para
proyectos grandes.
El Código no Funciona
33
El Código no Funciona
33
Solución:
Contar con una máquina virtual local o en la
nube donde se encuentre instalado la misma
versión del sistema operativo con el ambiente de
desarrollo idéntico, por ejemplo: ambiente de R,
librerías, LaTeX, etc.
Entorno de Cómputo
34
make
Entorno de Cómputo
34
make
Entorno de Cómputo
34
make
Entorno de Cómputo
34
make
Entorno de Cómputo
34
make
Entorno de Cómputo
34
make
Otros Conceptos de Ingeniería de Software
35
‣ Planeación del proyecto
‣ Análisis, Arquitectura y Diseño
‣ Documentación y depuración de código
‣ Pruebas
‣ Funcionales
‣ Integrales
‣ Automatización
‣ Optimización de código
‣ Administración de defectos
‣ Integración continua
Iniciativas
36
Estándares
Iniciativas
36
Estándares
Artículos ejecutables
Iniciativas
36
BioS
instruments and
materi
Taverna	
  
Estándares
Artículos ejecutables Plataformas
Si estás esperando alguna señal, este es el
momento para empezar a experimentar con
estos conceptos de Ingeniería de Software.
El principal beneficiado serás tú.
38
Referencias
Otras fuentes
Reproducible Research

Más contenido relacionado

Destacado

Syndicale lotissement
Syndicale lotissementSyndicale lotissement
Syndicale lotissement
sabouni21
 
Présentation du Lpa du Haut-Anjou
Présentation du Lpa du Haut-AnjouPrésentation du Lpa du Haut-Anjou
Présentation du Lpa du Haut-Anjou
lpaduhautanjou
 
03 rapport activité cdsp 2011
03 rapport activité cdsp 201103 rapport activité cdsp 2011
03 rapport activité cdsp 2011
CCDH75
 
BRUNE MAGAZINE -ANALYSE ET RECOMMANDATIONS - PAGE FACEBOOK
BRUNE MAGAZINE -ANALYSE ET RECOMMANDATIONS - PAGE FACEBOOKBRUNE MAGAZINE -ANALYSE ET RECOMMANDATIONS - PAGE FACEBOOK
BRUNE MAGAZINE -ANALYSE ET RECOMMANDATIONS - PAGE FACEBOOK
Emilie BULOT
 
Webinar Alignement Marketing > Ventes
Webinar Alignement Marketing > VentesWebinar Alignement Marketing > Ventes
Webinar Alignement Marketing > Ventes
IKO System
 
Fotos nature - (c''est très beau,splendide)
Fotos   nature - (c''est très beau,splendide)Fotos   nature - (c''est très beau,splendide)
Fotos nature - (c''est très beau,splendide)
creacionesdanae
 
Rapport 2010 CDHP 06
Rapport 2010 CDHP 06Rapport 2010 CDHP 06
Rapport 2010 CDHP 06
CCDH75
 
Terre promise premiers chapitres
Terre promise premiers chapitresTerre promise premiers chapitres
Terre promise premiers chapitres
Stephane Chasteller
 

Destacado (20)

Christian Benoit, coordinateur actions culturelles, multimédia et information...
Christian Benoit, coordinateur actions culturelles, multimédia et information...Christian Benoit, coordinateur actions culturelles, multimédia et information...
Christian Benoit, coordinateur actions culturelles, multimédia et information...
 
Salons Solutions Linux & LinuxTAG 2011
Salons Solutions Linux & LinuxTAG 2011Salons Solutions Linux & LinuxTAG 2011
Salons Solutions Linux & LinuxTAG 2011
 
Slides d'information en français sur le projet FIMS 2011 v2.4
Slides d'information en français sur le projet FIMS 2011 v2.4Slides d'information en français sur le projet FIMS 2011 v2.4
Slides d'information en français sur le projet FIMS 2011 v2.4
 
Syndicale lotissement
Syndicale lotissementSyndicale lotissement
Syndicale lotissement
 
Fe
FeFe
Fe
 
Présentation du Lpa du Haut-Anjou
Présentation du Lpa du Haut-AnjouPrésentation du Lpa du Haut-Anjou
Présentation du Lpa du Haut-Anjou
 
que es un wiki
que es un wikique es un wiki
que es un wiki
 
03 rapport activité cdsp 2011
03 rapport activité cdsp 201103 rapport activité cdsp 2011
03 rapport activité cdsp 2011
 
BRUNE MAGAZINE -ANALYSE ET RECOMMANDATIONS - PAGE FACEBOOK
BRUNE MAGAZINE -ANALYSE ET RECOMMANDATIONS - PAGE FACEBOOKBRUNE MAGAZINE -ANALYSE ET RECOMMANDATIONS - PAGE FACEBOOK
BRUNE MAGAZINE -ANALYSE ET RECOMMANDATIONS - PAGE FACEBOOK
 
Présentation 0.5
Présentation 0.5Présentation 0.5
Présentation 0.5
 
Quel est l’impact des réseaux sociaux sur le monde des affaires
Quel est l’impact des réseaux sociaux sur le monde des affairesQuel est l’impact des réseaux sociaux sur le monde des affaires
Quel est l’impact des réseaux sociaux sur le monde des affaires
 
Encuesta 4º
Encuesta 4ºEncuesta 4º
Encuesta 4º
 
Webinar Alignement Marketing > Ventes
Webinar Alignement Marketing > VentesWebinar Alignement Marketing > Ventes
Webinar Alignement Marketing > Ventes
 
Présentation
PrésentationPrésentation
Présentation
 
Un Dato Varios Formatos: Generado Salidas con XSLT
Un Dato Varios Formatos: Generado Salidas con XSLTUn Dato Varios Formatos: Generado Salidas con XSLT
Un Dato Varios Formatos: Generado Salidas con XSLT
 
Fotos nature - (c''est très beau,splendide)
Fotos   nature - (c''est très beau,splendide)Fotos   nature - (c''est très beau,splendide)
Fotos nature - (c''est très beau,splendide)
 
Rapport 2010 CDHP 06
Rapport 2010 CDHP 06Rapport 2010 CDHP 06
Rapport 2010 CDHP 06
 
Louga info 119 (3)
Louga info 119 (3)Louga info 119 (3)
Louga info 119 (3)
 
Terre promise premiers chapitres
Terre promise premiers chapitresTerre promise premiers chapitres
Terre promise premiers chapitres
 
Formation réseaux
Formation réseauxFormation réseaux
Formation réseaux
 

Similar a Reproducible Research

Bitacora ondas explora 2014 9 c semillero 8!
Bitacora ondas explora 2014 9 c semillero 8!Bitacora ondas explora 2014 9 c semillero 8!
Bitacora ondas explora 2014 9 c semillero 8!
jhonatan12353
 
Trabajo de recuperacion
Trabajo de recuperacionTrabajo de recuperacion
Trabajo de recuperacion
HARRYBARRAZA
 
Trabajo de recuperacion
Trabajo de recuperacionTrabajo de recuperacion
Trabajo de recuperacion
HARRYBARRAZA
 
Bitacora ondas explora 2014
Bitacora ondas explora 2014Bitacora ondas explora 2014
Bitacora ondas explora 2014
David Tamayo
 
Bitacora ondas explora 2014
Bitacora ondas explora 2014Bitacora ondas explora 2014
Bitacora ondas explora 2014
David Tamayo
 
Proyecto de-aula-periodo-1-nuevo-noveno
Proyecto de-aula-periodo-1-nuevo-novenoProyecto de-aula-periodo-1-nuevo-noveno
Proyecto de-aula-periodo-1-nuevo-noveno
sofia muñoz
 
Uso de la nanotecnologia en las comunicaciones
Uso de la nanotecnologia en las comunicacionesUso de la nanotecnologia en las comunicaciones
Uso de la nanotecnologia en las comunicaciones
dayanamontoya22
 

Similar a Reproducible Research (20)

Presentación - Rol de una unidad de información especializada en la identific...
Presentación - Rol de una unidad de información especializada en la identific...Presentación - Rol de una unidad de información especializada en la identific...
Presentación - Rol de una unidad de información especializada en la identific...
 
Metodologia para proyectos De nivel medio superior.
Metodologia para proyectos De nivel medio superior.Metodologia para proyectos De nivel medio superior.
Metodologia para proyectos De nivel medio superior.
 
Ttttttt
TttttttTtttttt
Ttttttt
 
Bitacora ondas explora 2014 9 c semillero 8!
Bitacora ondas explora 2014 9 c semillero 8!Bitacora ondas explora 2014 9 c semillero 8!
Bitacora ondas explora 2014 9 c semillero 8!
 
Presentación.ppt_
  Presentación.ppt_  Presentación.ppt_
Presentación.ppt_
 
Trabajo de recuperacion
Trabajo de recuperacionTrabajo de recuperacion
Trabajo de recuperacion
 
Trabajo de recuperacion
Trabajo de recuperacionTrabajo de recuperacion
Trabajo de recuperacion
 
El paradigma DSR: Design Science Research
El paradigma DSR: Design Science Research El paradigma DSR: Design Science Research
El paradigma DSR: Design Science Research
 
Bitacora ondas explora 2014
Bitacora ondas explora 2014Bitacora ondas explora 2014
Bitacora ondas explora 2014
 
Bitacora ondas explora 2014
Bitacora ondas explora 2014Bitacora ondas explora 2014
Bitacora ondas explora 2014
 
Bitácora ondas explora 2014
Bitácora ondas explora 2014Bitácora ondas explora 2014
Bitácora ondas explora 2014
 
Manual de paola
Manual de paolaManual de paola
Manual de paola
 
Int. feria científica
Int. feria científicaInt. feria científica
Int. feria científica
 
Proyecto de-aula-periodo-1-nuevo-noveno
Proyecto de-aula-periodo-1-nuevo-novenoProyecto de-aula-periodo-1-nuevo-noveno
Proyecto de-aula-periodo-1-nuevo-noveno
 
Primeros pasos de investigación
Primeros pasos de investigaciónPrimeros pasos de investigación
Primeros pasos de investigación
 
Uso de la nanotecnologia en las comunicaciones
Uso de la nanotecnologia en las comunicacionesUso de la nanotecnologia en las comunicaciones
Uso de la nanotecnologia en las comunicaciones
 
Ciencia abierta. Definición y elementos
Ciencia abierta. Definición y elementosCiencia abierta. Definición y elementos
Ciencia abierta. Definición y elementos
 
Libro para exposiciones
Libro para exposicionesLibro para exposiciones
Libro para exposiciones
 
Metodología de la investigación
Metodología de la investigaciónMetodología de la investigación
Metodología de la investigación
 
METODOLOGIA DE INVESTIGACION
METODOLOGIA DE INVESTIGACIONMETODOLOGIA DE INVESTIGACION
METODOLOGIA DE INVESTIGACION
 

Más de David Solis

Más de David Solis (20)

Uso de Tecnología de Blockchain en una Infraestructura Financiera
Uso de Tecnología de Blockchain en una Infraestructura FinancieraUso de Tecnología de Blockchain en una Infraestructura Financiera
Uso de Tecnología de Blockchain en una Infraestructura Financiera
 
Industria de Seguros y Behavioral Economics
Industria de Seguros y Behavioral EconomicsIndustria de Seguros y Behavioral Economics
Industria de Seguros y Behavioral Economics
 
Percepción y Adopción de Tecnología: Disrupción en los Sistemas Financieros
Percepción y Adopción de Tecnología: Disrupción en los Sistemas FinancierosPercepción y Adopción de Tecnología: Disrupción en los Sistemas Financieros
Percepción y Adopción de Tecnología: Disrupción en los Sistemas Financieros
 
Toma de decisiones en condiciones VUCA
Toma de decisiones en condiciones VUCAToma de decisiones en condiciones VUCA
Toma de decisiones en condiciones VUCA
 
Ciencia, método y filosofía
Ciencia, método y filosofíaCiencia, método y filosofía
Ciencia, método y filosofía
 
American Options Valuation
American Options ValuationAmerican Options Valuation
American Options Valuation
 
Algoritmo EM
Algoritmo EMAlgoritmo EM
Algoritmo EM
 
Calibración del Modelo Heston usando Evolución Diferencial
Calibración del Modelo Heston usando Evolución DiferencialCalibración del Modelo Heston usando Evolución Diferencial
Calibración del Modelo Heston usando Evolución Diferencial
 
Prueba Kolmogorov-Smirnov
Prueba Kolmogorov-SmirnovPrueba Kolmogorov-Smirnov
Prueba Kolmogorov-Smirnov
 
Gestión de Continuidad de Negocio
Gestión de Continuidad de NegocioGestión de Continuidad de Negocio
Gestión de Continuidad de Negocio
 
Guía para la elaboración de un artículo científico
Guía para la elaboración de un artículo científicoGuía para la elaboración de un artículo científico
Guía para la elaboración de un artículo científico
 
Un Juego Diferencial Estocástico para Reaseguro
Un Juego Diferencial Estocástico para ReaseguroUn Juego Diferencial Estocástico para Reaseguro
Un Juego Diferencial Estocástico para Reaseguro
 
Valuación de Opciones Europeas con el Modelo de Heston utilizando Métodos de ...
Valuación de Opciones Europeas con el Modelo de Heston utilizando Métodos de ...Valuación de Opciones Europeas con el Modelo de Heston utilizando Métodos de ...
Valuación de Opciones Europeas con el Modelo de Heston utilizando Métodos de ...
 
Valuación de Opciones Europeas con el Modelo de Heston utilizando Métodos de ...
Valuación de Opciones Europeas con el Modelo de Heston utilizando Métodos de ...Valuación de Opciones Europeas con el Modelo de Heston utilizando Métodos de ...
Valuación de Opciones Europeas con el Modelo de Heston utilizando Métodos de ...
 
Caso Enron. Contabilidad Creativa, Ética Cuestionable o Actos Delictivos
Caso Enron. Contabilidad Creativa, Ética Cuestionable o Actos DelictivosCaso Enron. Contabilidad Creativa, Ética Cuestionable o Actos Delictivos
Caso Enron. Contabilidad Creativa, Ética Cuestionable o Actos Delictivos
 
Breve introducción a control óptimo y programación dinámica
Breve introducción a control óptimo y programación dinámicaBreve introducción a control óptimo y programación dinámica
Breve introducción a control óptimo y programación dinámica
 
Organizational Change Management for IT Projects
Organizational Change Management for IT ProjectsOrganizational Change Management for IT Projects
Organizational Change Management for IT Projects
 
Persi Diaconis y el lanzamiento de monedas
Persi Diaconis y el lanzamiento de monedasPersi Diaconis y el lanzamiento de monedas
Persi Diaconis y el lanzamiento de monedas
 
Valuación de Opciones Europeas con el Modelo de Heston utilizando el Método d...
Valuación de Opciones Europeas con el Modelo de Heston utilizando el Método d...Valuación de Opciones Europeas con el Modelo de Heston utilizando el Método d...
Valuación de Opciones Europeas con el Modelo de Heston utilizando el Método d...
 
Métodos de Diferencias Finitas
Métodos de Diferencias FinitasMétodos de Diferencias Finitas
Métodos de Diferencias Finitas
 

Último

La teoría de formación de Patricia Benner es una explicación acerca de cómo e...
La teoría de formación de Patricia Benner es una explicación acerca de cómo e...La teoría de formación de Patricia Benner es una explicación acerca de cómo e...
La teoría de formación de Patricia Benner es una explicación acerca de cómo e...
FernandaDillanes1
 
DIA MUNDIAL DEL NO TABAQUISMO Y NO FUMAR
DIA MUNDIAL DEL NO TABAQUISMO Y NO FUMARDIA MUNDIAL DEL NO TABAQUISMO Y NO FUMAR
DIA MUNDIAL DEL NO TABAQUISMO Y NO FUMAR
SolRobles10
 

Último (15)

Farmacología-oftalmológica..............
Farmacología-oftalmológica..............Farmacología-oftalmológica..............
Farmacología-oftalmológica..............
 
Explorando la materia con Dinámica Molecular
Explorando la materia con Dinámica MolecularExplorando la materia con Dinámica Molecular
Explorando la materia con Dinámica Molecular
 
10 etapas del proceso administrativo.pptx
10 etapas del proceso administrativo.pptx10 etapas del proceso administrativo.pptx
10 etapas del proceso administrativo.pptx
 
ANALISIS DE PERFIL LIPIDIOCO PRACTICA 05.docx
ANALISIS DE PERFIL LIPIDIOCO PRACTICA 05.docxANALISIS DE PERFIL LIPIDIOCO PRACTICA 05.docx
ANALISIS DE PERFIL LIPIDIOCO PRACTICA 05.docx
 
Proyecto socio productivo y social uptaeb
Proyecto socio productivo y social  uptaebProyecto socio productivo y social  uptaeb
Proyecto socio productivo y social uptaeb
 
docsity-triptico-de-desastres-naturales.docx
docsity-triptico-de-desastres-naturales.docxdocsity-triptico-de-desastres-naturales.docx
docsity-triptico-de-desastres-naturales.docx
 
Unidad 2 Mat Mineral y Org 2024. Materia Organica
Unidad 2 Mat Mineral y Org 2024. Materia OrganicaUnidad 2 Mat Mineral y Org 2024. Materia Organica
Unidad 2 Mat Mineral y Org 2024. Materia Organica
 
Músculos de cabeza y cuello clasificacion segun rouviere
Músculos de cabeza y cuello clasificacion segun rouviereMúsculos de cabeza y cuello clasificacion segun rouviere
Músculos de cabeza y cuello clasificacion segun rouviere
 
La teoría de formación de Patricia Benner es una explicación acerca de cómo e...
La teoría de formación de Patricia Benner es una explicación acerca de cómo e...La teoría de formación de Patricia Benner es una explicación acerca de cómo e...
La teoría de formación de Patricia Benner es una explicación acerca de cómo e...
 
norma de refuerzo escolar para primaria y secundaria
norma de refuerzo escolar para primaria y secundarianorma de refuerzo escolar para primaria y secundaria
norma de refuerzo escolar para primaria y secundaria
 
TONICORP Enfriamiento Rápido y Eficiente a Través del Ciclo de Refrigeración....
TONICORP Enfriamiento Rápido y Eficiente a Través del Ciclo de Refrigeración....TONICORP Enfriamiento Rápido y Eficiente a Través del Ciclo de Refrigeración....
TONICORP Enfriamiento Rápido y Eficiente a Través del Ciclo de Refrigeración....
 
Trayectoria histórica, exponentes y perspectivas del pensamiento sistémico: u...
Trayectoria histórica, exponentes y perspectivas del pensamiento sistémico: u...Trayectoria histórica, exponentes y perspectivas del pensamiento sistémico: u...
Trayectoria histórica, exponentes y perspectivas del pensamiento sistémico: u...
 
metabolismo vegetal, metabolitos secundarios
metabolismo vegetal, metabolitos secundariosmetabolismo vegetal, metabolitos secundarios
metabolismo vegetal, metabolitos secundarios
 
DIA MUNDIAL DEL NO TABAQUISMO Y NO FUMAR
DIA MUNDIAL DEL NO TABAQUISMO Y NO FUMARDIA MUNDIAL DEL NO TABAQUISMO Y NO FUMAR
DIA MUNDIAL DEL NO TABAQUISMO Y NO FUMAR
 
TEORIAS DE LA ADMINISTRACIÓN EN ENFERMERÍA
TEORIAS DE LA ADMINISTRACIÓN EN ENFERMERÍATEORIAS DE LA ADMINISTRACIÓN EN ENFERMERÍA
TEORIAS DE LA ADMINISTRACIÓN EN ENFERMERÍA
 

Reproducible Research

  • 1. Investigación Reproducible La investigación vista como un producto de software
  • 2. 2 Resumen El tema central de la presentación es que la investigación sobre áreas computacionales tiene muchas similitudes con la construcción de productos de software, de esta manera, se propone la adopción de prácticas de Ingeniería de Software para el proceso de Investigación. Aprovecho la oportunidad para señalar las megatendencias en tecnología y su impacto sobre la investigación en diversos campos. Asimismo para mostrar ejemplos sobre el proceso para la generación dinámica de diversos documentos tales como artículos, presentaciones, tesis, libros, y sobre las herramientas para un entorno basado en R.
  • 4. Megatendencias en Tecnología 3 Compartir experiencias Buscar respuestas Pertenecer a una comunidad BYOD Estar conectado Alternar entre trabajo y no trabajo Accesar lo que sea de donde sea Usar múltiples dispositivos Consumir y generar información Entrega Acceso Contenido Com portam iento
  • 5. Megatendencias en Tecnología 3 Compartir experiencias Buscar respuestas Pertenecer a una comunidad BYOD Estar conectado Alternar entre trabajo y no trabajo Accesar lo que sea de donde sea Usar múltiples dispositivos Consumir y generar información Entrega Acceso Contenido Com portam iento Las investigaciones realizadas durante los últimos años han identificado la evolución independiente de estas cuatro fuerzas: social, móvil, la nube e información. Como resultado de la consumerización y la ubicuidad de los dispositivos inteligentes conectados, el comportamiento de la gente ha causado una convergencia de estas fuerzas.
  • 6. Megatendencias en Tecnología continuación 4 2005 2013
  • 8. 6 Influencia de Métodos Computacionales
  • 9. 7 Nuevos Paradigmas en Investigación Teoría, experimentación, computación, descubrimiento orientado a datos Modelo clásico: “Query the world” (Adquisición de datos para una determinada hipótesis). Nuevo modelo: “Download the world, query the DB” (Adquisición masiva de datos para soportar muchos hipótesis) Ciencia orientada a datos
  • 10. 7 Nuevos Paradigmas en Investigación Teoría, experimentación, computación, descubrimiento orientado a datos Modelo clásico: “Query the world” (Adquisición de datos para una determinada hipótesis). Nuevo modelo: “Download the world, query the DB” (Adquisición masiva de datos para soportar muchos hipótesis) Ciencia orientada a datos Ejemplos: Astronomía: Estudios de alta resolución y alta frecuencia Biología: Automatización de laboratorios, análisis de secuencias Oceanografía: Modelos de alta resolución, sensores de bajo costo
  • 11. 8 Nuevos Paradigmas en Investigación continuación La tecnología facilita la comunicación y c o m p a r t i c i ó n a c e l e r a n d o e l d e s c u b r i m i e n t o c i e n t í f i c o y promoviendo la inteligencia colectiva. • Las redes sociales pueden ser un medio para compartir ideas e información. • Están apareciendo áreas emergentes para mejorar los procesos sociales con tecnología para resolver problemas difíciles utilizando las aportaciones de un grupo. Ciencia interconectada
  • 12. Artículos Acerca de Ciencias Computacionales Un artículo acerca de ciencias computacionales en una publicación científica no es la investigación en si, es solamente la presentación del estudio. El trabajo real es el entorno completo de software, los datos completos y el conjunto completo de programas (código) que genera los resultados. 9
  • 13. La Importancia del Código Fuente 10 Scientific communication relies on evidence that cannot be entirely included in publications, but the rise of computational science has added a new layer of inaccessibility. Although it is now accepted that data should be made available on request, the current regulations regarding the availability of software are inconsistent. We argue that, with some exceptions, anything less than the release of source programs is intolerable for results that depend on computation. The vagaries of hardware, software and natural language will always ensure that exact reproducibility remains uncertain, but withholding code increases the chances that efforts to reproduce results will fail. doi:10.1038/nature10836 doi: 10.1126/science.1218263
  • 14. Principales Razones para no Compartir 11 Código Datos 77% Tiempo para documentar y depurar 54% 52% Contestar las preguntas de usuarios 34% 44% No recibir reconocimiento 42% 40% Posibilidad de patentes — 34% Barreras legales (derechos de autor) 41% — Tiempo para verificar la liberación 38% 30% Posible pérdida de futuras publicaciones 35% 30% Dar ventaja a competidores 33% 20% Limitaciones de almacenamiento 29% Survey of Machine Learning Community (Stodden, 2010)
  • 15. Otras Razones para no Compartir 12 Aún no está listo. N e c e s i t o o t r a publicación. Está muy feo. No hemos tenido la oportunidad de depurarlo. La política de la Institución no nos permite compartir. No tenemos el personal suficiente. A d e m á s n o e s n e c e s a r i o p a r a entender el artículo. La persona que lo hizo y a n o e s t á c o n n o s o t r o s . N o podemos localizarlo ni encontrar la versión. No lo entenderías. De hecho nadie lo e n t i e n d e n i l o p u e d e h a c e r funcionar. No hemos tenido t i e m p o p a r a documentarlo. Está lleno de hacks. Sólo funciona con una versión muy antigua de Matlab. Danos oportunidad de migrarlo. T e n g o q u e preguntar si te lo p o d e m o s compartir.
  • 16. Principales Razones Para Compartir 13 Código Datos 91% Alentar el avance científico 81% 90% Fomentar la participación de otros 79% 86% Ser un buen miembro de la comunidad cientifica 79% 82% Establecer un estándar 76% 85% Mejorar la investigación 74% 81% Lograr que otros investigadores trabajen en el problema 79% 85% Mayor publicidad 73% 78% Retroalimentación 71% 71% Encontrar nuevos colaboradores 71% Survey of Machine Learning Community (Stodden, 2010)
  • 17. Analogia con Artículos sobre Matemáticas 14 No sería concebible que un artículo de matemáticas no incluyera las demostraciones de los lemas, teoremas y corolarios. Ni tampoco que los lectores de dichos artículos no tuvieran interés en ver las demostraciones ni los autores en incluirlos en la publicación. Y que al solicitar la demostración como árbitros o lectores nos dieran cualquiera de estas razones para no poder o no querer compartirla: • La demostración está muy fea. • No he trabajado en los detalles, pero es sencillo demostrarlo. • La demostración es propiedad intelectual. • Estoy considerando comercializar la demostración. • El artículo se extendería demasiado. • Implica matemáticas sofisticadas y limitaría la audiencia del artículo. © Sidney Harris Adaptado de “Top 10 Reasons to Not Share Your Code”, Randall J. LeVeque
  • 18. Reproducibilidad Pilar fundamental del método científico: “La capacidad de repetir un experimento, en cualquier lugar y por cualquier persona” 15
  • 19. 16 Repetibilidad vs Reproducibilidad Se obtienen los mismos resultados al e j e c u t a r e l mismo código Repetibilidad Se obtienen diferentes resultados al ejecutar el mismo código Reproducibilidad Se obtienen los mismos resultados usando un programa diferente Los resultados no pueden ser r e p e t i d o s n i reproducidos
  • 20. 17 Estadísticas Sobre Reproducibilidad De  18  ar(culos,  los  resultados  de   10  no  se  pueden  reproducir
  • 21. 18 Crisis de Credibilidad - Manipulación de Resultados
  • 22. 18 Crisis de Credibilidad - Manipulación de Resultados Resumen del caso: 10 artículos retirados, 6 en correcciones o parcialmente retirados. Demandas al hospital por pacientes. El otro pilar del método científico es la refutación. Desafortunadamente este no es caso aislado. Para la mayoría de los casos, no es posible verificar los resultados y conclusiones de los artículos.
  • 23. 19 El Problema Sobre Artículos Retirados
  • 24. 20 Estructura de un Artículo Establecer un dominio Identificar área de investigación general / revisar investigación previa Establecer un nicho Existencia de gaps / pregunta Ocuparlo Propósito de investigación / hallazgos / esbozo de artículo Introducción ¿Qué pregunta o problema fue estudiado?
  • 25. 20 Estructura de un Artículo Establecer un dominio Identificar área de investigación general / revisar investigación previa Establecer un nicho Existencia de gaps / pregunta Ocuparlo Propósito de investigación / hallazgos / esbozo de artículo Método Resultados Introducción ¿Qué pregunta o problema fue estudiado? ¿Cómo se abordó el problema? ¿Cuáles son los hallazgos? ¿Cómo se probó la validez de la hipotesis?
  • 26. 20 Estructura de un Artículo Establecer un dominio Identificar área de investigación general / revisar investigación previa Establecer un nicho Existencia de gaps / pregunta Ocuparlo Propósito de investigación / hallazgos / esbozo de artículo Resumen de hallazgos con respecto a las preguntas de la investigación Conclusión recomendaciones Método Resultados Introducción ¿Qué pregunta o problema fue estudiado? Discusión ¿Qué significan? ¿Cómo se abordó el problema? ¿Cuáles son los hallazgos? ¿Cómo se probó la validez de la hipotesis?
  • 27. 21 Anatomia de un Artículo
  • 28. 21 Anatomia de un Artículo
  • 29. 21 Anatomia de un Artículo
  • 30. 21 Anatomia de un Artículo
  • 31. 21 Anatomia de un Artículo Este artículo se compone de 11 páginas con • texto incluyendo 7 fórmulas y 1 algoritmo • 12 figuras • 6 tablas No se puede apreciar el esfuerzo y tiempo de la investigación y su conceptualización. También se desconoce el entorno de cómputo completo.
  • 35. Flujo con Intervención Manual 23 Principales inconvenientes: • Sujeto a errores • Demandante en tiempo
  • 36. Prácticas de Ingeniería de Software 24
  • 37. Generación Dinámica de Documentos 25 + Código y Texto Imágenes estáticas Producto intermedio incluye resultados (figuras y tablas) Producto final + Datos
  • 38. Generación Dinámica de Documentos 25 + Código y Texto Imágenes estáticas Producto intermedio incluye resultados (figuras y tablas) Producto final + Datos Entorno de Cómputo
  • 39. Generación Dinámica de Documentos 25 + Código y Texto Imágenes estáticas Producto intermedio incluye resultados (figuras y tablas) Producto final + Datos Entorno de Cómputo Se puede extender o adaptar a otros tipos de documentos: tesis, presentaciones, libros o a otro formato de salida, por ejemplo HTML.
  • 41. Ejemplo 26 Este documento es la versión corta de un reporte sobre modelos de regresión.
  • 47. Múltiples Versiones 29 L a s i t u a c i ó n s e c o m p l i c a introduciendo más revisores: árbitros, sinodales, colaboradores, colegas. ¿ Q u é s u c e d e s i e n u n a corrección / adición se borra una sección importante, se genera un error, o se altera el funcionamiento de los programas? ¿Cómo se coordinan o sincronizan los cambios si es un trabajo c o n j u n t o e n t r e v a r i o s colaboradores?
  • 53. Un Documento de Mayor Complejidad 31
  • 54. Un Documento de Mayor Complejidad 31 Si la generación completa del documento se tarda alrededor de 2 horas. ¿Qué sucede si solo tengo que modificar 2 figuras del capítulo 2 y una tabla de la sección de conclusiones? La solución simple es volver a generar todo el documento, pero no es la solución óptima ya que si hay un error en el cambio hay que esperar a que el documento esté listo para revisarlo y por otro lado, continuamente hay que crear nuevas versiones durante el periodo de revisión.
  • 56. Gestor de Dependencias 32 La idea es actualizar automáticamente sólo un conjunto de artefactos a partir de sus dependencias (otros artefactos), cada vez que éstas cambien en lugar de realizar la actualización completa de todos los artefactos. Resultado: Un ahorro considerable en tiempo para proyectos grandes.
  • 57. El Código no Funciona 33
  • 58. El Código no Funciona 33 Solución: Contar con una máquina virtual local o en la nube donde se encuentre instalado la misma versión del sistema operativo con el ambiente de desarrollo idéntico, por ejemplo: ambiente de R, librerías, LaTeX, etc.
  • 65. Otros Conceptos de Ingeniería de Software 35 ‣ Planeación del proyecto ‣ Análisis, Arquitectura y Diseño ‣ Documentación y depuración de código ‣ Pruebas ‣ Funcionales ‣ Integrales ‣ Automatización ‣ Optimización de código ‣ Administración de defectos ‣ Integración continua
  • 69. Si estás esperando alguna señal, este es el momento para empezar a experimentar con estos conceptos de Ingeniería de Software. El principal beneficiado serás tú.