Hugo Andrés Dorado B. 
Estadístico (2013), Asistente de investigación en 
CIAT
Temas de la presentación 
Caso de estudio en arroz 
Conceptos de Big Data
Incremento en los datos generados
De donde proviene la información? 
1 billón de usuarios activos 
más de 38.576 consultas por segundo! 
5700 tweets por seg...
En que formato vienen estos datos? 
Imagenes satelitales Páginas web 
Videos 
Muchas otras fuentes de datos no estructurad...
Quienes son los interesados? 
- Compañías que utilizan Marketing como estrategia de ventas. 
- La agricultura. 
- Quienes ...
Definición del Big Data 
“Una tendencia que se impone en el mundo para el análisis y 
procesamiento de información masiva,...
4 V del Big Data – Piezas del rompecabezas 
VOLUMEN 
Grades conjuntos de datos 
VELOCIDAD 
Alta velocidad del flujo de dat...
Big data en Arroz
Información del cultivo de arroz 
Sistema de riego Sistema secano 
Siembra 
Cosecha 
Un evento productivo de arroz = alred...
Temas de interés para el productor o 
el gremio. 
- Como afecta el clima al 
cultivo. 
- Que variedad se debe sembrar 
- C...
Contexto de la investigación 
Variabilidad en los rendimientos de 
arroz y brecha productiva. 
Hipótesis: 
- El clima tien...
Buscando y uniendo las fichas 
Convenio MADR - CIAT 
IDEAM 
Fisiólogos expertos en el 
cultivo 
Encuesta nacional arrocera...
Saldaña (Tolima), Caso de estudio 
Volumen 
 Saldaña 2007 a 2012 
 N: 793 eventos productivos 
 Estaciones meteorológic...
Definiendo las variables, con colaboración 
de los expertos 
VEG 
Cómo aumentar la predicción? 
FLOR 
FLOR 
Ini 
Pan 
VEG ...
Manos a la obra 
• Estandarización de la base de datos (Clima y formatos en Excel). 
• Llenados de datos faltes. 
• Creaci...
Redes neuronales artificiales 
V1 
V2 
V3 
V4 
V5 
V60 
sp1 
Entradas 
Capa oculta 
Salida 
 Capacidad de predecir. 
 Fl...
Tratando de ver que hay dentro de 
la caja negra 
Métricas para medir la sensibilidad 
¿Hay un orden de relevancia? 
Perfi...
Resultados (Caso de estudio Saldaña) 
Zona Saldaña 
Variedad F733 
Número de registro 190 
Desempeño (R) 28.47 
Promedio d...
Resultados (Caso de estudio Saldaña) 
Zona Saldaña 
Variedad F60 
Número de registro 100 
Desempeño (R) 35.4 
Proporción d...
Resultados (Caso de estudio Córdoba) 
Localidades de Montería y Cereté 
Fechas de siembra 
Ago 1 2014 
Sep 30 2014 
Pronós...
Aplicación en pronósticos climáticos 
Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/...
Aplicación en pronósticos climáticos 
Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/...
Evaluación de lo resultado con lo 
gremios 
Reunión con productores 
Aguazul - Yopal 
Veracidad 
Reunión con gremio 
Gira ...
Nuevas metodologías a explorar 
• Suport Vector Machine 
• C forest 
• Random Forest 
• Datos funcionales
Conclusiones 
- Big Data en la época actual se presenta como una alternativa útil que 
permite beneficiarse de la informac...
Equipo de trabajo 
Fisiologa 
Agrónomo experto 
Estadísticos 
Ingeniero de 
sistemas 
Agrónomo 
Biólogo 
Antropóloga 
¡Gra...
Referencias 
• http://www.aclimatecolombia.org/ 
• http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/ 
• http...
Próxima SlideShare
Cargando en…5
×

Presentación univalle

444 visualizaciones

Publicado el

Presentación sobre Big data y un caso aplicado a arroz

Publicado en: Datos y análisis
0 comentarios
1 recomendación
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
444
En SlideShare
0
De insertados
0
Número de insertados
113
Acciones
Compartido
0
Descargas
11
Comentarios
0
Recomendaciones
1
Insertados 0
No insertados

No hay notas en la diapositiva.

Presentación univalle

  1. 1. Hugo Andrés Dorado B. Estadístico (2013), Asistente de investigación en CIAT
  2. 2. Temas de la presentación Caso de estudio en arroz Conceptos de Big Data
  3. 3. Incremento en los datos generados
  4. 4. De donde proviene la información? 1 billón de usuarios activos más de 38.576 consultas por segundo! 5700 tweets por segundo! Muchas más… http://cuartoenlace.blogspot.com/2014/01/las-estadisticas-de-facebook- twitter.html Más frecuente!
  5. 5. En que formato vienen estos datos? Imagenes satelitales Páginas web Videos Muchas otras fuentes de datos no estructurados…
  6. 6. Quienes son los interesados? - Compañías que utilizan Marketing como estrategia de ventas. - La agricultura. - Quienes establecen políticas publicas . - Sector de la Salud. - Muchos otros sectores.
  7. 7. Definición del Big Data “Una tendencia que se impone en el mundo para el análisis y procesamiento de información masiva, la cual se ha convertido en una herramienta muy útil para tomar decisiones” http://colombia-inn.com.co
  8. 8. 4 V del Big Data – Piezas del rompecabezas VOLUMEN Grades conjuntos de datos VELOCIDAD Alta velocidad del flujo de datos, cambio y procesamiento VARIEDAD Varios tipos de fuentes (Datos estructurados y no estructurados) VERACIDAD Incertidumbre: Inconsistencia de los datos, ambigüedad y modelos de aproximación. IBM corporation 2012
  9. 9. Big data en Arroz
  10. 10. Información del cultivo de arroz Sistema de riego Sistema secano Siembra Cosecha Un evento productivo de arroz = alrededor de 120 días
  11. 11. Temas de interés para el productor o el gremio. - Como afecta el clima al cultivo. - Que variedad se debe sembrar - Cuando se debe sembrar para sacar el mayor potencial del cultivo. - Entre otros
  12. 12. Contexto de la investigación Variabilidad en los rendimientos de arroz y brecha productiva. Hipótesis: - El clima tiene efectos relevante, que contribuyen a la variación en los rendimientos. - Tomando referencia datos del pasado se puede extraer información para tomar mejores decisiones en el futuro. - La planta presenta mayor sensibilidad en ciertas fases del cultivo.
  13. 13. Buscando y uniendo las fichas Convenio MADR - CIAT IDEAM Fisiólogos expertos en el cultivo Encuesta nacional arrocera Registros de cosechas en zonas arroceras Variedad
  14. 14. Saldaña (Tolima), Caso de estudio Volumen  Saldaña 2007 a 2012  N: 793 eventos productivos  Estaciones meteorológicas
  15. 15. Definiendo las variables, con colaboración de los expertos VEG Cómo aumentar la predicción? FLOR FLOR Ini Pan VEG Ini Pan Variedad 1 Variedad 2 Siembra Cosecha • Promedio de la temperatura máxima • Energía solar acumulada • Precipitación acumulada • Número de días de precipitación significativa (Mayor 10 mm) . . . Fase vegetativa Iniciación panícula Floración Llenado panícula
  16. 16. Manos a la obra • Estandarización de la base de datos (Clima y formatos en Excel). • Llenados de datos faltes. • Creación de Scripts para el procesamiento de datos. Velocidad • Uso de redes neuronales para identificar . • Uso de R y Fennix para la ejecución de modelos analíticos, paralelo.
  17. 17. Redes neuronales artificiales V1 V2 V3 V4 V5 V60 sp1 Entradas Capa oculta Salida  Capacidad de predecir.  Flexibilidad en los supuestos de los datos de entrada.  Percibir relaciones no lineales
  18. 18. Tratando de ver que hay dentro de la caja negra Métricas para medir la sensibilidad ¿Hay un orden de relevancia? Perfiles de relación entre variable de entrada y variable salida ¿Qué tipo de relación?
  19. 19. Resultados (Caso de estudio Saldaña) Zona Saldaña Variedad F733 Número de registro 190 Desempeño (R) 28.47 Promedio de temperatura mínima en fase vegetativa Energía acumulada en fase de llenado
  20. 20. Resultados (Caso de estudio Saldaña) Zona Saldaña Variedad F60 Número de registro 100 Desempeño (R) 35.4 Proporción de dias con precipitación mayor a 10mm
  21. 21. Resultados (Caso de estudio Córdoba) Localidades de Montería y Cereté Fechas de siembra Ago 1 2014 Sep 30 2014 Pronóstico climático diario Ago 1 2014 Ener 30 2015 Variedades disponibles: F733, F2000 y F473 ¿Cuándo y que sembrar? Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/
  22. 22. Aplicación en pronósticos climáticos Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/
  23. 23. Aplicación en pronósticos climáticos Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/
  24. 24. Evaluación de lo resultado con lo gremios Reunión con productores Aguazul - Yopal Veracidad Reunión con gremio Gira en Ibagué Fedearroz Bogotá
  25. 25. Nuevas metodologías a explorar • Suport Vector Machine • C forest • Random Forest • Datos funcionales
  26. 26. Conclusiones - Big Data en la época actual se presenta como una alternativa útil que permite beneficiarse de la información que se está generando por todos lados y trasciende a muchos de los campos de investigación; entre ellos la agricultura. - Buscar un valor agregado a través de la información colectada con distintos propósitos bajo el enfoque de bigData, nos proporcionó información base muy útil que luego pudo ser utilizada por agricultores para tomar mejores decisiones en campo. - Fue fundamental aplicar las 4 V´s del BigData para realizar el caso de estudio de manera que pudieran obtener productos de gran valor.
  27. 27. Equipo de trabajo Fisiologa Agrónomo experto Estadísticos Ingeniero de sistemas Agrónomo Biólogo Antropóloga ¡Gracias!
  28. 28. Referencias • http://www.aclimatecolombia.org/ • http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/ • http://www.coursera.org/ • http://colombia-inn.com.co

×