4. De donde proviene la información?
1 billón de usuarios activos
más de 38.576 consultas por segundo!
5700 tweets por segundo!
Muchas más…
http://cuartoenlace.blogspot.com/2014/01/las-estadisticas-de-facebook-
twitter.html
Más frecuente!
5. En que formato vienen estos datos?
Imagenes satelitales Páginas web
Videos
Muchas otras fuentes de datos no estructurados…
6. Quienes son los interesados?
- Compañías que utilizan Marketing como estrategia de ventas.
- La agricultura.
- Quienes establecen políticas publicas .
- Sector de la Salud.
- Muchos otros sectores.
7. Definición del Big Data
“Una tendencia que se impone en el mundo para el análisis y
procesamiento de información masiva, la cual se ha convertido en una
herramienta muy útil para tomar decisiones”
http://colombia-inn.com.co
8. 4 V del Big Data – Piezas del rompecabezas
VOLUMEN
Grades conjuntos de datos
VELOCIDAD
Alta velocidad del flujo de datos,
cambio y procesamiento
VARIEDAD
Varios tipos de fuentes (Datos
estructurados y no estructurados)
VERACIDAD
Incertidumbre: Inconsistencia de los
datos, ambigüedad y modelos de
aproximación.
IBM corporation 2012
10. Información del cultivo de arroz
Sistema de riego Sistema secano
Siembra
Cosecha
Un evento productivo de arroz = alrededor de 120
días
11. Temas de interés para el productor o
el gremio.
- Como afecta el clima al
cultivo.
- Que variedad se debe sembrar
- Cuando se debe sembrar para
sacar el mayor potencial del
cultivo.
- Entre otros
12. Contexto de la investigación
Variabilidad en los rendimientos de
arroz y brecha productiva.
Hipótesis:
- El clima tiene efectos relevante, que contribuyen a la variación en los
rendimientos.
- Tomando referencia datos del pasado se puede extraer información
para tomar mejores decisiones en el futuro.
- La planta presenta mayor sensibilidad en ciertas fases del cultivo.
13. Buscando y uniendo las fichas
Convenio MADR - CIAT
IDEAM
Fisiólogos expertos en el
cultivo
Encuesta nacional arrocera
Registros de cosechas en
zonas arroceras
Variedad
14. Saldaña (Tolima), Caso de estudio
Volumen
Saldaña 2007 a 2012
N: 793 eventos productivos
Estaciones meteorológicas
15. Definiendo las variables, con colaboración
de los expertos
VEG
Cómo aumentar la predicción?
FLOR
FLOR
Ini
Pan
VEG
Ini Pan
Variedad 1
Variedad 2
Siembra
Cosecha
• Promedio de la temperatura máxima
• Energía solar acumulada
• Precipitación acumulada
• Número de días de precipitación significativa (Mayor
10 mm)
. . .
Fase vegetativa
Iniciación panícula
Floración
Llenado panícula
16. Manos a la obra
• Estandarización de la base de datos (Clima y formatos en Excel).
• Llenados de datos faltes.
• Creación de Scripts para el procesamiento de datos.
Velocidad
• Uso de redes neuronales para identificar .
• Uso de R y Fennix para la ejecución de modelos analíticos, paralelo.
17. Redes neuronales artificiales
V1
V2
V3
V4
V5
V60
sp1
Entradas
Capa oculta
Salida
Capacidad de predecir.
Flexibilidad en los
supuestos de los datos
de entrada.
Percibir relaciones no
lineales
18. Tratando de ver que hay dentro de
la caja negra
Métricas para medir la sensibilidad
¿Hay un orden de relevancia?
Perfiles de relación entre variable de
entrada y variable salida
¿Qué tipo de relación?
19. Resultados (Caso de estudio Saldaña)
Zona Saldaña
Variedad F733
Número de registro 190
Desempeño (R) 28.47
Promedio de temperatura mínima en fase
vegetativa
Energía acumulada en fase de llenado
20. Resultados (Caso de estudio Saldaña)
Zona Saldaña
Variedad F60
Número de registro 100
Desempeño (R) 35.4
Proporción de dias con precipitación mayor a 10mm
21. Resultados (Caso de estudio Córdoba)
Localidades de Montería y Cereté
Fechas de siembra
Ago 1 2014
Sep 30 2014
Pronóstico climático diario
Ago 1 2014 Ener 30 2015
Variedades disponibles: F733, F2000 y F473
¿Cuándo y que sembrar?
Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/
22. Aplicación en pronósticos climáticos
Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/
23. Aplicación en pronósticos climáticos
Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/
24. Evaluación de lo resultado con lo
gremios
Reunión con productores
Aguazul - Yopal
Veracidad
Reunión con gremio
Gira en Ibagué Fedearroz Bogotá
25. Nuevas metodologías a explorar
• Suport Vector Machine
• C forest
• Random Forest
• Datos funcionales
26. Conclusiones
- Big Data en la época actual se presenta como una alternativa útil que
permite beneficiarse de la información que se está generando por todos
lados y trasciende a muchos de los campos de investigación; entre ellos la
agricultura.
- Buscar un valor agregado a través de la información colectada con distintos
propósitos bajo el enfoque de bigData, nos proporcionó información base
muy útil que luego pudo ser utilizada por agricultores para tomar mejores
decisiones en campo.
- Fue fundamental aplicar las 4 V´s del BigData para realizar el caso de estudio
de manera que pudieran obtener productos de gran valor.
27. Equipo de trabajo
Fisiologa
Agrónomo experto
Estadísticos
Ingeniero de
sistemas
Agrónomo
Biólogo
Antropóloga
¡Gracias!