SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
PROCESAMIENTO de DATOS
Uso de Python para procesamiento de Datos
• Python como lenguaje de programación para Data Science
• Herramientas para trabajar con Python (Jupyter Notebooks, Google Colab)
• Librerías para extender la funcionalidad de Python (Pandas, NumPy, Scipy, etc)
• Uso de Pandas para análisis de datos
Ciencia de Datos. Maestría en Tecnologías del Internet. Facultad de Telemática
Universidad de Colima. DTI. Román Herrera. rherrera@ucol.mx Marzo 2021
Python – Lenguaje para tareas de procesamiento
de datos y Data Science (ciencia de datos)
Una práctica común hasta nuestros días es la utilización, para la investigación y prototipado
de proyectos e ideas de desarrollo tecnológico, de lenguajes de programación como:
Java, Javascript, C#, C++, Perl
mientras que R y Python han sido dos soluciones de soporte de desarrollo representativas y
líderes en el ámbito de la ciencia de datos, tanto en el entorno privado como en el abierto.
Sin embargo, Python en los años recientes ha
incrementado su utilización, ya que se ajusta no
sólo al campo de la investigación y prototipado
sino también al desarrollo y producción de
software, lo que lo convierte en unos de los
lenguajes más versátiles para cubrir todas las
fases para el desarrollo de cómputo científico,
tanto de producción libre como comercial.
Popularity of Programming Language (PYPL, 2021). En: http://pypl.github.io/PYPL.html
Lenguajes de programación para la ciencia de datos
Python también se compara con otros lenguajes y herramientas para análisis matemático, tanto
a nivel comercial como de opciones de software libre, como lo son:
R, Julia, Scala, MATLAB, SAS, Stata, Octave, MiniTab y SPSS, entre otros.
éstos han dominado por mucho tiempo el mercado y la preferencia de la comunidad científica.
Sin embargo Python, tiene muchas ventajas adicionales y además cuenta con una gran variedad
de librerías que extienden su funcionalidad.
Librerías de Python para analítica de datos
• Numpy. Soporta grandes vectores y matrices usando una biblioteca de funciones matemáticas
para manipularlos, implementa de forma interna otras herramientas tales como matplotlib,
pandas, Scipy y sympy.
• Scipy. Basado en Numpy, integra optimizaciones para el cómputo numérico, estadístico, álgebra
lineal
• Pandas. Es una biblioteca que contiene estructuras de alto nivel y herramientas de manipulación
de datos masivos, permite indexar, recuperar, ordenar, remodelar, combinar, fragmentar y realizar
diversos análisis, tanto individuales como multidimensionales de los datos (Anthony, 2015).
Lenguajes de programación para la ciencia de datos
Librerías de Python para analítica de datos …
• Matplotlib. Es una biblioteca de visualización de gráficos en 2D.
• Scikit-Learn. Es utilizada para minería y análisis de datos para las tareas de clasificación, análisis de regresión,
predictivo, agrupamiento, reconocimiento de imágenes, selección de modelos, reducción de dimensionalidad
y preprocesamiento de datos.
• TensorFlow. Creada por Google para tareas de entrenamiento de redes neuronales, algoritmos de Machine
Learning,Deep Learning, visión por computadora, entre otras.
• Pytorch. Una de las librerías más utilizadas por investigadores y científicos de datos para acelerar tareas de
modelado gráfico de optimización, aprendizaje máquina.
• Pybrain. Es una librería para tareas de aprendizaje reforzado, supervisado, no supervisado, redes neuronales y
evolutivas.
• NLTK. Natural Language Toolkit es para modelado lingüístico, en subáreas de la inteligencia artificial,
principalmente en el cómputo cognitivo.
• OpenCV. Es una biblioteca creada por Intel para el reconocimiento óptico, incluye funciones para el control
gráfico en 2D y 3D, robótica móvil, reconocimiento de gestos, captura de video, realidad aumentada, etc.
• Keras. Biblioteca especializada en la optimización de tareas complejas con redes neuronales y proyectos de
aprendizaje automático y aprendizaje profundo. Soporte de procesamiento con CPU y GPU.
Python – Herramientas y plataformas para codificar
Plataformas como Jupyter Notebook se han vuelto muy
populares puesto que ofrecen en una interfaz web de un
entorno de trabajo basado como si se tratara de un IDE de
tipo escritorio, e integran diversas librerías tanto para el
análisis de datos masivos como el modelado de servicios de
inteligencia artificial y proporcionan muchas características
que los desarrolladores aprecian, como:
• Soporte para múltiples lenguajes de programación: Python,
Julia, SCALA, R, SQL, entre otros.
• Precargado de muchas librerías muy útiles, sin necesidad de
instalarlas manualmente.
• Autocompletado, sugerencias en parámetros y variables, etc.
• Previsualización en tiempo real del estilo de texto con marcaje
markdown.
• Información sobre el tiempo de ejecución, dentro del propio
notebook, sin requerir líneas de código para monitorear la
compilación y procesos de los objetos.
• Personalización y previsualización de gráficos de datos, entre
muchas otras.
https://jupyter.org/
Python – Herramientas y plataformas para codificar
Google Colab es una herramienta de Google que
nos proporciona un entorno basado en la nube para
realizar la ejecución de programas en Python para
aprovechar la potencia de los GPUs (procesadores
para paralelización) y TPUs (procesadores
especializados para Inteligencia Artificial) de Google.
Este entorno de programación está basado en
cuadernos de Jupyter notebooks y tiene integración
con GitHub y Drive para compartir código. Se ha
popularizado su uso para la enseñanza de técnicas y
aplicación de métodos para aprendizaje automático y
ciencia de datos.
Con esta plataforma no es necesario instalar o
configurar nada en las computadoras de los usuarios,
ya que solo se requiere tener un navegador web,
conexión a internet y una cuenta de Gmail.
http://colab.research.google.com/
Python – ejemplo de código para leer y graficar datos
De una forma fácil se puede leer un dataset y generar una gráfica de barras
para explorar visualmente el contenido de sus datos.
Basado en Simran Kaur (2021) Analyzing Data in Histogram in Python. Disponible en: https://linuxhint.com/analyzing-data-in-histogram-in-python/
En este ejemplo se utiliza
un dataset con datos de
los pasajeros del “titanic”
que está en formato CSV
y del cual se selecciona
únicamente el atributo
“Age” para analizar la
distribución de edad de
los mismos.
Son suficientes 25 líneas
de código para leer datos
y personalizar el gráfico
(10 son de comentarios).
Únicamente se utilizan
dos librerías: Pandas y
Matplotlib
EJERCICIO - Análisis de dataset de ventas con Pandas
Basado en el tutorial de Keith Galli
- VideoTutorial en Youtube
Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4
- Repositorio en GitHub de Keith Galli
Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks
En este ejercicio de procesamiento
de datos con Python y Pandas se
realizará un análisis básico de la
información de ventas empleando
un dataset en CSV y las librerías
Pandas y matplotLib.
Para completar esta actividad, hay que seguir paso a paso el videotutorial,
hacer los ejercicios propuestos en el video,
y además habrá que agregar y resolver otras preguntas, como:
• Q5: ¿Cuál es el promedio de ventas por cada mes?
• Q6: ¿Cuál es el precio promedio en que se ha vendido cada artículo?
• Q7: ¿Cuál es el total de piezas pedidas de cada producto?
• Q8: ¿Cuál es el TOP5 de los productos más vendidos?
EJERCICIO - Análisis de dataset de ventas con Pandas
Basado en el tutorial de Keith Galli
- VideoTutorial en Youtube
Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4
- Repositorio en GitHub de Keith Galli
Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks

Más contenido relacionado

La actualidad más candente

Metodologias de desarrollo
Metodologias de desarrolloMetodologias de desarrollo
Metodologias de desarrolloHermes Romero
 
Desarrollo estructurado
Desarrollo estructuradoDesarrollo estructurado
Desarrollo estructuradowaralivt
 
AUDITORIA DE BASE DE DATOS
AUDITORIA DE BASE DE DATOSAUDITORIA DE BASE DE DATOS
AUDITORIA DE BASE DE DATOSGRECIAGALLEGOS
 
Ciclo de vida de un sistema de informacion fase 7
Ciclo de vida de un sistema de informacion fase 7Ciclo de vida de un sistema de informacion fase 7
Ciclo de vida de un sistema de informacion fase 7IUTA
 
El modelo entidad_relacion
El modelo entidad_relacionEl modelo entidad_relacion
El modelo entidad_relacionLuis Lucho
 
ERP Software de Gestión Empresarial
ERP Software de Gestión EmpresarialERP Software de Gestión Empresarial
ERP Software de Gestión EmpresarialNombre Apellidos
 
Sistemas de Información para la Gestión de Proyectos
Sistemas de Información para la Gestión de ProyectosSistemas de Información para la Gestión de Proyectos
Sistemas de Información para la Gestión de ProyectosGelier Gustavo Silva Tellez
 
Que es Administración de centros de información
Que es Administración de centros de informaciónQue es Administración de centros de información
Que es Administración de centros de informaciónMarco Junior Cordero Pampa
 
BASE DE DATOS SISTEMA MODELO DE GESTION DE DATOS
BASE DE DATOS SISTEMA MODELO DE GESTION DE DATOSBASE DE DATOS SISTEMA MODELO DE GESTION DE DATOS
BASE DE DATOS SISTEMA MODELO DE GESTION DE DATOSmiguel a
 
1.1 REQUERIMIENTOS DE PROCESO
1.1 REQUERIMIENTOS DE PROCESO1.1 REQUERIMIENTOS DE PROCESO
1.1 REQUERIMIENTOS DE PROCESOmataditoxd
 
Diferencias entre scrum y xp
Diferencias entre scrum y xp Diferencias entre scrum y xp
Diferencias entre scrum y xp deborahgal
 
Diagramas de contexto para blog
Diagramas de contexto para blogDiagramas de contexto para blog
Diagramas de contexto para blogmartinvazquez
 

La actualidad más candente (20)

Metodologias de desarrollo
Metodologias de desarrolloMetodologias de desarrollo
Metodologias de desarrollo
 
Desarrollo estructurado
Desarrollo estructuradoDesarrollo estructurado
Desarrollo estructurado
 
Modelo entidad relacion
Modelo entidad relacionModelo entidad relacion
Modelo entidad relacion
 
AUDITORIA DE BASE DE DATOS
AUDITORIA DE BASE DE DATOSAUDITORIA DE BASE DE DATOS
AUDITORIA DE BASE DE DATOS
 
Ciclo de vida de un sistema de informacion fase 7
Ciclo de vida de un sistema de informacion fase 7Ciclo de vida de un sistema de informacion fase 7
Ciclo de vida de un sistema de informacion fase 7
 
El modelo entidad_relacion
El modelo entidad_relacionEl modelo entidad_relacion
El modelo entidad_relacion
 
Casos uso uml
Casos uso umlCasos uso uml
Casos uso uml
 
Machine Learning para Todos
Machine Learning para TodosMachine Learning para Todos
Machine Learning para Todos
 
ERP Software de Gestión Empresarial
ERP Software de Gestión EmpresarialERP Software de Gestión Empresarial
ERP Software de Gestión Empresarial
 
Diagrama de biblioteca
Diagrama de bibliotecaDiagrama de biblioteca
Diagrama de biblioteca
 
Sistemas de Información para la Gestión de Proyectos
Sistemas de Información para la Gestión de ProyectosSistemas de Información para la Gestión de Proyectos
Sistemas de Información para la Gestión de Proyectos
 
Que es Administración de centros de información
Que es Administración de centros de informaciónQue es Administración de centros de información
Que es Administración de centros de información
 
BASE DE DATOS SISTEMA MODELO DE GESTION DE DATOS
BASE DE DATOS SISTEMA MODELO DE GESTION DE DATOSBASE DE DATOS SISTEMA MODELO DE GESTION DE DATOS
BASE DE DATOS SISTEMA MODELO DE GESTION DE DATOS
 
1.1 REQUERIMIENTOS DE PROCESO
1.1 REQUERIMIENTOS DE PROCESO1.1 REQUERIMIENTOS DE PROCESO
1.1 REQUERIMIENTOS DE PROCESO
 
Diferencias entre scrum y xp
Diferencias entre scrum y xp Diferencias entre scrum y xp
Diferencias entre scrum y xp
 
Validación y Verificación de Software
Validación y Verificación de SoftwareValidación y Verificación de Software
Validación y Verificación de Software
 
Diagramas de Casos de Uso del Negocio y del Sistema
 Diagramas de Casos de Uso del Negocio y del Sistema Diagramas de Casos de Uso del Negocio y del Sistema
Diagramas de Casos de Uso del Negocio y del Sistema
 
2. El proceso del software
2. El proceso del software2. El proceso del software
2. El proceso del software
 
Diagrama de contexto
Diagrama de contextoDiagrama de contexto
Diagrama de contexto
 
Diagramas de contexto para blog
Diagramas de contexto para blogDiagramas de contexto para blog
Diagramas de contexto para blog
 

Similar a Python - Lenguaje de programación para Ciencia de Datos

procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...DEMSSHILLLEONELCOUTI
 
Summer school python in spanish
Summer school python in spanishSummer school python in spanish
Summer school python in spanishAjay Ohri
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datosBBVA API Market
 
Unidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVBUnidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVBSistemadeEstudiosMed
 
Python y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-CorrientesPython y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-Corrientesalexis ibarra
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0Jeremi Sixto Perales
 
Clase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxClase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxjgs07
 
Proyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdfProyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdftechno48
 
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAlberto Diaz Martin
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 

Similar a Python - Lenguaje de programación para Ciencia de Datos (20)

procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...
 
Summer school python in spanish
Summer school python in spanishSummer school python in spanish
Summer school python in spanish
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
Unidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVBUnidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVB
 
Sesion8_Python.pptx
Sesion8_Python.pptxSesion8_Python.pptx
Sesion8_Python.pptx
 
Python y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-CorrientesPython y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-Corrientes
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Clase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxClase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptx
 
Proyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdfProyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdf
 
Tecnologías detrás de las aplicaciones
Tecnologías detrás de las aplicacionesTecnologías detrás de las aplicaciones
Tecnologías detrás de las aplicaciones
 
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Tipo de Aplicaciones
Tipo de AplicacionesTipo de Aplicaciones
Tipo de Aplicaciones
 
Introducción a python
Introducción a pythonIntroducción a python
Introducción a python
 
Introduccion a-python
Introduccion a-pythonIntroduccion a-python
Introduccion a-python
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
MLOps.pptx
MLOps.pptxMLOps.pptx
MLOps.pptx
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 

Más de Roman Herrera

Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Roman Herrera
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceRoman Herrera
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosRoman Herrera
 
Docker 101 - dockers y Bases de Datos DB
Docker 101 -  dockers y Bases de Datos DBDocker 101 -  dockers y Bases de Datos DB
Docker 101 - dockers y Bases de Datos DBRoman Herrera
 
IoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google AssistantIoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google AssistantRoman Herrera
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Roman Herrera
 

Más de Roman Herrera (6)

Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data Science
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
 
Docker 101 - dockers y Bases de Datos DB
Docker 101 -  dockers y Bases de Datos DBDocker 101 -  dockers y Bases de Datos DB
Docker 101 - dockers y Bases de Datos DB
 
IoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google AssistantIoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google Assistant
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
 

Último

SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdfSEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdfsmilagrossmedina23
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANASanyahelmont
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfJC Díaz Herrera
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀LALVAREZD
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1alfredo130306
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónJhon Jimenez
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfLizRamirez182254
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoBESTTech1
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024OBSERVATORIOREGIONAL
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointaria66611782972
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIAEduardo Ferreira
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxMarioKing10
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024IrapuatoCmovamos
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxfatimacamilainjantem
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxlm8322074
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..KerlynRuizPinedo
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoRaúl Figueroa
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeklebersky23
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptxJEFFERSONMEDRANOCHAV
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfJC Díaz Herrera
 

Último (20)

SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdfSEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdf
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 

Python - Lenguaje de programación para Ciencia de Datos

  • 1. PROCESAMIENTO de DATOS Uso de Python para procesamiento de Datos • Python como lenguaje de programación para Data Science • Herramientas para trabajar con Python (Jupyter Notebooks, Google Colab) • Librerías para extender la funcionalidad de Python (Pandas, NumPy, Scipy, etc) • Uso de Pandas para análisis de datos Ciencia de Datos. Maestría en Tecnologías del Internet. Facultad de Telemática Universidad de Colima. DTI. Román Herrera. rherrera@ucol.mx Marzo 2021
  • 2. Python – Lenguaje para tareas de procesamiento de datos y Data Science (ciencia de datos) Una práctica común hasta nuestros días es la utilización, para la investigación y prototipado de proyectos e ideas de desarrollo tecnológico, de lenguajes de programación como: Java, Javascript, C#, C++, Perl mientras que R y Python han sido dos soluciones de soporte de desarrollo representativas y líderes en el ámbito de la ciencia de datos, tanto en el entorno privado como en el abierto. Sin embargo, Python en los años recientes ha incrementado su utilización, ya que se ajusta no sólo al campo de la investigación y prototipado sino también al desarrollo y producción de software, lo que lo convierte en unos de los lenguajes más versátiles para cubrir todas las fases para el desarrollo de cómputo científico, tanto de producción libre como comercial. Popularity of Programming Language (PYPL, 2021). En: http://pypl.github.io/PYPL.html
  • 3. Lenguajes de programación para la ciencia de datos Python también se compara con otros lenguajes y herramientas para análisis matemático, tanto a nivel comercial como de opciones de software libre, como lo son: R, Julia, Scala, MATLAB, SAS, Stata, Octave, MiniTab y SPSS, entre otros. éstos han dominado por mucho tiempo el mercado y la preferencia de la comunidad científica. Sin embargo Python, tiene muchas ventajas adicionales y además cuenta con una gran variedad de librerías que extienden su funcionalidad. Librerías de Python para analítica de datos • Numpy. Soporta grandes vectores y matrices usando una biblioteca de funciones matemáticas para manipularlos, implementa de forma interna otras herramientas tales como matplotlib, pandas, Scipy y sympy. • Scipy. Basado en Numpy, integra optimizaciones para el cómputo numérico, estadístico, álgebra lineal • Pandas. Es una biblioteca que contiene estructuras de alto nivel y herramientas de manipulación de datos masivos, permite indexar, recuperar, ordenar, remodelar, combinar, fragmentar y realizar diversos análisis, tanto individuales como multidimensionales de los datos (Anthony, 2015).
  • 4. Lenguajes de programación para la ciencia de datos Librerías de Python para analítica de datos … • Matplotlib. Es una biblioteca de visualización de gráficos en 2D. • Scikit-Learn. Es utilizada para minería y análisis de datos para las tareas de clasificación, análisis de regresión, predictivo, agrupamiento, reconocimiento de imágenes, selección de modelos, reducción de dimensionalidad y preprocesamiento de datos. • TensorFlow. Creada por Google para tareas de entrenamiento de redes neuronales, algoritmos de Machine Learning,Deep Learning, visión por computadora, entre otras. • Pytorch. Una de las librerías más utilizadas por investigadores y científicos de datos para acelerar tareas de modelado gráfico de optimización, aprendizaje máquina. • Pybrain. Es una librería para tareas de aprendizaje reforzado, supervisado, no supervisado, redes neuronales y evolutivas. • NLTK. Natural Language Toolkit es para modelado lingüístico, en subáreas de la inteligencia artificial, principalmente en el cómputo cognitivo. • OpenCV. Es una biblioteca creada por Intel para el reconocimiento óptico, incluye funciones para el control gráfico en 2D y 3D, robótica móvil, reconocimiento de gestos, captura de video, realidad aumentada, etc. • Keras. Biblioteca especializada en la optimización de tareas complejas con redes neuronales y proyectos de aprendizaje automático y aprendizaje profundo. Soporte de procesamiento con CPU y GPU.
  • 5. Python – Herramientas y plataformas para codificar Plataformas como Jupyter Notebook se han vuelto muy populares puesto que ofrecen en una interfaz web de un entorno de trabajo basado como si se tratara de un IDE de tipo escritorio, e integran diversas librerías tanto para el análisis de datos masivos como el modelado de servicios de inteligencia artificial y proporcionan muchas características que los desarrolladores aprecian, como: • Soporte para múltiples lenguajes de programación: Python, Julia, SCALA, R, SQL, entre otros. • Precargado de muchas librerías muy útiles, sin necesidad de instalarlas manualmente. • Autocompletado, sugerencias en parámetros y variables, etc. • Previsualización en tiempo real del estilo de texto con marcaje markdown. • Información sobre el tiempo de ejecución, dentro del propio notebook, sin requerir líneas de código para monitorear la compilación y procesos de los objetos. • Personalización y previsualización de gráficos de datos, entre muchas otras. https://jupyter.org/
  • 6. Python – Herramientas y plataformas para codificar Google Colab es una herramienta de Google que nos proporciona un entorno basado en la nube para realizar la ejecución de programas en Python para aprovechar la potencia de los GPUs (procesadores para paralelización) y TPUs (procesadores especializados para Inteligencia Artificial) de Google. Este entorno de programación está basado en cuadernos de Jupyter notebooks y tiene integración con GitHub y Drive para compartir código. Se ha popularizado su uso para la enseñanza de técnicas y aplicación de métodos para aprendizaje automático y ciencia de datos. Con esta plataforma no es necesario instalar o configurar nada en las computadoras de los usuarios, ya que solo se requiere tener un navegador web, conexión a internet y una cuenta de Gmail. http://colab.research.google.com/
  • 7. Python – ejemplo de código para leer y graficar datos De una forma fácil se puede leer un dataset y generar una gráfica de barras para explorar visualmente el contenido de sus datos. Basado en Simran Kaur (2021) Analyzing Data in Histogram in Python. Disponible en: https://linuxhint.com/analyzing-data-in-histogram-in-python/ En este ejemplo se utiliza un dataset con datos de los pasajeros del “titanic” que está en formato CSV y del cual se selecciona únicamente el atributo “Age” para analizar la distribución de edad de los mismos. Son suficientes 25 líneas de código para leer datos y personalizar el gráfico (10 son de comentarios). Únicamente se utilizan dos librerías: Pandas y Matplotlib
  • 8. EJERCICIO - Análisis de dataset de ventas con Pandas Basado en el tutorial de Keith Galli - VideoTutorial en Youtube Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4 - Repositorio en GitHub de Keith Galli Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks En este ejercicio de procesamiento de datos con Python y Pandas se realizará un análisis básico de la información de ventas empleando un dataset en CSV y las librerías Pandas y matplotLib.
  • 9. Para completar esta actividad, hay que seguir paso a paso el videotutorial, hacer los ejercicios propuestos en el video, y además habrá que agregar y resolver otras preguntas, como: • Q5: ¿Cuál es el promedio de ventas por cada mes? • Q6: ¿Cuál es el precio promedio en que se ha vendido cada artículo? • Q7: ¿Cuál es el total de piezas pedidas de cada producto? • Q8: ¿Cuál es el TOP5 de los productos más vendidos? EJERCICIO - Análisis de dataset de ventas con Pandas Basado en el tutorial de Keith Galli - VideoTutorial en Youtube Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4 - Repositorio en GitHub de Keith Galli Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks