SlideShare una empresa de Scribd logo
PROCESAMIENTO de DATOS
Uso de Python para procesamiento de Datos
• Python como lenguaje de programación para Data Science
• Herramientas para trabajar con Python (Jupyter Notebooks, Google Colab)
• Librerías para extender la funcionalidad de Python (Pandas, NumPy, Scipy, etc)
• Uso de Pandas para análisis de datos
Ciencia de Datos. Maestría en Tecnologías del Internet. Facultad de Telemática
Universidad de Colima. DTI. Román Herrera. rherrera@ucol.mx Marzo 2021
Python – Lenguaje para tareas de procesamiento
de datos y Data Science (ciencia de datos)
Una práctica común hasta nuestros días es la utilización, para la investigación y prototipado
de proyectos e ideas de desarrollo tecnológico, de lenguajes de programación como:
Java, Javascript, C#, C++, Perl
mientras que R y Python han sido dos soluciones de soporte de desarrollo representativas y
líderes en el ámbito de la ciencia de datos, tanto en el entorno privado como en el abierto.
Sin embargo, Python en los años recientes ha
incrementado su utilización, ya que se ajusta no
sólo al campo de la investigación y prototipado
sino también al desarrollo y producción de
software, lo que lo convierte en unos de los
lenguajes más versátiles para cubrir todas las
fases para el desarrollo de cómputo científico,
tanto de producción libre como comercial.
Popularity of Programming Language (PYPL, 2021). En: http://pypl.github.io/PYPL.html
Lenguajes de programación para la ciencia de datos
Python también se compara con otros lenguajes y herramientas para análisis matemático, tanto
a nivel comercial como de opciones de software libre, como lo son:
R, Julia, Scala, MATLAB, SAS, Stata, Octave, MiniTab y SPSS, entre otros.
éstos han dominado por mucho tiempo el mercado y la preferencia de la comunidad científica.
Sin embargo Python, tiene muchas ventajas adicionales y además cuenta con una gran variedad
de librerías que extienden su funcionalidad.
Librerías de Python para analítica de datos
• Numpy. Soporta grandes vectores y matrices usando una biblioteca de funciones matemáticas
para manipularlos, implementa de forma interna otras herramientas tales como matplotlib,
pandas, Scipy y sympy.
• Scipy. Basado en Numpy, integra optimizaciones para el cómputo numérico, estadístico, álgebra
lineal
• Pandas. Es una biblioteca que contiene estructuras de alto nivel y herramientas de manipulación
de datos masivos, permite indexar, recuperar, ordenar, remodelar, combinar, fragmentar y realizar
diversos análisis, tanto individuales como multidimensionales de los datos (Anthony, 2015).
Lenguajes de programación para la ciencia de datos
Librerías de Python para analítica de datos …
• Matplotlib. Es una biblioteca de visualización de gráficos en 2D.
• Scikit-Learn. Es utilizada para minería y análisis de datos para las tareas de clasificación, análisis de regresión,
predictivo, agrupamiento, reconocimiento de imágenes, selección de modelos, reducción de dimensionalidad
y preprocesamiento de datos.
• TensorFlow. Creada por Google para tareas de entrenamiento de redes neuronales, algoritmos de Machine
Learning,Deep Learning, visión por computadora, entre otras.
• Pytorch. Una de las librerías más utilizadas por investigadores y científicos de datos para acelerar tareas de
modelado gráfico de optimización, aprendizaje máquina.
• Pybrain. Es una librería para tareas de aprendizaje reforzado, supervisado, no supervisado, redes neuronales y
evolutivas.
• NLTK. Natural Language Toolkit es para modelado lingüístico, en subáreas de la inteligencia artificial,
principalmente en el cómputo cognitivo.
• OpenCV. Es una biblioteca creada por Intel para el reconocimiento óptico, incluye funciones para el control
gráfico en 2D y 3D, robótica móvil, reconocimiento de gestos, captura de video, realidad aumentada, etc.
• Keras. Biblioteca especializada en la optimización de tareas complejas con redes neuronales y proyectos de
aprendizaje automático y aprendizaje profundo. Soporte de procesamiento con CPU y GPU.
Python – Herramientas y plataformas para codificar
Plataformas como Jupyter Notebook se han vuelto muy
populares puesto que ofrecen en una interfaz web de un
entorno de trabajo basado como si se tratara de un IDE de
tipo escritorio, e integran diversas librerías tanto para el
análisis de datos masivos como el modelado de servicios de
inteligencia artificial y proporcionan muchas características
que los desarrolladores aprecian, como:
• Soporte para múltiples lenguajes de programación: Python,
Julia, SCALA, R, SQL, entre otros.
• Precargado de muchas librerías muy útiles, sin necesidad de
instalarlas manualmente.
• Autocompletado, sugerencias en parámetros y variables, etc.
• Previsualización en tiempo real del estilo de texto con marcaje
markdown.
• Información sobre el tiempo de ejecución, dentro del propio
notebook, sin requerir líneas de código para monitorear la
compilación y procesos de los objetos.
• Personalización y previsualización de gráficos de datos, entre
muchas otras.
https://jupyter.org/
Python – Herramientas y plataformas para codificar
Google Colab es una herramienta de Google que
nos proporciona un entorno basado en la nube para
realizar la ejecución de programas en Python para
aprovechar la potencia de los GPUs (procesadores
para paralelización) y TPUs (procesadores
especializados para Inteligencia Artificial) de Google.
Este entorno de programación está basado en
cuadernos de Jupyter notebooks y tiene integración
con GitHub y Drive para compartir código. Se ha
popularizado su uso para la enseñanza de técnicas y
aplicación de métodos para aprendizaje automático y
ciencia de datos.
Con esta plataforma no es necesario instalar o
configurar nada en las computadoras de los usuarios,
ya que solo se requiere tener un navegador web,
conexión a internet y una cuenta de Gmail.
http://colab.research.google.com/
Python – ejemplo de código para leer y graficar datos
De una forma fácil se puede leer un dataset y generar una gráfica de barras
para explorar visualmente el contenido de sus datos.
Basado en Simran Kaur (2021) Analyzing Data in Histogram in Python. Disponible en: https://linuxhint.com/analyzing-data-in-histogram-in-python/
En este ejemplo se utiliza
un dataset con datos de
los pasajeros del “titanic”
que está en formato CSV
y del cual se selecciona
únicamente el atributo
“Age” para analizar la
distribución de edad de
los mismos.
Son suficientes 25 líneas
de código para leer datos
y personalizar el gráfico
(10 son de comentarios).
Únicamente se utilizan
dos librerías: Pandas y
Matplotlib
EJERCICIO - Análisis de dataset de ventas con Pandas
Basado en el tutorial de Keith Galli
- VideoTutorial en Youtube
Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4
- Repositorio en GitHub de Keith Galli
Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks
En este ejercicio de procesamiento
de datos con Python y Pandas se
realizará un análisis básico de la
información de ventas empleando
un dataset en CSV y las librerías
Pandas y matplotLib.
Para completar esta actividad, hay que seguir paso a paso el videotutorial,
hacer los ejercicios propuestos en el video,
y además habrá que agregar y resolver otras preguntas, como:
• Q5: ¿Cuál es el promedio de ventas por cada mes?
• Q6: ¿Cuál es el precio promedio en que se ha vendido cada artículo?
• Q7: ¿Cuál es el total de piezas pedidas de cada producto?
• Q8: ¿Cuál es el TOP5 de los productos más vendidos?
EJERCICIO - Análisis de dataset de ventas con Pandas
Basado en el tutorial de Keith Galli
- VideoTutorial en Youtube
Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4
- Repositorio en GitHub de Keith Galli
Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks

Más contenido relacionado

La actualidad más candente

Ingenieria de software
Ingenieria de softwareIngenieria de software
Ingenieria de software
Francisco Gómez
 
Interrupciones
InterrupcionesInterrupciones
Interrupciones
YESENIA CETINA
 
Bibliotecas o libreria de c++
Bibliotecas o libreria de c++Bibliotecas o libreria de c++
Bibliotecas o libreria de c++
Idalia Tristan
 
Fundamentos de programación.pptx
Fundamentos de programación.pptxFundamentos de programación.pptx
Fundamentos de programación.pptx
WaldirOzuna2
 
Mapa conceptual de la programacion
Mapa conceptual de la programacionMapa conceptual de la programacion
Mapa conceptual de la programacion
Vale Acevedo
 
12 introduccion a las metricas
12 introduccion a las metricas12 introduccion a las metricas
12 introduccion a las metricas
UVM
 
Arquitectura de un pc ensayos
Arquitectura de un pc ensayosArquitectura de un pc ensayos
Arquitectura de un pc ensayos
Angelica Escobar
 
UNIDAD 1 INTRODUCCIÓN AL LENGUAJE ENSAMBLADOR
UNIDAD 1 INTRODUCCIÓN AL LENGUAJE ENSAMBLADORUNIDAD 1 INTRODUCCIÓN AL LENGUAJE ENSAMBLADOR
UNIDAD 1 INTRODUCCIÓN AL LENGUAJE ENSAMBLADOR
Instituto Tecnológico de Tuxtla Gutiérrez
 
Ejercicios de programacion if - switch-case
Ejercicios de programacion   if  -   switch-caseEjercicios de programacion   if  -   switch-case
Ejercicios de programacion if - switch-case
Guillermo Viaje
 
Mapa mental uml
Mapa mental umlMapa mental uml
Mapa mental uml
rigo berto
 
Metricas de Software
Metricas de SoftwareMetricas de Software
Metricas de Software
Francisco Javier Garcia
 
Fundamentos de Programación - Unidad III Control de Flujo
Fundamentos de Programación - Unidad III Control de FlujoFundamentos de Programación - Unidad III Control de Flujo
Fundamentos de Programación - Unidad III Control de Flujo
José Antonio Sandoval Acosta
 
Agentes reactivos basados en modelos
Agentes reactivos basados en modelosAgentes reactivos basados en modelos
Agentes reactivos basados en modelos
Saúl Hulse
 
Elementos basicos de un programa
Elementos basicos de un programaElementos basicos de un programa
Elementos basicos de un programa
David Tuarez
 
02 Mitos de la ingeniería de software
02 Mitos de la ingeniería de software02 Mitos de la ingeniería de software
02 Mitos de la ingeniería de software
Juan Manuel Gonzalez Calleros
 
Estilos de programación y sus lenguajes
Estilos de programación y sus lenguajesEstilos de programación y sus lenguajes
Estilos de programación y sus lenguajes
Pedro Contreras Flores
 
Organización y estructura interna del cpu
Organización y estructura interna del cpuOrganización y estructura interna del cpu
Organización y estructura interna del cpu
Isaí Beto Matz Mijes
 
Modelos de arquitecturas de computadoras
Modelos de arquitecturas de computadorasModelos de arquitecturas de computadoras
Modelos de arquitecturas de computadoras
YESENIA CETINA
 
Diseño de un Datamart
Diseño de un DatamartDiseño de un Datamart
Diseño de un Datamart
Eduardo S de Loera
 
Ciclo Vida del Software
Ciclo Vida del SoftwareCiclo Vida del Software
Ciclo Vida del Software
Wilfredo Mogollón
 

La actualidad más candente (20)

Ingenieria de software
Ingenieria de softwareIngenieria de software
Ingenieria de software
 
Interrupciones
InterrupcionesInterrupciones
Interrupciones
 
Bibliotecas o libreria de c++
Bibliotecas o libreria de c++Bibliotecas o libreria de c++
Bibliotecas o libreria de c++
 
Fundamentos de programación.pptx
Fundamentos de programación.pptxFundamentos de programación.pptx
Fundamentos de programación.pptx
 
Mapa conceptual de la programacion
Mapa conceptual de la programacionMapa conceptual de la programacion
Mapa conceptual de la programacion
 
12 introduccion a las metricas
12 introduccion a las metricas12 introduccion a las metricas
12 introduccion a las metricas
 
Arquitectura de un pc ensayos
Arquitectura de un pc ensayosArquitectura de un pc ensayos
Arquitectura de un pc ensayos
 
UNIDAD 1 INTRODUCCIÓN AL LENGUAJE ENSAMBLADOR
UNIDAD 1 INTRODUCCIÓN AL LENGUAJE ENSAMBLADORUNIDAD 1 INTRODUCCIÓN AL LENGUAJE ENSAMBLADOR
UNIDAD 1 INTRODUCCIÓN AL LENGUAJE ENSAMBLADOR
 
Ejercicios de programacion if - switch-case
Ejercicios de programacion   if  -   switch-caseEjercicios de programacion   if  -   switch-case
Ejercicios de programacion if - switch-case
 
Mapa mental uml
Mapa mental umlMapa mental uml
Mapa mental uml
 
Metricas de Software
Metricas de SoftwareMetricas de Software
Metricas de Software
 
Fundamentos de Programación - Unidad III Control de Flujo
Fundamentos de Programación - Unidad III Control de FlujoFundamentos de Programación - Unidad III Control de Flujo
Fundamentos de Programación - Unidad III Control de Flujo
 
Agentes reactivos basados en modelos
Agentes reactivos basados en modelosAgentes reactivos basados en modelos
Agentes reactivos basados en modelos
 
Elementos basicos de un programa
Elementos basicos de un programaElementos basicos de un programa
Elementos basicos de un programa
 
02 Mitos de la ingeniería de software
02 Mitos de la ingeniería de software02 Mitos de la ingeniería de software
02 Mitos de la ingeniería de software
 
Estilos de programación y sus lenguajes
Estilos de programación y sus lenguajesEstilos de programación y sus lenguajes
Estilos de programación y sus lenguajes
 
Organización y estructura interna del cpu
Organización y estructura interna del cpuOrganización y estructura interna del cpu
Organización y estructura interna del cpu
 
Modelos de arquitecturas de computadoras
Modelos de arquitecturas de computadorasModelos de arquitecturas de computadoras
Modelos de arquitecturas de computadoras
 
Diseño de un Datamart
Diseño de un DatamartDiseño de un Datamart
Diseño de un Datamart
 
Ciclo Vida del Software
Ciclo Vida del SoftwareCiclo Vida del Software
Ciclo Vida del Software
 

Similar a Python - Lenguaje de programación para Ciencia de Datos

procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...
DEMSSHILLLEONELCOUTI
 
Summer school python in spanish
Summer school python in spanishSummer school python in spanish
Summer school python in spanish
Ajay Ohri
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
BBVA API Market
 
Unidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVBUnidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVB
SistemadeEstudiosMed
 
Sesion8_Python.pptx
Sesion8_Python.pptxSesion8_Python.pptx
Sesion8_Python.pptx
WilsonAlbertoRuizVel
 
Python y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-CorrientesPython y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-Corrientes
alexis ibarra
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
Jeremi Sixto Perales
 
Clase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxClase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptx
jgs07
 
Proyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdfProyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdf
techno48
 
Tecnologías detrás de las aplicaciones
Tecnologías detrás de las aplicacionesTecnologías detrás de las aplicaciones
Tecnologías detrás de las aplicaciones
Anthony Criollo Valencia
 
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Alberto Diaz Martin
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
mateo luquez
 
Tipo de Aplicaciones
Tipo de AplicacionesTipo de Aplicaciones
Tipo de Aplicaciones
Doknos Tecnology
 
Introducción a python
Introducción a pythonIntroducción a python
Introducción a python
Lidia Montañez
 
Introduccion a-python
Introduccion a-pythonIntroduccion a-python
Introduccion a-python
Ruben Atao Rodriguez
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Socialmetrix
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
andresedogonzalez
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
andresedogonzalez
 
MLOps.pptx
MLOps.pptxMLOps.pptx
MLOps.pptx
Luis Beltran
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
Stratebi
 

Similar a Python - Lenguaje de programación para Ciencia de Datos (20)

procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...procesamiento de datos con python para resolucion de ciencia de datos, aplica...
procesamiento de datos con python para resolucion de ciencia de datos, aplica...
 
Summer school python in spanish
Summer school python in spanishSummer school python in spanish
Summer school python in spanish
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
Unidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVBUnidad V Python e ingeniería civil en obras civiles PVB
Unidad V Python e ingeniería civil en obras civiles PVB
 
Sesion8_Python.pptx
Sesion8_Python.pptxSesion8_Python.pptx
Sesion8_Python.pptx
 
Python y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-CorrientesPython y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-Corrientes
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Clase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxClase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptx
 
Proyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdfProyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdf
 
Tecnologías detrás de las aplicaciones
Tecnologías detrás de las aplicacionesTecnologías detrás de las aplicaciones
Tecnologías detrás de las aplicaciones
 
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Tipo de Aplicaciones
Tipo de AplicacionesTipo de Aplicaciones
Tipo de Aplicaciones
 
Introducción a python
Introducción a pythonIntroducción a python
Introducción a python
 
Introduccion a-python
Introduccion a-pythonIntroduccion a-python
Introduccion a-python
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
MLOps.pptx
MLOps.pptxMLOps.pptx
MLOps.pptx
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 

Más de Roman Herrera

Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021
Roman Herrera
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data Science
Roman Herrera
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
Roman Herrera
 
Docker 101 - dockers y Bases de Datos DB
Docker 101 -  dockers y Bases de Datos DBDocker 101 -  dockers y Bases de Datos DB
Docker 101 - dockers y Bases de Datos DB
Roman Herrera
 
IoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google AssistantIoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google Assistant
Roman Herrera
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
Roman Herrera
 

Más de Roman Herrera (6)

Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021
 
Herramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data ScienceHerramientas y recursos tecnológicos para el Data Science
Herramientas y recursos tecnológicos para el Data Science
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
 
Docker 101 - dockers y Bases de Datos DB
Docker 101 -  dockers y Bases de Datos DBDocker 101 -  dockers y Bases de Datos DB
Docker 101 - dockers y Bases de Datos DB
 
IoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google AssistantIoT - integración de particle photon con Alexa y Google Assistant
IoT - integración de particle photon con Alexa y Google Assistant
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
 

Último

Estadísticas y Situación Dengue Iquitos 2022
Estadísticas y Situación Dengue Iquitos 2022Estadísticas y Situación Dengue Iquitos 2022
Estadísticas y Situación Dengue Iquitos 2022
bufalo421
 
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docxU3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
ManoloCarrillo
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
silvanasotos
 
Que es una independización de inmueble o predio
Que es una independización de inmueble o predioQue es una independización de inmueble o predio
Que es una independización de inmueble o predio
laguilart
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
DivergenteDespierto
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
defola5717
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
WendyMLaura
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
MelanieYuksselleCarr
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
mvargasleveau
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
DieguinhoSalazar
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
brayansangar73
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
NereaMolina10
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 

Último (20)

Estadísticas y Situación Dengue Iquitos 2022
Estadísticas y Situación Dengue Iquitos 2022Estadísticas y Situación Dengue Iquitos 2022
Estadísticas y Situación Dengue Iquitos 2022
 
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docxU3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
 
Que es una independización de inmueble o predio
Que es una independización de inmueble o predioQue es una independización de inmueble o predio
Que es una independización de inmueble o predio
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 

Python - Lenguaje de programación para Ciencia de Datos

  • 1. PROCESAMIENTO de DATOS Uso de Python para procesamiento de Datos • Python como lenguaje de programación para Data Science • Herramientas para trabajar con Python (Jupyter Notebooks, Google Colab) • Librerías para extender la funcionalidad de Python (Pandas, NumPy, Scipy, etc) • Uso de Pandas para análisis de datos Ciencia de Datos. Maestría en Tecnologías del Internet. Facultad de Telemática Universidad de Colima. DTI. Román Herrera. rherrera@ucol.mx Marzo 2021
  • 2. Python – Lenguaje para tareas de procesamiento de datos y Data Science (ciencia de datos) Una práctica común hasta nuestros días es la utilización, para la investigación y prototipado de proyectos e ideas de desarrollo tecnológico, de lenguajes de programación como: Java, Javascript, C#, C++, Perl mientras que R y Python han sido dos soluciones de soporte de desarrollo representativas y líderes en el ámbito de la ciencia de datos, tanto en el entorno privado como en el abierto. Sin embargo, Python en los años recientes ha incrementado su utilización, ya que se ajusta no sólo al campo de la investigación y prototipado sino también al desarrollo y producción de software, lo que lo convierte en unos de los lenguajes más versátiles para cubrir todas las fases para el desarrollo de cómputo científico, tanto de producción libre como comercial. Popularity of Programming Language (PYPL, 2021). En: http://pypl.github.io/PYPL.html
  • 3. Lenguajes de programación para la ciencia de datos Python también se compara con otros lenguajes y herramientas para análisis matemático, tanto a nivel comercial como de opciones de software libre, como lo son: R, Julia, Scala, MATLAB, SAS, Stata, Octave, MiniTab y SPSS, entre otros. éstos han dominado por mucho tiempo el mercado y la preferencia de la comunidad científica. Sin embargo Python, tiene muchas ventajas adicionales y además cuenta con una gran variedad de librerías que extienden su funcionalidad. Librerías de Python para analítica de datos • Numpy. Soporta grandes vectores y matrices usando una biblioteca de funciones matemáticas para manipularlos, implementa de forma interna otras herramientas tales como matplotlib, pandas, Scipy y sympy. • Scipy. Basado en Numpy, integra optimizaciones para el cómputo numérico, estadístico, álgebra lineal • Pandas. Es una biblioteca que contiene estructuras de alto nivel y herramientas de manipulación de datos masivos, permite indexar, recuperar, ordenar, remodelar, combinar, fragmentar y realizar diversos análisis, tanto individuales como multidimensionales de los datos (Anthony, 2015).
  • 4. Lenguajes de programación para la ciencia de datos Librerías de Python para analítica de datos … • Matplotlib. Es una biblioteca de visualización de gráficos en 2D. • Scikit-Learn. Es utilizada para minería y análisis de datos para las tareas de clasificación, análisis de regresión, predictivo, agrupamiento, reconocimiento de imágenes, selección de modelos, reducción de dimensionalidad y preprocesamiento de datos. • TensorFlow. Creada por Google para tareas de entrenamiento de redes neuronales, algoritmos de Machine Learning,Deep Learning, visión por computadora, entre otras. • Pytorch. Una de las librerías más utilizadas por investigadores y científicos de datos para acelerar tareas de modelado gráfico de optimización, aprendizaje máquina. • Pybrain. Es una librería para tareas de aprendizaje reforzado, supervisado, no supervisado, redes neuronales y evolutivas. • NLTK. Natural Language Toolkit es para modelado lingüístico, en subáreas de la inteligencia artificial, principalmente en el cómputo cognitivo. • OpenCV. Es una biblioteca creada por Intel para el reconocimiento óptico, incluye funciones para el control gráfico en 2D y 3D, robótica móvil, reconocimiento de gestos, captura de video, realidad aumentada, etc. • Keras. Biblioteca especializada en la optimización de tareas complejas con redes neuronales y proyectos de aprendizaje automático y aprendizaje profundo. Soporte de procesamiento con CPU y GPU.
  • 5. Python – Herramientas y plataformas para codificar Plataformas como Jupyter Notebook se han vuelto muy populares puesto que ofrecen en una interfaz web de un entorno de trabajo basado como si se tratara de un IDE de tipo escritorio, e integran diversas librerías tanto para el análisis de datos masivos como el modelado de servicios de inteligencia artificial y proporcionan muchas características que los desarrolladores aprecian, como: • Soporte para múltiples lenguajes de programación: Python, Julia, SCALA, R, SQL, entre otros. • Precargado de muchas librerías muy útiles, sin necesidad de instalarlas manualmente. • Autocompletado, sugerencias en parámetros y variables, etc. • Previsualización en tiempo real del estilo de texto con marcaje markdown. • Información sobre el tiempo de ejecución, dentro del propio notebook, sin requerir líneas de código para monitorear la compilación y procesos de los objetos. • Personalización y previsualización de gráficos de datos, entre muchas otras. https://jupyter.org/
  • 6. Python – Herramientas y plataformas para codificar Google Colab es una herramienta de Google que nos proporciona un entorno basado en la nube para realizar la ejecución de programas en Python para aprovechar la potencia de los GPUs (procesadores para paralelización) y TPUs (procesadores especializados para Inteligencia Artificial) de Google. Este entorno de programación está basado en cuadernos de Jupyter notebooks y tiene integración con GitHub y Drive para compartir código. Se ha popularizado su uso para la enseñanza de técnicas y aplicación de métodos para aprendizaje automático y ciencia de datos. Con esta plataforma no es necesario instalar o configurar nada en las computadoras de los usuarios, ya que solo se requiere tener un navegador web, conexión a internet y una cuenta de Gmail. http://colab.research.google.com/
  • 7. Python – ejemplo de código para leer y graficar datos De una forma fácil se puede leer un dataset y generar una gráfica de barras para explorar visualmente el contenido de sus datos. Basado en Simran Kaur (2021) Analyzing Data in Histogram in Python. Disponible en: https://linuxhint.com/analyzing-data-in-histogram-in-python/ En este ejemplo se utiliza un dataset con datos de los pasajeros del “titanic” que está en formato CSV y del cual se selecciona únicamente el atributo “Age” para analizar la distribución de edad de los mismos. Son suficientes 25 líneas de código para leer datos y personalizar el gráfico (10 son de comentarios). Únicamente se utilizan dos librerías: Pandas y Matplotlib
  • 8. EJERCICIO - Análisis de dataset de ventas con Pandas Basado en el tutorial de Keith Galli - VideoTutorial en Youtube Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4 - Repositorio en GitHub de Keith Galli Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks En este ejercicio de procesamiento de datos con Python y Pandas se realizará un análisis básico de la información de ventas empleando un dataset en CSV y las librerías Pandas y matplotLib.
  • 9. Para completar esta actividad, hay que seguir paso a paso el videotutorial, hacer los ejercicios propuestos en el video, y además habrá que agregar y resolver otras preguntas, como: • Q5: ¿Cuál es el promedio de ventas por cada mes? • Q6: ¿Cuál es el precio promedio en que se ha vendido cada artículo? • Q7: ¿Cuál es el total de piezas pedidas de cada producto? • Q8: ¿Cuál es el TOP5 de los productos más vendidos? EJERCICIO - Análisis de dataset de ventas con Pandas Basado en el tutorial de Keith Galli - VideoTutorial en Youtube Solving real world data science tasks with Python Pandas! https://www.youtube.com/watch?v=eMOA1pPVUc4 - Repositorio en GitHub de Keith Galli Pandas-Data-Science-Tasks (incluye el dataset en CSV) https://github.com/KeithGalli/Pandas-Data-Science-Tasks