SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
Machine learning y data
science en python con
scikit-learn y pyspark
José Manuel Ortega
Machine learning y data science con scikit-learn y pyspark
https://www.udemy.com/machine-learning-y-data-science-con-scikit-learn-y-pyspark
Aprende las principales técnicas de machine learning y
ciencia de datos para aplicarlas en proyectos con python
Introducción a la ciencia de datos y machine learning
● Definición de ciencia de datos
● Definición de machine learning
● Introducción al aprendizaje automático
● Tipos de aprendizaje automático
● Aprendizaje supervisado vs no supervisado
● Problema del sobreentrenamiento
● Pasos para construir un modelo de machine learning
Librerías para tratamiento de datos con python
● Librerías de Python para machine learning:Numpy, SciPy,
Pandas
● Instalación anaconda + jupyter notebook
● Conjunto de datasets
● Introducción a pandas
● Librerías de visualización de datos con python
● Ejemplos prácticos tratamiento de datos con pandas
● Ejemplos prácticos visualización de datos
● Otras librerías de machine learning con python
Scikit-learn como librería de machine learning
● Introducción a scikit-learn
● Instalación y módulos
● LinearRegression como algoritmo de regresión lineal
● LogisticRegression como algoritmo de regresión logística
● DecissionTreeClassifier y RandomForestClassifier como
algoritmos de árboles de decisión
● SVM como algoritmo de máquinas de vectores de soporte
Scikit-learn como librería de machine learning
● Implementación del algoritmo SVM en scikit-learn
● KNeighborsClassifier como algoritmo de clasificación
supervisada vecinos más cercanos
● Implementación de KNeighborsClassifier en scikit-learn
● Clustering y aprendizaje no supervisado
● K-means como algoritmo de clustering
● Implementación de K-means en scikit-learn
● Ejemplo con Iris / Titanic Dataset
Pyspark como librería de big data y data science
● Introducción a Apache Spark
● Módulos de Apache Spark
● Spark para Científicos de Datos
● Instalación de Apache Spark
● Instalar y ejecutar Pyspark con docker
● Introducción a Pyspark
● Consola interactiva en pyspark
● SparkContext y esqueleto de una aplicación con pyspark
Pyspark como librería de big data y data science
● Datasets y RDD con pyspark
● Crear un RDD en python con pyspark
● Operaciones sobre un RDD
● Transformaciones sobre un RDD
● SparkSubmit para la ejecución de scripts python
● Map-reduce con pyspark
● Contador de palabras con pyspark
● Palabras más frecuentes de un texto con pyspark
● Lectura ficheros csv,json con pyspark
Pyspark como librería de big data y data science
● Trabajando con Spark SQL y dataframes
● MLlib como módulo de machine learning con pyspark
● Clustering con pyspark.Algoritmo Kmeans
● Ejemplo clasificación Spam con mLlib
Sistemas de recomendación basados en contenido
● Definir sistema de recomendación
● Tipos de sistemas de recomendación
● Filtros basados en contenido (Content-Based Filtering)
● Filtros colaborativos (Collaborative Filtering)

Más contenido relacionado

Similar a Machine learning y data science con scikit learn y pyspark

Big data una cuantificación importante..
Big data una cuantificación importante..Big data una cuantificación importante..
Big data una cuantificación importante..
wmichaelw
 
Evidencia Sesión 5: Python
Evidencia Sesión 5: PythonEvidencia Sesión 5: Python
Evidencia Sesión 5: Python
maluacsa
 
Clase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxClase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptx
jgs07
 
Curso cei 348 base de datos sql nivel avanzado
Curso cei 348   base de datos sql nivel avanzadoCurso cei 348   base de datos sql nivel avanzado
Curso cei 348 base de datos sql nivel avanzado
Procasecapacita
 

Similar a Machine learning y data science con scikit learn y pyspark (20)

U PLAN Ciencia de datos e inteligencia (8).pdf
U PLAN Ciencia de datos e inteligencia  (8).pdfU PLAN Ciencia de datos e inteligencia  (8).pdf
U PLAN Ciencia de datos e inteligencia (8).pdf
 
Big data: a data sicentist view
Big data: a data sicentist viewBig data: a data sicentist view
Big data: a data sicentist view
 
Big data una cuantificación importante..
Big data una cuantificación importante..Big data una cuantificación importante..
Big data una cuantificación importante..
 
Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdf
 
Apache Spark y Big Data
Apache Spark y Big DataApache Spark y Big Data
Apache Spark y Big Data
 
Evolucion de big data @ mercadolibre.com
Evolucion de big data @ mercadolibre.comEvolucion de big data @ mercadolibre.com
Evolucion de big data @ mercadolibre.com
 
Evidencia Sesión 5: Python
Evidencia Sesión 5: PythonEvidencia Sesión 5: Python
Evidencia Sesión 5: Python
 
Clase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptxClase 2 - Introducción a la programación con Python I.pptx
Clase 2 - Introducción a la programación con Python I.pptx
 
Python y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-CorrientesPython y la POO, en una clase, UNNe-Corrientes
Python y la POO, en una clase, UNNe-Corrientes
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricks
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Charla "GeoPython" Grupo Python Córdoba
Charla "GeoPython" Grupo Python CórdobaCharla "GeoPython" Grupo Python Córdoba
Charla "GeoPython" Grupo Python Córdoba
 
Sesion8_Python.pptx
Sesion8_Python.pptxSesion8_Python.pptx
Sesion8_Python.pptx
 
Curso cei 348 base de datos sql nivel avanzado
Curso cei 348   base de datos sql nivel avanzadoCurso cei 348   base de datos sql nivel avanzado
Curso cei 348 base de datos sql nivel avanzado
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Scala@real life
Scala@real lifeScala@real life
Scala@real life
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén Casado
 
Scala @ Real life
Scala @ Real lifeScala @ Real life
Scala @ Real life
 

Más de Jose Manuel Ortega Candel

Evolution of security strategies in K8s environments- All day devops
Evolution of security strategies in K8s environments- All day devops Evolution of security strategies in K8s environments- All day devops
Evolution of security strategies in K8s environments- All day devops
Jose Manuel Ortega Candel
 

Más de Jose Manuel Ortega Candel (20)

Asegurando tus APIs Explorando el OWASP Top 10 de Seguridad en APIs.pdf
Asegurando tus APIs Explorando el OWASP Top 10 de Seguridad en APIs.pdfAsegurando tus APIs Explorando el OWASP Top 10 de Seguridad en APIs.pdf
Asegurando tus APIs Explorando el OWASP Top 10 de Seguridad en APIs.pdf
 
PyGoat Analizando la seguridad en aplicaciones Django.pdf
PyGoat Analizando la seguridad en aplicaciones Django.pdfPyGoat Analizando la seguridad en aplicaciones Django.pdf
PyGoat Analizando la seguridad en aplicaciones Django.pdf
 
Ciberseguridad en Blockchain y Smart Contracts: Explorando los Desafíos y Sol...
Ciberseguridad en Blockchain y Smart Contracts: Explorando los Desafíos y Sol...Ciberseguridad en Blockchain y Smart Contracts: Explorando los Desafíos y Sol...
Ciberseguridad en Blockchain y Smart Contracts: Explorando los Desafíos y Sol...
 
Evolution of security strategies in K8s environments- All day devops
Evolution of security strategies in K8s environments- All day devops Evolution of security strategies in K8s environments- All day devops
Evolution of security strategies in K8s environments- All day devops
 
Evolution of security strategies in K8s environments.pdf
Evolution of security strategies in K8s environments.pdfEvolution of security strategies in K8s environments.pdf
Evolution of security strategies in K8s environments.pdf
 
Implementing Observability for Kubernetes.pdf
Implementing Observability for Kubernetes.pdfImplementing Observability for Kubernetes.pdf
Implementing Observability for Kubernetes.pdf
 
Computación distribuida usando Python
Computación distribuida usando PythonComputación distribuida usando Python
Computación distribuida usando Python
 
Seguridad en arquitecturas serverless y entornos cloud
Seguridad en arquitecturas serverless y entornos cloudSeguridad en arquitecturas serverless y entornos cloud
Seguridad en arquitecturas serverless y entornos cloud
 
Construyendo arquitecturas zero trust sobre entornos cloud
Construyendo arquitecturas zero trust sobre entornos cloud Construyendo arquitecturas zero trust sobre entornos cloud
Construyendo arquitecturas zero trust sobre entornos cloud
 
Tips and tricks for data science projects with Python
Tips and tricks for data science projects with Python Tips and tricks for data science projects with Python
Tips and tricks for data science projects with Python
 
Sharing secret keys in Docker containers and K8s
Sharing secret keys in Docker containers and K8sSharing secret keys in Docker containers and K8s
Sharing secret keys in Docker containers and K8s
 
Implementing cert-manager in K8s
Implementing cert-manager in K8sImplementing cert-manager in K8s
Implementing cert-manager in K8s
 
Python para equipos de ciberseguridad(pycones)
Python para equipos de ciberseguridad(pycones)Python para equipos de ciberseguridad(pycones)
Python para equipos de ciberseguridad(pycones)
 
Python para equipos de ciberseguridad
Python para equipos de ciberseguridad Python para equipos de ciberseguridad
Python para equipos de ciberseguridad
 
Shodan Tips and tricks. Automatiza y maximiza las búsquedas shodan
Shodan Tips and tricks. Automatiza y maximiza las búsquedas shodanShodan Tips and tricks. Automatiza y maximiza las búsquedas shodan
Shodan Tips and tricks. Automatiza y maximiza las búsquedas shodan
 
ELK para analistas de seguridad y equipos Blue Team
ELK para analistas de seguridad y equipos Blue TeamELK para analistas de seguridad y equipos Blue Team
ELK para analistas de seguridad y equipos Blue Team
 
Monitoring and managing Containers using Open Source tools
Monitoring and managing Containers using Open Source toolsMonitoring and managing Containers using Open Source tools
Monitoring and managing Containers using Open Source tools
 
Python Memory Management 101(Europython)
Python Memory Management 101(Europython)Python Memory Management 101(Europython)
Python Memory Management 101(Europython)
 
SecDevOps containers
SecDevOps containersSecDevOps containers
SecDevOps containers
 
Python memory managment. Deeping in Garbage collector
Python memory managment. Deeping in Garbage collectorPython memory managment. Deeping in Garbage collector
Python memory managment. Deeping in Garbage collector
 

Último

Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
OBSERVATORIOREGIONAL
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
klebersky23
 

Último (20)

Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdf
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdfSEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
 

Machine learning y data science con scikit learn y pyspark

  • 1. Machine learning y data science en python con scikit-learn y pyspark José Manuel Ortega
  • 2. Machine learning y data science con scikit-learn y pyspark https://www.udemy.com/machine-learning-y-data-science-con-scikit-learn-y-pyspark Aprende las principales técnicas de machine learning y ciencia de datos para aplicarlas en proyectos con python
  • 3.
  • 4.
  • 5.
  • 6.
  • 7. Introducción a la ciencia de datos y machine learning ● Definición de ciencia de datos ● Definición de machine learning ● Introducción al aprendizaje automático ● Tipos de aprendizaje automático ● Aprendizaje supervisado vs no supervisado ● Problema del sobreentrenamiento ● Pasos para construir un modelo de machine learning
  • 8.
  • 9. Librerías para tratamiento de datos con python ● Librerías de Python para machine learning:Numpy, SciPy, Pandas ● Instalación anaconda + jupyter notebook ● Conjunto de datasets ● Introducción a pandas ● Librerías de visualización de datos con python ● Ejemplos prácticos tratamiento de datos con pandas ● Ejemplos prácticos visualización de datos ● Otras librerías de machine learning con python
  • 10.
  • 11. Scikit-learn como librería de machine learning ● Introducción a scikit-learn ● Instalación y módulos ● LinearRegression como algoritmo de regresión lineal ● LogisticRegression como algoritmo de regresión logística ● DecissionTreeClassifier y RandomForestClassifier como algoritmos de árboles de decisión ● SVM como algoritmo de máquinas de vectores de soporte
  • 12. Scikit-learn como librería de machine learning ● Implementación del algoritmo SVM en scikit-learn ● KNeighborsClassifier como algoritmo de clasificación supervisada vecinos más cercanos ● Implementación de KNeighborsClassifier en scikit-learn ● Clustering y aprendizaje no supervisado ● K-means como algoritmo de clustering ● Implementación de K-means en scikit-learn ● Ejemplo con Iris / Titanic Dataset
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18. Pyspark como librería de big data y data science ● Introducción a Apache Spark ● Módulos de Apache Spark ● Spark para Científicos de Datos ● Instalación de Apache Spark ● Instalar y ejecutar Pyspark con docker ● Introducción a Pyspark ● Consola interactiva en pyspark ● SparkContext y esqueleto de una aplicación con pyspark
  • 19. Pyspark como librería de big data y data science ● Datasets y RDD con pyspark ● Crear un RDD en python con pyspark ● Operaciones sobre un RDD ● Transformaciones sobre un RDD ● SparkSubmit para la ejecución de scripts python ● Map-reduce con pyspark ● Contador de palabras con pyspark ● Palabras más frecuentes de un texto con pyspark ● Lectura ficheros csv,json con pyspark
  • 20. Pyspark como librería de big data y data science ● Trabajando con Spark SQL y dataframes ● MLlib como módulo de machine learning con pyspark ● Clustering con pyspark.Algoritmo Kmeans ● Ejemplo clasificación Spam con mLlib
  • 21.
  • 22.
  • 23.
  • 24. Sistemas de recomendación basados en contenido ● Definir sistema de recomendación ● Tipos de sistemas de recomendación ● Filtros basados en contenido (Content-Based Filtering) ● Filtros colaborativos (Collaborative Filtering)