TECNOLOGÍA DE LA INFORMACIÓN SLIDESHARE INVESTIGACION.pdf
Sesión 1.pdf
1.
2. Python para Data Science
Dra. Soledad Espezúa. Ll.
sespezua@pucp.edu.pe
Dr. Edwin Villanueva T.
evillatal@pucp.edu.pe
Ing. Daniel Saromo M.
daniel.saromo@pucp.pe
Sesión 1
3. Agenda
❑ Introducción a Data Science (DS)
• Definición de DS
• Diferencias entre ML, IA y DS
• Tareas en DS
• Metodología de DS
• Mercado laboral
❑ Python
❑ Ecosistema de herramientas en Python
3
4. 4
Definición de Data Science
Programming skills Math & Statistic Knowledge
• La ciencia de datos es el campo de estudio que combina la experiencia en un dominio, las habilidades de programación y el
conocimiento de matemáticas y estadísticas para extraer información significativa de los datos. Los profesionales de la ciencia
de datos aplican algoritmos de aprendizaje automático a números, texto, imágenes, video, audio y más para producir sistemas
de inteligencia artificial (IA) que realizan tareas que normalmente requieren inteligencia humana. A su vez, estos sistemas
generan información que los analistas y los usuarios comerciales traducen en valor comercial tangible.
• La ciencia de datos es una colección de técnicas que se utilizan para extraer valor de los datos. Se ha convertido en una
herramienta esencial para cualquier organización que recopile, almacene y procese datos como parte de sus operaciones.
Las técnicas de ciencia de datos buscan encontrar patrones, conexiones y relaciones útiles dentro de los datos.
6. Tareas en Data Science
6
Descripción &
exploración
• Visualización
Asociación de patrones
• Sist. generadores de
reglas
• Sis. de recomendación
Agrupamiento
•Clustering
Minimizar las distancias dentro de los grupos
Maximizar las distancias entre los grupos
7. Tareas en Data Science
7
Clasificación
•V. Categórica
Regresión o
Estimación
•V. Numérico
Pronóstico temporal
• V. Temporal
?
Variable
2
Variable 1
Función aproximada
Time series
Función aproximada
Forecasting
8. Metodología en Data Science
8
1) Fase de comprensión
del problema
2) Fase preparación
de los datos
7) Fase de implementación 3) Fase de análisis
exploratorio
6) Fase de evaluación
5) Fase de Modelado
4) Fase de configuración
9. 9
Mercado Laboral
(Hal Varian, chief economist at Google and UC Berkeley professor)
Yahoo, Facebook, Google, Amazon, Microsoft, Walmart, eBay,
LinkedIn y Twitter, trabajan continuamente perfeccionado kit
de herramientas de desarrollo en DataScience
Data Science
Financial asessor
https://insights.stackoverflow.com/survey/2021
10. 10
Python
• Python es un lenguaje de programación de alto nivel, interpretado,
orientado a objetos.
• De código abierto, para que cualquiera pueda contribuir a su
desarrollo.
• Es fácil de aprender
• Es fácil de usar para escribir software nuevo.
• Es fácil de obtener, instalar e implementar.
• Es un lenguaje flexible, que puede verse como un lenguaje
multiparadigma.
✓ Útil para las personas que ya saben programar en otros lenguajes
• Es un lenguaje de programación maduro
✓ También tiene excelentes propiedades para programadores novatos (ideal para
personas nunca han programado).
• Amplia disponibilidad de librerías para DS.
Aunque su nombre se asocie con la gran serpiente pitón,
el creador de Python(Guido Van Rossum , 1991) nombró
el lenguaje en honor de una vieja serie de comedia de la
BBC llamada Monty Python's Flying Circus.
11. ¿Por qué usar Python?
11
https://insights.stackoverflow.com/trends?tags=java%2Cpython%2Cjavascript%2Cr
Crecimiento de los lenguajes mas populares
12. 12
¿Por qué usar Python?
Comparación de los lenguajes más populares
https://trends.google.es/trends/explore?date=today%205-y&q=%2Fm%2F05z1_,%2Fm%2F07sbkfb,%2Fm%2F0212jm,%2Fm%2F053_x,%2Fm%2F0jgqg
https://storage.googleapis.com/kaggle-media/surveys/Kaggle's%20State%20of%20Machine%20Learning%20and%20Data%20Science%202021.pdf