Este documento presenta una introducción a ciencia de datos con Python. Explica el uso de librerías como NumPy, Pandas, Matplotlib y Scikit-learn. Cubre temas como manejo de archivos y datos, dataframes, limpieza de datos, visualización de datos, y modelos predictivos como regresión lineal, árboles de decisión y clustering k-means. Incluye enlaces a notebooks de Jupyter para ejemplos prácticos sobre estos temas.
6. Manejo de archivos
Y DATASETS
POSIBILIDADES DE LEER Y ESCRIBIR EN DIFERENTES FORMATOS
csv = pd.read_csv( 'examples/ex1.csv' ) xlsx = pd.read_excel( 'examples/ex1.xlsx' )
Text Files, separados por coma Excel
HDFS API´s Otros
11. Dataframes
EN PANDAS
Ingresar a: http://jupyter.org/try
Seguir las pruebas de:
http://pandas.pydata.org/pandas-docs/stable/10min.html
12. Plotting
Durante el proceso de análisis y exploración, se necesita visualizar el estado del dataset,
para reconocer patrones, outliars detection, etc. matplotlib es la librería utilizada.
14. Plotting
import matplotlib.pyplot as plt
import numpy as np
plt.scatter(
np.random.randn(100).cumsum(),
np.random.randn(100).cumsum(), color='black')
15. Predictive Models
DECISION TREE
La idea de un árbol de decisiones es dividir el
conjunto de datos en conjuntos de datos más
pequeños basados en las características
descriptivas hasta llegar a un conjunto lo
suficientemente pequeño que contenga puntos
de datos que se encuentran bajo una etiqueta.
SCIKIT-LEARN (MACHINE LEARNING IN PYTHON)
Libreria simple y eficiente para data mining y
analysis, construida sobre NumPy, SciPy y
matplotlib.
Soporte para Clasification, Regression, Clustering,
Dimensionality Reduction, Model Selection y
Preprocessing
LINEAR REGRESSION
La regresión lineal es un modelo lineal, p. un
modelo que asume una relación lineal entre las
variables de entrada (x) y la variable de salida
única (y). Más específicamente, que y se puede
calcular a partir de una combinación lineal de las
variables de entrada (x).
16. Decision tree
Ingresar a: http://jupyter.org/try
Seguir las pruebas de:
https://drive.google.com/file/d/1MDfMZxsx06-WZwtOwFlk
mbYQXqrNOZI2/view?usp=sharing DATABASE
https://drive.google.com/file/d/18gUwyZyQ-5LBEM66SDP
Rpb7Sokwp9574/view?usp=sharing NOTEBOOK
MANOS A LA OBRA
17. Clustering K-Means
Ingresar a: http://jupyter.org/try
MANOS A LA OBRA
Seguir las pruebas de:
https://mubaris.com/2017/10/01/kmeans-clustering-in
-python/
18. Regresion Lineal
Ingresar a: http://jupyter.org/try
MANOS A LA OBRA
Seguir las pruebas de:
http://scikit-learn.org/stable/auto_examples/linear_mo
del/plot_ols.html#sphx-glr-auto-examples-linear-model
-plot-ols-py