Trabajo ciencia de datos camilo sanhueza

Trabajo Ciencia de Datos – Herramientas para el análisis de Big Data
Comohemos aprendidoenloscursosde Cienciade Datos, hoy endiael volumende datosque se
manejaenla webyen lasorganizacionesesgigantesco,loque haforzadoa lasempresas ainvertiren
softwaresynuevosprofesionales,capacesde manejaresosdatosysacar insightssignificativospara
mejorarel procesode toma de decisiones.Nosólohayque enfocarse enlomeramente técnico,sino
tambienenlosprocesosparaun buenanálisisde datos.Estocomprende ,donde alojarlosdatos,
herramientasde análisis,lenguajesde programación,softwaresde visualizaciónde datos,etc.
Para realizarcada unode esosprocesosde maneraeficiente ,hemosaprendidosobre muchísimas
opcionesenel presente curso.
El presente trabajo,tiene laaspiraciónde escogerde maneracorrecta, lasmejoresherramientaspara
llevaracabo el mejortrabajo posible enla Librería Iztaccihuatl .
Bases de datos disponibles
El archivo “books” contiene los siguientes datos:
 Id - Identificador del registro
 Book Id - Identificador del libro
 Number Editions - Número de ediciones
 ISBN - Clave estándar internacional del libro
 ISBN13 - Clave estándar extendida internacional del libro
 Authors - Autor del libro
 Original Publication - Fecha de publicación
 Original Title - Título original del libro
 Title - Título del libro
 Language Code - Clave de idioma del libro
 Average Rating - Promedio de la clasificación del libro
 Image - Enlace a la imagen de la portada del libro
 Small Image - Enlace a la imagen en versión optimizada de la portada del libro.

El archivo “top_books” contiene los siguientes datos:
 Position - Posición del libro en la clasificación del libro
 ISBN - Clave estándar extendida internacional del libro
 Title - Título del libro
 Author - Autor del libro
 Imprint - Editorial
 Publisher Group - Grupo Editorial
 Volume - Volumen de ventas hasta el 2010
 Value - Ventas determinadas por el volumen
 RRP - Precio recomendado para minoristas
 ASP - Precio promedio para venta
 Binding - Tipo de encuadernación
 Publ Date - Fecha de publicación
 Product Class - Clasificación del libro
 Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
 User Id - Identificador del cliente/usuario que clasifico un libro
 Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
 User Id - Identificador del cliente/usuario que clasifico un libro

El trabajo consiste en responder las siguientes preguntas
 ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos
de la Librería Iztaccihuatl?
 ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
 ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar
un análisis predictivo?
 ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
 ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
Respuestas
¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos
de la Librería Iztaccihuatl?
Comovimosenel curso , tenemosdosgrandeslenguajesde programaciónque estanenboga
actualmente ,R y Phyton. Ambostienenventajasydesventajas.Parael nivel de datosque tiene librería
, creo que con Phytonpodría ser suficiente,para realizarlosanálisisbásicoscomercialesque unorealiza
enuna compañía. Si bien,tambiense podría utilizarR, creo que este lenguaje esmuyestadísticoy
técnico, utilizadomásparaáreas de la cienciae investigación. Eneste caso, essolopara realizaranálisis
comercialesbásicos,porlo que R podría sermuy complejoparalostrabajadoresde lalibrería.En
cambio,Phytonesmás amplioypopular, por loque para el común de lostrabajadoresde lacompañía
sería fácil aprenderloyusarloenel diaa dia.
¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
En términosde predicciones,generalmentelasempresasusanlosdatoshistóricosparapronosticarlas
siguientesvariables;
 Por ejemplo,pormediode unaregresiónlineal ,podrianobtenerlapredicciónde ventadel
próximoaño,incluyendoestacionalidades.
 Regresiónlineal paraobtenerlapredicciónde ventaporunidadesde cadaunode lossku´sde la
librería, incluyendoestacionalidades.

 Clasificación de clientes,pormediode análisisclúster,conel finde identificarsegmentos
rentablesparalalibrería.
¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un
análisis predictivo?
Importante pararealizaruna buenaestimaciónestenerlaventaendetalle separadaportransacciones,
esdecir;
 Numerofacturade latransacción
 Id productode la factura
 Cantidades
 Fechade latransacción
¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
Para nivel de basesde datosque manejaríala librería,creo que sonun Sistemade SQL funcionaria
bastante bienlacarga y modificaciónde datos.SQLfuncionabastante bienenempresaspequeñas,con
basesde datos relacionales. Tomandoencuentaque ala base de ventahay que transformarlaa
transaccional para poderrealizarunaestimaciónde ventafutura
¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
Tal y como hemosvistoenclases,el serviciode GITHUB esperfectoparair guardandoversionesde
trabajosde manera colaborativa.Creoque seriael servicioperfectoparallevaracabo el proyecto.

Trabajo ciencia de datos camilo sanhueza

Recomendados

Recomendados

Más contenido relacionado

Similar a Trabajo ciencia de datos camilo sanhueza

Similar a Trabajo ciencia de datos camilo sanhueza (20)

Último

Último (20)

Trabajo ciencia de datos camilo sanhueza