Nivel-de-Endeudamiento.financiero para las empresas
Trabajo ciencia de datos camilo sanhueza
1. Trabajo Ciencia de Datos – Herramientas para el análisis de Big Data
Comohemos aprendidoenloscursosde Cienciade Datos, hoy endiael volumende datosque se
manejaenla webyen lasorganizacionesesgigantesco,loque haforzadoa lasempresas ainvertiren
softwaresynuevosprofesionales,capacesde manejaresosdatosysacar insightssignificativospara
mejorarel procesode toma de decisiones.Nosólohayque enfocarse enlomeramente técnico,sino
tambienenlosprocesosparaun buenanálisisde datos.Estocomprende ,donde alojarlosdatos,
herramientasde análisis,lenguajesde programación,softwaresde visualizaciónde datos,etc.
Para realizarcada unode esosprocesosde maneraeficiente ,hemosaprendidosobre muchísimas
opcionesenel presente curso.
El presente trabajo,tiene laaspiraciónde escogerde maneracorrecta, lasmejoresherramientaspara
llevaracabo el mejortrabajo posible enla Librería Iztaccihuatl .
Bases de datos disponibles
El archivo “books” contiene los siguientes datos:
Id - Identificador del registro
Book Id - Identificador del libro
Number Editions - Número de ediciones
ISBN - Clave estándar internacional del libro
ISBN13 - Clave estándar extendida internacional del libro
Authors - Autor del libro
Original Publication - Fecha de publicación
Original Title - Título original del libro
Title - Título del libro
Language Code - Clave de idioma del libro
Average Rating - Promedio de la clasificación del libro
Image - Enlace a la imagen de la portada del libro
Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
2. El archivo “top_books” contiene los siguientes datos:
Position - Posición del libro en la clasificación del libro
ISBN - Clave estándar extendida internacional del libro
Title - Título del libro
Author - Autor del libro
Imprint - Editorial
Publisher Group - Grupo Editorial
Volume - Volumen de ventas hasta el 2010
Value - Ventas determinadas por el volumen
RRP - Precio recomendado para minoristas
ASP - Precio promedio para venta
Binding - Tipo de encuadernación
Publ Date - Fecha de publicación
Product Class - Clasificación del libro
Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
Book Id - Identificador del libro
User Id - Identificador del cliente/usuario que clasifico un libro
Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
User Id - Identificador del cliente/usuario que clasifico un libro
Book Id - Identificador del libro
3. El trabajo consiste en responder las siguientes preguntas
¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos
de la Librería Iztaccihuatl?
¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar
un análisis predictivo?
¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
Respuestas
¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos
de la Librería Iztaccihuatl?
Comovimosenel curso , tenemosdosgrandeslenguajesde programaciónque estanenboga
actualmente ,R y Phyton. Ambostienenventajasydesventajas.Parael nivel de datosque tiene librería
, creo que con Phytonpodría ser suficiente,para realizarlosanálisisbásicoscomercialesque unorealiza
enuna compañía. Si bien,tambiense podría utilizarR, creo que este lenguaje esmuyestadísticoy
técnico, utilizadomásparaáreas de la cienciae investigación. Eneste caso, essolopara realizaranálisis
comercialesbásicos,porlo que R podría sermuy complejoparalostrabajadoresde lalibrería.En
cambio,Phytonesmás amplioypopular, por loque para el común de lostrabajadoresde lacompañía
sería fácil aprenderloyusarloenel diaa dia.
¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
En términosde predicciones,generalmentelasempresasusanlosdatoshistóricosparapronosticarlas
siguientesvariables;
Por ejemplo,pormediode unaregresiónlineal ,podrianobtenerlapredicciónde ventadel
próximoaño,incluyendoestacionalidades.
Regresiónlineal paraobtenerlapredicciónde ventaporunidadesde cadaunode lossku´sde la
librería, incluyendoestacionalidades.
4. Clasificación de clientes,pormediode análisisclúster,conel finde identificarsegmentos
rentablesparalalibrería.
¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un
análisis predictivo?
Importante pararealizaruna buenaestimaciónestenerlaventaendetalle separadaportransacciones,
esdecir;
Numerofacturade latransacción
Id productode la factura
Cantidades
Fechade latransacción
¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
Para nivel de basesde datosque manejaríala librería,creo que sonun Sistemade SQL funcionaria
bastante bienlacarga y modificaciónde datos.SQLfuncionabastante bienenempresaspequeñas,con
basesde datos relacionales. Tomandoencuentaque ala base de ventahay que transformarlaa
transaccional para poderrealizarunaestimaciónde ventafutura
¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
Tal y como hemosvistoenclases,el serviciode GITHUB esperfectoparair guardandoversionesde
trabajosde manera colaborativa.Creoque seriael servicioperfectoparallevaracabo el proyecto.