SlideShare una empresa de Scribd logo
1 de 5
Trabajo Ciencia de Datos – Herramientas para el análisis de Big Data
Comohemos aprendidoenloscursosde Cienciade Datos, hoy endiael volumende datosque se
manejaenla webyen lasorganizacionesesgigantesco,loque haforzadoa lasempresas ainvertiren
softwaresynuevosprofesionales,capacesde manejaresosdatosysacar insightssignificativospara
mejorarel procesode toma de decisiones.Nosólohayque enfocarse enlomeramente técnico,sino
tambienenlosprocesosparaun buenanálisisde datos.Estocomprende ,donde alojarlosdatos,
herramientasde análisis,lenguajesde programación,softwaresde visualizaciónde datos,etc.
Para realizarcada unode esosprocesosde maneraeficiente ,hemosaprendidosobre muchísimas
opcionesenel presente curso.
El presente trabajo,tiene laaspiraciónde escogerde maneracorrecta, lasmejoresherramientaspara
llevaracabo el mejortrabajo posible enla Librería Iztaccihuatl .
Bases de datos disponibles
El archivo “books” contiene los siguientes datos:
 Id - Identificador del registro
 Book Id - Identificador del libro
 Number Editions - Número de ediciones
 ISBN - Clave estándar internacional del libro
 ISBN13 - Clave estándar extendida internacional del libro
 Authors - Autor del libro
 Original Publication - Fecha de publicación
 Original Title - Título original del libro
 Title - Título del libro
 Language Code - Clave de idioma del libro
 Average Rating - Promedio de la clasificación del libro
 Image - Enlace a la imagen de la portada del libro
 Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene los siguientes datos:
 Position - Posición del libro en la clasificación del libro
 ISBN - Clave estándar extendida internacional del libro
 Title - Título del libro
 Author - Autor del libro
 Imprint - Editorial
 Publisher Group - Grupo Editorial
 Volume - Volumen de ventas hasta el 2010
 Value - Ventas determinadas por el volumen
 RRP - Precio recomendado para minoristas
 ASP - Precio promedio para venta
 Binding - Tipo de encuadernación
 Publ Date - Fecha de publicación
 Product Class - Clasificación del libro
 Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
 Book Id - Identificador del libro
 User Id - Identificador del cliente/usuario que clasifico un libro
 Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
 User Id - Identificador del cliente/usuario que clasifico un libro
 Book Id - Identificador del libro
El trabajo consiste en responder las siguientes preguntas
 ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos
de la Librería Iztaccihuatl?
 ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
 ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar
un análisis predictivo?
 ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
 ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
Respuestas
¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos
de la Librería Iztaccihuatl?
Comovimosenel curso , tenemosdosgrandeslenguajesde programaciónque estanenboga
actualmente ,R y Phyton. Ambostienenventajasydesventajas.Parael nivel de datosque tiene librería
, creo que con Phytonpodría ser suficiente,para realizarlosanálisisbásicoscomercialesque unorealiza
enuna compañía. Si bien,tambiense podría utilizarR, creo que este lenguaje esmuyestadísticoy
técnico, utilizadomásparaáreas de la cienciae investigación. Eneste caso, essolopara realizaranálisis
comercialesbásicos,porlo que R podría sermuy complejoparalostrabajadoresde lalibrería.En
cambio,Phytonesmás amplioypopular, por loque para el común de lostrabajadoresde lacompañía
sería fácil aprenderloyusarloenel diaa dia.
¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
En términosde predicciones,generalmentelasempresasusanlosdatoshistóricosparapronosticarlas
siguientesvariables;
 Por ejemplo,pormediode unaregresiónlineal ,podrianobtenerlapredicciónde ventadel
próximoaño,incluyendoestacionalidades.
 Regresiónlineal paraobtenerlapredicciónde ventaporunidadesde cadaunode lossku´sde la
librería, incluyendoestacionalidades.
 Clasificación de clientes,pormediode análisisclúster,conel finde identificarsegmentos
rentablesparalalibrería.
¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un
análisis predictivo?
Importante pararealizaruna buenaestimaciónestenerlaventaendetalle separadaportransacciones,
esdecir;
 Numerofacturade latransacción
 Id productode la factura
 Cantidades
 Fechade latransacción
¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
Para nivel de basesde datosque manejaríala librería,creo que sonun Sistemade SQL funcionaria
bastante bienlacarga y modificaciónde datos.SQLfuncionabastante bienenempresaspequeñas,con
basesde datos relacionales. Tomandoencuentaque ala base de ventahay que transformarlaa
transaccional para poderrealizarunaestimaciónde ventafutura
¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
Tal y como hemosvistoenclases,el serviciode GITHUB esperfectoparair guardandoversionesde
trabajosde manera colaborativa.Creoque seriael servicioperfectoparallevaracabo el proyecto.
Trabajo ciencia de datos camilo sanhueza

Más contenido relacionado

Similar a Trabajo ciencia de datos camilo sanhueza

Similar a Trabajo ciencia de datos camilo sanhueza (20)

Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docx
 
Bigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlBigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria Iztaccihuatl
 
Big data ejercicio
Big data ejercicioBig data ejercicio
Big data ejercicio
 
Trabajo entre pares
Trabajo entre paresTrabajo entre pares
Trabajo entre pares
 
Herramientas para el Análisis de Big Data
 Herramientas para el Análisis de Big Data Herramientas para el Análisis de Big Data
Herramientas para el Análisis de Big Data
 
Proyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataProyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big data
 
Practica mariadejoz
Practica mariadejozPractica mariadejoz
Practica mariadejoz
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organización
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
 
Trabajo de pares
Trabajo de paresTrabajo de pares
Trabajo de pares
 
Actividad individual big data
Actividad individual big dataActividad individual big data
Actividad individual big data
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
evaluacion por pares
evaluacion por paresevaluacion por pares
evaluacion por pares
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 

Último

Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnExamen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
YadiraMarquez8
 
Sensor de Temperatura Automotriz y Vehicularte
Sensor de Temperatura Automotriz y VehicularteSensor de Temperatura Automotriz y Vehicularte
Sensor de Temperatura Automotriz y Vehicularte
Condor Tuyuyo
 
Tema 8 LA DICTADURA FRANQUISTA (1939-1975).pdf
Tema 8     LA DICTADURA FRANQUISTA (1939-1975).pdfTema 8     LA DICTADURA FRANQUISTA (1939-1975).pdf
Tema 8 LA DICTADURA FRANQUISTA (1939-1975).pdf
anagc806
 
La división azul.pptxkkkkkkkkkkkkkkkkkkjjj
La división azul.pptxkkkkkkkkkkkkkkkkkkjjjLa división azul.pptxkkkkkkkkkkkkkkkkkkjjj
La división azul.pptxkkkkkkkkkkkkkkkkkkjjj
DanielSerranoAlmarch
 
PPT Reforma Pensional.pptx...............
PPT Reforma Pensional.pptx...............PPT Reforma Pensional.pptx...............
PPT Reforma Pensional.pptx...............
bercueseb98
 
Catalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmgCatalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmg
dostorosmg
 
Nivel-de-Endeudamiento.financiero para las empresas
Nivel-de-Endeudamiento.financiero para las empresasNivel-de-Endeudamiento.financiero para las empresas
Nivel-de-Endeudamiento.financiero para las empresas
POOLQUIMICOSSUMINIST
 

Último (20)

Macro y micro ambiente en administración
Macro y micro ambiente en administraciónMacro y micro ambiente en administración
Macro y micro ambiente en administración
 
Contabilidad Gubernamental guia contable
Contabilidad Gubernamental guia contableContabilidad Gubernamental guia contable
Contabilidad Gubernamental guia contable
 
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnExamen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
Examen Tribu_removednnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
 
CONTRATACIONES CON EL ESTADO PERUANO.pptx
CONTRATACIONES CON EL ESTADO PERUANO.pptxCONTRATACIONES CON EL ESTADO PERUANO.pptx
CONTRATACIONES CON EL ESTADO PERUANO.pptx
 
Sensor de Temperatura Automotriz y Vehicularte
Sensor de Temperatura Automotriz y VehicularteSensor de Temperatura Automotriz y Vehicularte
Sensor de Temperatura Automotriz y Vehicularte
 
Prestaciones sociales y servicios sociales
Prestaciones sociales y servicios socialesPrestaciones sociales y servicios sociales
Prestaciones sociales y servicios sociales
 
Presentación Gestión Corporativa Azul_20240511_200743_0000.pdf
Presentación Gestión Corporativa Azul_20240511_200743_0000.pdfPresentación Gestión Corporativa Azul_20240511_200743_0000.pdf
Presentación Gestión Corporativa Azul_20240511_200743_0000.pdf
 
Tema 8 LA DICTADURA FRANQUISTA (1939-1975).pdf
Tema 8     LA DICTADURA FRANQUISTA (1939-1975).pdfTema 8     LA DICTADURA FRANQUISTA (1939-1975).pdf
Tema 8 LA DICTADURA FRANQUISTA (1939-1975).pdf
 
Correcion del libro al medio hay sitio.pptx
Correcion del libro al medio hay sitio.pptxCorrecion del libro al medio hay sitio.pptx
Correcion del libro al medio hay sitio.pptx
 
La división azul.pptxkkkkkkkkkkkkkkkkkkjjj
La división azul.pptxkkkkkkkkkkkkkkkkkkjjjLa división azul.pptxkkkkkkkkkkkkkkkkkkjjj
La división azul.pptxkkkkkkkkkkkkkkkkkkjjj
 
DOC-20240503-WA0003. cadena de valor.pdf
DOC-20240503-WA0003. cadena de valor.pdfDOC-20240503-WA0003. cadena de valor.pdf
DOC-20240503-WA0003. cadena de valor.pdf
 
ANÁLISIS DE TERRENOS (2).pdfiydguqdvgjhd
ANÁLISIS DE TERRENOS (2).pdfiydguqdvgjhdANÁLISIS DE TERRENOS (2).pdfiydguqdvgjhd
ANÁLISIS DE TERRENOS (2).pdfiydguqdvgjhd
 
Ficha de datos de seguridad MSDS Ethanol (Alcohol etílico)
Ficha de datos de seguridad MSDS Ethanol (Alcohol etílico)Ficha de datos de seguridad MSDS Ethanol (Alcohol etílico)
Ficha de datos de seguridad MSDS Ethanol (Alcohol etílico)
 
CAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABA
CAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABACAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABA
CAMBIO DE USO DE SUELO LO BARNECHEA - VITACURA - HUECHURABA
 
PPT Reforma Pensional.pptx...............
PPT Reforma Pensional.pptx...............PPT Reforma Pensional.pptx...............
PPT Reforma Pensional.pptx...............
 
Control estadístico de la calidad en la industria
Control estadístico de la calidad en la industriaControl estadístico de la calidad en la industria
Control estadístico de la calidad en la industria
 
DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBREDISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
 
Catalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmgCatalogo de tazas para la tienda nube de dostorosmg
Catalogo de tazas para la tienda nube de dostorosmg
 
DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
DISEÑO DE ESTRATEGIAS EN MOMENTOS DE  INCERTIDUMBREDISEÑO DE ESTRATEGIAS EN MOMENTOS DE  INCERTIDUMBRE
DISEÑO DE ESTRATEGIAS EN MOMENTOS DE INCERTIDUMBRE
 
Nivel-de-Endeudamiento.financiero para las empresas
Nivel-de-Endeudamiento.financiero para las empresasNivel-de-Endeudamiento.financiero para las empresas
Nivel-de-Endeudamiento.financiero para las empresas
 

Trabajo ciencia de datos camilo sanhueza

  • 1. Trabajo Ciencia de Datos – Herramientas para el análisis de Big Data Comohemos aprendidoenloscursosde Cienciade Datos, hoy endiael volumende datosque se manejaenla webyen lasorganizacionesesgigantesco,loque haforzadoa lasempresas ainvertiren softwaresynuevosprofesionales,capacesde manejaresosdatosysacar insightssignificativospara mejorarel procesode toma de decisiones.Nosólohayque enfocarse enlomeramente técnico,sino tambienenlosprocesosparaun buenanálisisde datos.Estocomprende ,donde alojarlosdatos, herramientasde análisis,lenguajesde programación,softwaresde visualizaciónde datos,etc. Para realizarcada unode esosprocesosde maneraeficiente ,hemosaprendidosobre muchísimas opcionesenel presente curso. El presente trabajo,tiene laaspiraciónde escogerde maneracorrecta, lasmejoresherramientaspara llevaracabo el mejortrabajo posible enla Librería Iztaccihuatl . Bases de datos disponibles El archivo “books” contiene los siguientes datos:  Id - Identificador del registro  Book Id - Identificador del libro  Number Editions - Número de ediciones  ISBN - Clave estándar internacional del libro  ISBN13 - Clave estándar extendida internacional del libro  Authors - Autor del libro  Original Publication - Fecha de publicación  Original Title - Título original del libro  Title - Título del libro  Language Code - Clave de idioma del libro  Average Rating - Promedio de la clasificación del libro  Image - Enlace a la imagen de la portada del libro  Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
  • 2. El archivo “top_books” contiene los siguientes datos:  Position - Posición del libro en la clasificación del libro  ISBN - Clave estándar extendida internacional del libro  Title - Título del libro  Author - Autor del libro  Imprint - Editorial  Publisher Group - Grupo Editorial  Volume - Volumen de ventas hasta el 2010  Value - Ventas determinadas por el volumen  RRP - Precio recomendado para minoristas  ASP - Precio promedio para venta  Binding - Tipo de encuadernación  Publ Date - Fecha de publicación  Product Class - Clasificación del libro  Classification - Clasificación General del libro El archivo “ratings” contiene los siguientes datos:  Book Id - Identificador del libro  User Id - Identificador del cliente/usuario que clasifico un libro  Rating - Nivel de clasificación del libro. El archivo “to_read” contiene los siguientes datos:  User Id - Identificador del cliente/usuario que clasifico un libro  Book Id - Identificador del libro
  • 3. El trabajo consiste en responder las siguientes preguntas  ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos de la Librería Iztaccihuatl?  ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?  ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un análisis predictivo?  ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccihuatl?  ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la información y el proyecto de ciencia de datos? Respuestas ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos de la Librería Iztaccihuatl? Comovimosenel curso , tenemosdosgrandeslenguajesde programaciónque estanenboga actualmente ,R y Phyton. Ambostienenventajasydesventajas.Parael nivel de datosque tiene librería , creo que con Phytonpodría ser suficiente,para realizarlosanálisisbásicoscomercialesque unorealiza enuna compañía. Si bien,tambiense podría utilizarR, creo que este lenguaje esmuyestadísticoy técnico, utilizadomásparaáreas de la cienciae investigación. Eneste caso, essolopara realizaranálisis comercialesbásicos,porlo que R podría sermuy complejoparalostrabajadoresde lalibrería.En cambio,Phytonesmás amplioypopular, por loque para el común de lostrabajadoresde lacompañía sería fácil aprenderloyusarloenel diaa dia. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl? En términosde predicciones,generalmentelasempresasusanlosdatoshistóricosparapronosticarlas siguientesvariables;  Por ejemplo,pormediode unaregresiónlineal ,podrianobtenerlapredicciónde ventadel próximoaño,incluyendoestacionalidades.  Regresiónlineal paraobtenerlapredicciónde ventaporunidadesde cadaunode lossku´sde la librería, incluyendoestacionalidades.
  • 4.  Clasificación de clientes,pormediode análisisclúster,conel finde identificarsegmentos rentablesparalalibrería. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un análisis predictivo? Importante pararealizaruna buenaestimaciónestenerlaventaendetalle separadaportransacciones, esdecir;  Numerofacturade latransacción  Id productode la factura  Cantidades  Fechade latransacción ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccihuatl? Para nivel de basesde datosque manejaríala librería,creo que sonun Sistemade SQL funcionaria bastante bienlacarga y modificaciónde datos.SQLfuncionabastante bienenempresaspequeñas,con basesde datos relacionales. Tomandoencuentaque ala base de ventahay que transformarlaa transaccional para poderrealizarunaestimaciónde ventafutura ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la información y el proyecto de ciencia de datos? Tal y como hemosvistoenclases,el serviciode GITHUB esperfectoparair guardandoversionesde trabajosde manera colaborativa.Creoque seriael servicioperfectoparallevaracabo el proyecto.