Este proyecto trae consigo el poder analizar y saber donde se llega a aplicar las Ciencia de Datos ,es muy interesante , lo publico aquí ya que estoy en un curso en el cual me pide desenglosar todo lo aprendió y esta es una manera de poder plasmar.
2. 1
ÍNDICE
o Objetivo e introducción …………………………...páginas 2,3 y 4
o Lenguaje de programación a utilizar………….. página 5
o Predicciones a obtener ……………………………… página 5
o Adecuaciones para realizar un análisis predictivo…. página 6
o Tipo de base de datos para alojar los análisis de los datos de
la Librería Iztaccihuatl…….. página 6
o Tipo de servicio de la nube que se puede contratar para la
información y ciencia de datos……….. página 7
o Conclusiones ……… página 8
3. 2
OBJETIVO:
Identificar las herramientas necesarias para el análisis; estructuras de datos y
servicios de la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo
a la toma de decisiones para una organización.
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha
decidido desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores
de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.
En la carpeta denominada “datasets_books” se encuentran los siguientes archivos: books;
top_books; raitings; to_read. Te recomendamos utilizar la herramienta Python para
analizar los datos que se te proporcionan.
Una vez analizada la información de la carpeta “datasets_books” deberás presentar en un
documento Word la respuesta a las siguientes preguntas:
¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis
de datos de la Librería Iztaccihuatl?
¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder
realizar un análisis predictivo?
¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
El archivo “books” contiene los siguientes datos:
Id - Identificador del registro
Book Id - Identificador del libro
Number Editions - Número de ediciones
ISBN - Clave estándar internacional del libro
4. 3
ISBN13 - Clave estándar extendida internacional del libro
Authors - Autor del libro
Original Publication - Fecha de publicación
Original Title - Título original del libro
Title - Título del libro
Language Code - Clave de idioma del libro
Average Rating - Promedio de la clasificación del libro
Image - Enlace a la imagen de la portada del libro
Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene los siguientes datos:
Position - Posición del libro en la clasificación del libro
ISBN - Clave estándar extendida internacional del libro
Title - Título del libro
Author - Autor del libro
Imprint - Editorial
Publisher Group - Grupo Editorial
Volume - Volumen de ventas hasta el 2010
Value - Ventas determinadas por el volumen
RRP - Precio recomendado para minoristas
ASP - Precio promedio para venta
Binding - Tipo de encuadernación
Publ Date - Fecha de publicación
Product Class - Clasificación del libro
Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
5. 4
Book Id - Identificador del libro
User Id - Identificador del cliente/usuario que clasifico un libro
Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
User Id - Identificador del cliente/usuario que clasifico un libro
Book Id - Identificador del libro
El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y
compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería.
El archivo “to read” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer.
De acuerdo a la información con la que se cuenta, contenida en la carpeta “datasets
books”, y al contenido del curso, se buscará plantear las mejores alternativas de solución
al proyecto de ciencia de datos de la Librería Iztaccihuatl
6. 5
Para realizar el análisis de datos de la Librería Iztaccihuati recomendaría utilizar el lenguaje
de programación Python, que funciona en cualquier tipo de sistema que integre su
interpretador, es software libre y nos ofrece código abierto, aparte de tener una
comunidad de soporte acogedora y estable. Entre las tareas en las que se puede utilizar
tenemos:
• Desarrollo Web
• Codificación
• Recolección automática de datos de sitios web
• Análisis de los datos
• Automatización
Además, ostenta una gran lista de usuarios de gran calibre como Google, YouTube o
Facebook.
Tomando en cuenta que uno de los campos de aplicación más prometedores de la
inteligencia artificial es el e-commerce, podríamos considerar las siguientes
predicciones:
• Identificar las tendencias de géneros de libros (salud, romances, informática, etc.) que
serán más rentables en el corto, mediano y largo plazo.
• Inferir que libros dejarán de ser atractivos para el
Público consumidor.
Optimización de campañas de marketing para determinar la respuesta de los clientes a
campañas de marketing o patrones de compra.
• Precios de los servicios de la librería en función de la estacionalidad lo que ayuda a
mejorar operaciones para administrar mejor el inventario y otros recursos.
Optimización de campañas de marketing para
LENGUAJEDE PROGRAMACIóNA UTLIZAR
PREDICCIONES A OBTENER
7. 6
Para adecuar la base de datos de la Librería Iztaccihuatl y poder realizar un análisis
predictivo se pueden utilizar técnicas analíticas, estadísticas y de aprendizaje
automático a fin de crear un modelo predictivo para predecir eventos futuros.
El término “análisis predictivo” describe la aplicación de una técnica estadística o de
aprendizaje automático para crear una predicción cuantitativa sobre el futuro. Con
frecuencia, se utilizan técnicas de aprendizaje automático supervisado para predecir un
valor futuro o para calcular una probabilidad. El proceso emplea muchas veces
conjuntos de datos heterogéneos, a menudo masivos, en modelos que pueden generar
resultados claros y permiten actuar sobre ellos con el objetivo de lograr el resultado
deseado.
El tipo de base de datos (BD) que se utilizaría para alojar los análisis de datos de la Librería
Iztaccihuati sería una base de datos NoSQL orientada a Documentos.
En este tipo de BD Se guardan documentos que soportan diferentes formatos (JSON,
XML). Se pueden cambiar esquemas sin parar las bases de datos y los
desarrolladores pueden meter documentos indexados y con acceso por el motor de
base de datos fácilmente.
Entre este tipo de BD tenemos Mongo DB, la cual es probablemente la base de
datos más popular. Tiene la posibilidad de trabajar con datos estructurados y no
estructurados. Destaca por su gran capacidad de escalado y rendimiento y suele ser la
que más perfiles experimentados tiene.
ADECUACIONESPARA REALIZAR UN ANALISIS
PREDICTIVO
TIPO DE BASE DE DATOS PARA ALOJAR LOS ANALISISDE
LOS DATOS EN LALIBRERIA IZTACCIHUALT
8. 7
El tipo de servicio de la nube que podría contratar la Librería Iztaccihuati para alojar
información y su proyecto de ciencia de datos es la nube hibrida, la cual combina
Infraestructura local (o nubes privadas) con nubes públicas, de modo que la librería
pueda beneficiarse de las ventajas de ambas.
En una nube híbrida, los datos y las aplicaciones pueden moverse entre nubes privadas
y públicas para obtener más flexibilidad y opciones de implementación y cuenta
con la opción de "ampliación en la nube". Esto se refiere a cuando una aplicación o
recurso se ejecutan en la nube privada hasta que se produce una subida en la demanda.
En este punto, la organización puede "ampliarse" hacia la nube pública para aprovechar
más recursos informáticos.
Entre las ventajas de la nube hibrida tenemos:
• Flexibilidad: se puede aprovechar recursos adicionales de la nube pública.
• Control: se puede mantener una infraestructura privada para los recursos
confidenciales.
• Rentabilidad: gracias a la posibilidad de escalar a la nube pública, solo pagará por la
capacidad informática adicional cuando sea necesaria.
• Facilidad: se puede realizar una migración gradual; es decir, trasladando cargas de
trabajo en etapas.
TIPO DE SERVIVIO DE LA NUBE QUE SE PUEDE
CONTRATAR PARA LA INFORMORMACIONY LA
CIENCIADE DATOS
9. 8
Los cambios tecnológicos permiten que los negocios sean más flexibles y adaptables a las
necesidades de los clientes. En el caso de la Librería Iztaccihuat su proyecto de
ciencia de datos es una oportunidad de mantenerse y crecer en el mercado de libros.
El análisis predictivo describe la aplicación de una
El análisis predictivo describe la aplicación de una técnica estadística o de aprendizaje
automático para crear una predicción cuantitativa sobre el futuro. Con frecuencia, se
utilizan técnicas de aprendizaje automático supervisado para predecir un valor futuro
o para calcular una probabilidad, por lo que el uso de lenguajes de programación como
Python o R facilitan mucho su implementación.
La posibilidad de trabajar con datos estructurados y no
La posibilidad de trabajar con datos estructurados, permitiría a la Liberia Iztaccihuat
aprovechar los diferentes tipos de datos relacionados al comercio de libros y optimizar
sus decisiones de negocio.
El uso de nuevas tecnologías para el uso de BD permite
El uso de nuevas tecnologías para el uso de BD permite que se presenten nuevas
oportunidades de negocio para la librería Iztaccihuat, como la venta de libros
digitales para lo cual se debería empezar por conocer y recoger data de este tipo de
mercado, y aprovechar que se contaría con una nube hibrida para el manejo
de la data.
CONCLUSIONES: