1ro Programación Anual D.P.C.C planificación anual del área para el desarroll...
Trabajo de herramientas para la ciencia de datos evaluado por pares
1. Trabajo Evaluado por Pares # 2
Curso: Herramientas para el Análisis de Big Data
Realizado por: Franco Gotuzzo Florez
2. 1-¿Qué lenguaje de programación para ciencia de datos utilizaría para
realizar el análisis de datos de la Librería Iztaccihuatl?
El Lenguaje de Programación sugerido de mi parte sería Python, a razón de
ser usado mayormente en Ciencia, Data e Ingeniería.
Para el caso de la Librería serán archivos de data lingüística en su mayoría.
2-¿Qué predicciones se podrían obtener de los datos de la Librería
Iztaccihuatl?
Como requerido las 3 predicciones que se podrían realizar serían:
• Categorías más vendidas
(el Archivo Top Books ayudará a predecir gracias al histórico de Ventas
que Categorías de Libros han sido las más vendidas, y por lo tanto
continuar en dicha línea de Producto, por ejemplo especializarse en
dicho segmento de clientes, promocionar y posicionarse en dicho nicho
de Mercado).
• Autores más vendidos
(dentro del archivo antes mencionado se puede también listar a los
Autores mas vendidos y continuar con la Promoción y Venta de mas
Obras de dichos autores).
• Casas Editoriales con la mayor venta
(si de los Libros más Vendidos estos pertenecen a un número pequeño
de Casas Editoriales, se puede trabajar en relación directa con ellas,
optimizando la operación, precio y producto, como Reducción de
Costos, Mejora en Tiempos de Entrega, Firma de Contratos Directos
para su Venta, así como Ventas Exclusivas y Lanzamientos).
3-¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl
para poder realizar un análisis predictivo?
Segmentación de Datos en Archivos separados
Por ejemplo:
3. -Categorías
-Autores
-Casas Editoriales
-Fecha de Publicación
-Precios
Visto que la información está en el archivo de Top Books, aunque junta,
trabajarla y analizarla en archivos separados generaría una perspectiva
diferente de dicha información desde un ángulo de pertenencia o género,
modernidad de la obra, escalas de precios y de matriz de producción.
4-¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos
de la Librería Iztaccihuatl?
Base de Datos en la Nube (de uso gratuito inicialmente, posterior o si se
desea una Base Premium o con Costo).
Visto que la cantidad de datos no es grande, esta no necesita la inversión de
servidores por parte de la Librería para el almacenamiento, ni tampoco el
pago por el uso de un espacio excesivo en la nube, a menos que su cantidad
de datos así lo requiera.
5-¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl
para alojar la información y el proyecto de ciencia de datos?
Servicio Gratuito de Almacenamiento en la Nube (hasta que sea
necesario pagar una Cuenta Premium).
Sobre todo que soporten diferentes Lenguajes de Programación (que
acepten el Lenguaje a ser utilizado, en este trabajo se propuso Python y
por ejemplo HEROKU como primera opción la trabaja.
Dos ejemplos de las mismas en orden de practicidad para este fin, por tener
uso gratuito y cuentas premium, y soportar diferentes Lenguajes de
Programación podrían ser:
• HEROKU
• CleverCloud
4. CONCLUSIONES
Al trabajar con un Lenguaje de Programación fuertemente usado de “Open
Source” como Python así como un Servicio en la Nube Gratuito como Heroku,
se ahorran costos para la Empresa, ya que el objetivo de la misma es tanto la
explotación de datos y maximización de su uso, generación de Análisis
Descriptivos como Predictivos, y si fuese también Prescriptivos, como la
rentabilidad en términos económicos, también se sugiere la desagregación y
separación de datos (Autor, Fecha, Categoría, Casa Editorial, Fecha de
Publicación) para optimizarlos independientemente y poder encontrarle una
explotación a cada uno y su uso separado, el cual nos puede dar lecturas
diferentes que teniéndolos agrupados.