SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
Rodrigo Oliver Delgado Arcega
INSTITUTO MEXICANO DE LA FORMACIÓN EJECUTIVA |
Proyecto de análisis
ALMACENAMIENTO DE DATOS
Conceptos de almacenamiento de datos, realizar el siguiente proyecto: el diseño
de una plataforma de afiliación en la nube para un partido político de nueva creación.
Este proyecto te permitirá explorar y poner en práctica diversos aspectos del
almacenamiento y gestión de datos, así como aprender sobre las tecnologías y
herramientas utilizadas en entornos de análisis de datos en la actualidad.
Definición de requisitos y alcance:
Identifica los objetivos y requisitos de la plataforma de análisis de datos. ¿Cuál
es el propósito principal de la plataforma? ¿Qué tipo de datos se analizarán? ¿Cuáles
son las necesidades de almacenamiento y rendimiento?
Selección de la tecnología de almacenamiento:
Investiga y evalúa diferentes opciones de almacenamiento en la nube, como servicios
de almacenamiento de objetos (por ejemplo, Amazon S3, Google Cloud Storage) o
sistemas de almacenamiento distribuido (por ejemplo, Hadoop Distributed File System,
Apache Cassandra). Considera aspectos como la escalabilidad, la durabilidad, el
rendimiento y el costo.
Diseño de la arquitectura de datos:
Define la estructura y el modelo de datos necesarios para el análisis. Determina
cómo se organizarán y almacenarán los datos en la plataforma, considerando aspectos
como la partición, la indexación y la redundancia, etc.
Monitoreo y mantenimiento:
Realiza tareas de mantenimiento, como la limpieza de datos obsoletos o la
optimización del
rendimiento.
Plan de copias de Seguridad:
Define el plan que se llevara a cabo para realizar copias de seguridad de la información
y cuanto espacio me va a ocupar en los servicios contratados.
El propósito principal de la plataforma de afiliación en la nube es permitir la gestión eficiente
de las afiliaciones de un partido político de nueva creación. Los datos que se analizarán
incluyen información personal de los afiliados, como nombre, dirección, número de teléfono,
fotografía personal y copia de la credencial para votar.
Las necesidades de almacenamiento incluyen la capacidad de almacenar de forma
segura los datos personales de los afiliados, así como la capacidad de realizar búsquedas
y consultas eficientes sobre los registros de afiliación.
Definición de requisitos y alcance:
El propósito principal de la plataforma de afiliación en la nube para el partido político de
nueva creación es gestionar el proceso de afiliación de personas interesadas en formar
parte del partido. Los datos para analizar incluyen información personal como nombre,
dirección, número de teléfono, fotografía personal y fotografía de la credencial para votar.
Además, se desea tener la capacidad de visualizar y analizar estos registros en todo el
territorio nacional.
Selección de la tecnología de almacenamiento:
Para el almacenamiento en la nube los datos de los afiliados, se puede considerar utilizar
un servicio de almacenamiento de objetos como Amazon S3 o Google Cloud Storage, que
ofrecen alta durabilidad y escalabilidad. Estos servicios ofrecen escalabilidad, durabilidad
y un buen rendimiento para el almacenamiento de datos (ver Tabla 1 ).
Tabla 1. Cuadro comparativo entre Amazon S3 y Google Cloud Storage.
Aspecto Amazon S3
Almacenamiento en la Nube de
Google
Durabilidad
Amazon S3 ofrece una durabilidad
de objetos del 99.999999999%
(11 9's), lo que significa que es
altamente confiable para
almacenar datos y garantizar su
integridad a largo plazo
Google Cloud Storage ofrece una
durabilidad de objetos del
99.999999% (8 9's), lo que
también proporciona una alta
confiabilidad y garantiza que los
datos se mantienen seguros.
Escalabilidad
Amazon S3 es altamente
escalable y puede manejar cargas
de trabajo de cualquier tamaño.
Permite aumentar o disminuir la
capacidad de almacenamiento
según las necesidades del
usuario.
Google Cloud Storage también es
altamente escalable y ofrece una
escalabilidad automática para
adaptarse a las demandas
cambiantes de almacenamiento.
Puede aumentar o disminuir la
capacidad sin afectar el
rendimiento.
Disponibilidad
Amazon S3 garantiza una alta
disponibilidad y ofrece un SLA
(Acuerdo de Nivel de Servicio) del
99,99% para la disponibilidad del
servicio.
Google Cloud Storage también
garantiza una alta disponibilidad
con un SLA del 99,95 % para el
acceso a los datos.
Costo
El costo de Amazon S3 varía
según la región, el
almacenamiento utilizado y las
solicitudes de API. Tiene opciones
de precios flexibles, niveles
incluidos de almacenamiento de
acceso frecuente,
almacenamiento de acceso
infrecuente y almacenamiento de
una zona.
El costo de Google Cloud Storage
también varía según la región, el
almacenamiento utilizado y las
solicitudes de API. Ofrece
opciones de precios flexibles,
como almacenamiento regional,
almacenamiento multirregional y
almacenamiento de archivo.
Integración de otros servicios
Amazon S3 se integra bien con
otros servicios de Amazon Web
Services (AWS), como EC2,
Lambda, Redshift y otros.
También es compatible con una
amplia gama de herramientas y
aplicaciones de terceros.
Google Cloud Storage se integra
de manera similar con otros
servicios de Google Cloud
Platform (GCP), como Compute
Engine, BigQuery, Dataflow y
otros. También es compatible con
herramientas y aplicaciones de
terceros
Facilidad de uso
Amazon S3 tiene una interfaz
intuitiva y proporciona una fácil
configuración y administración de
los objetos y los permisos de
acceso.
Google Cloud Storage también
tiene una interfaz amigable y
permite una fácil configuración y
administración de los objetos y los
permisos.
Otros servicios relacionados
Amazon S3 ofrece servicios
adicionales, como versionado de
objetos, control de acceso a nivel
de cubo, replicación entre
regiones y análisis de datos con
S3 Select y S3 Glacier.
Google Cloud Storage ofrece
servicios relacionados, como
Cloud Storage Transfer Service,
que facilita la migración de datos a
Cloud Storage desde otros, y
Cloud Storage for Firebase, que
permite el almacenamiento de
datos para aplicaciones web y
móviles.
Considerando los requisitos de almacenamiento y rendimiento, así como la escalabilidad y
el costo, una opción adecuada para la plataforma de afiliación en la nube podría ser utilizada
una combinación de servicios en la nube, como Amazon Web Services (AWS) y Google
Cloud Platform ( PCG). De las dos opciones se escoge Amazon S3
Diseño de la arquitectura de datos:
En cuanto al diseño de la arquitectura de datos, se puede considerar el uso de una base de
datos relacional para almacenar la información de afiliación, como PostgreSQL o MySQL.
Estas bases de datos ofrecen características de división, indexación y redundancia para
garantizar un acceso eficiente a los datos.
La cantidad de espacio en datos requerido de manera estimativa de varios factores, como
la cantidad de afiliados que se espera tener, el volumen de datos por afiliado y el tiempo de
retención de los datos. Sin conocer estos detalles específicos, es difícil proporcionar una
estimación precisa.
Sin embargo, para dar una idea general, se puede considerar un cálculo aproximado
basado en el tamaño promedio de los campos de datos que mencionaste:
Teléfono: Un número de teléfono generalmente se almacena como una cadena de texto,
que ocupa unos pocos bytes (por ejemplo, 15-20 bytes).
Domicilio: dependiendo de la complejidad del domicilio (por ejemplo, si incluye campos
como calle, número, ciudad, estado, código postal, etc.), se pueden estimar unos pocos
kilobytes para almacenar esta información.
Fotografía personal: El tamaño de una fotografía puede variar con dureza, pero en
promedio, podemos considerar un rango de tamaño de archivo de 100 KB a varios
megabytes.
Copia de la credencial para votar: El tamaño de una copia de una credencial para votar
también puede variar, pero en promedio, podemos considerar un rango similar al de la
fotografía personal (100 KB a varios megabytes).
Teniendo en cuenta estos rangos estimados, es recomendable realizar un análisis más
detallado y calcular el tamaño real de los datos en función de la cantidad de afiliados y los
volúmenes de datos esperados.
S3 Standard: almacenamiento de propósito general para cualquier clase de datos que se
utiliza generalmente para datos a los que se accede con frecuencia
Primeros 50 TB/mes
0,023
USD por GB
Siguientes 450 TB/mes
0,022
USD por GB
Más de 500 TB/mes
0,021
USD por GB
En cuanto al paquete de base de datos a utilizar, tanto PostgreSQL como MySQL son
opciones populares y muy utilizadas. Ambas ofrecen características de división, indexación
y redundancia que son adecuadas para garantizar un acceso eficiente a los datos.
La elección entre PostgreSQL y MySQL llegó de otros factores, como las necesidades
específicas del proyecto, la experiencia del equipo de desarrollo y las características
adicionales que cada base de datos ofrece. Ambas son opciones sólidas y ampliamente
utilizadas en la industria, por lo que es recomendable evaluar sus características y
compararlas con los requisitos del proyecto antes de tomar una decisión final.
Además, se puede utilizar un sistema de almacenamiento distribuido, como Apache Hadoop
Distributed File System (HDFS) o Apache Cassandra, para almacenar grandes volúmenes
de datos y garantizar la escalabilidad.
Columna Descripción Tipo de dato Tamaño (bits)
nombre_ciuadano Nombre del ciudadano varchar 8
n_ine Número del INE del
ciudadano
Long int 32
ciudad_cve Clave ciudad (catálogo de
SEPOMEX)
int 16
calle Nombre de la calle varchar 8
numero Numero de residencia del
ciudadano
int 16
colonia Colonia o fraccionamiento varchar 8
codigo_postal Código postal de la
administración postal
int 16
municipio Clave del municipio (INEGI) int 16
estado Clave entidad del INEGI int 16
ciudad Nombre de la ciudad
(Catalogo SEPOMEX)
Varchar 8
n_cel Numero de celular int 16
fotografia Fotografía del ciudadano string
N_afiliacion Numero de afiliación al
partido
Long int 32
Encuesta de salida
¿Qué mejorarías en tu ciudad?
a) Suministro de agua potable.
b) Seguridad pública.
c) Vialidades.
d) Recolección de la basura
En esta encuesta, se requerirían respuestas de opción múltiple. Los tipos de datos
necesarios serían:
Respuesta seleccionada: Un tipo de dato que registra la opción seleccionada por el
encuestado (a, b, cod). Esto puede ser representado como un personaje o una cadena de
texto. Identificador único de encuestado: Si.
Espacio estimado: Alrededor de 100 bytes para almacenar una respuesta breve.
Almacenamiento gp2 de uso general, los volúmenes gp2 de uso general le permiten
seleccionar una capacidad de almacenamiento de entre 20 GiB y 64 TiB con un rendimiento
de almacenamiento de referencia de 3 IOPS por cada GiB. Los volúmenes de tamaño
inferior a 1 TiB también tienen la capacidad de ampliarse hasta 3000 IOPS durante periodos
largos de tiempo. Se le cobrará por el almacenamiento que aprovisione. Sin embargo, no
se le cobrarán las operaciones de E/S que consuma.
“Almacenamiento SSD de uso general (gp2): almacenamiento 0,115 USD por GB al mes”
Monitoreo y mantenimiento:
Es importante establecer un sistema de monitoreo para supervisar el rendimiento de la
plataforma y realizar tareas de mantenimiento, como la limpieza de datos obsoletos y la
optimización de consultas. Esto se puede lograr utilizando herramientas de monitoreo,
como Prometheus o Nagios, para identificar posibles problemas y realizar los ajustes según
sea necesario.
OpenSearch-as-a-service: una plataforma SaaS nativa de la nube creada en torno a
OpenSearch para centralizar sus registros, además de:
• Visualización y filtros de búsqueda de OpenSearch Dashboards: busque sus
datos con consultas rápidas y paneles de monitoreo en tiempo real
• Alertas: activas notificaciones con alertas basadas en umbrales
• AI/ML: resalta automáticamente los datos de solución de problemas críticos
• Eliminar filtros: identifique y elimine fácilmente registros innecesarios para reducir
costos
• Niveles inteligentes: reduzca el costo de almacenamiento a medida que los datos
envejecen, sin ningún impacto en el rendimiento de la búsqueda
Plan de copias de seguridad:
Para garantizar la seguridad de los datos, es fundamental implementar un plan de copias
de seguridad. Esto puede implicar realizar copias periódicas de la base de datos y
almacenarlas en un entorno seguro, como un servicio de almacenamiento en la nube con
cifrado, como AWS S3 con cifrado de objetos o Google Cloud Storage con claves de cliente
gestionadas. El espacio requerido para las copias de seguridad obtuvo el tamaño de la base
de datos y la frecuencia de las copias.
En resumen, para el diseño de una plataforma de afiliación en la nube para un partido
político de nueva creación, se puede considerar el uso de servicios de almacenamiento en
la nube, una combinación de bases de datos relacional y sistemas de almacenamiento
distribuido, así como implementar un sistema de monitoreo y un plan de copias de seguridad
adecuado.
Copia de seguridad del sistema de archivos de
Amazon EFS†
0,05 USD por GB al
mes
0,01 USD por GB al
mes
El servicio de soporte se infraestructura y almacenamiento, así como respaldo empleando
AWS, Amazon S3, da un costo promedio de almacenamiento en Amazon S3 de
aproximadamente $0.023 por GB al mes, por la cantidad de usuarios (5000), multiplicado
por el número de meses (12), serian 1,380 usd, dando un aproximado de 27,600 pesos
mexicanos.
Proyecto de analisis de respaldo para base de datos del doctorado en ti

Más contenido relacionado

Similar a Proyecto de analisis de respaldo para base de datos del doctorado en ti

Bases de Datos 1.ppt
Bases de Datos 1.pptBases de Datos 1.ppt
Bases de Datos 1.pptssuser6c30de1
 
Actividad 3 producto final
Actividad 3 producto finalActividad 3 producto final
Actividad 3 producto finalKARLALOK
 
Actividad de aprendizaje 4
Actividad de aprendizaje 4Actividad de aprendizaje 4
Actividad de aprendizaje 4Sinai Diaz
 
Apunte MR - Normalización Tabla - SQL.pdf
Apunte MR - Normalización Tabla - SQL.pdfApunte MR - Normalización Tabla - SQL.pdf
Apunte MR - Normalización Tabla - SQL.pdfCristopherBaados1
 
Bases de datos
Bases de datosBases de datos
Bases de datosAlfonso
 
Herramienta de Almacén de Datos e Inteligencia de Reportes
Herramienta de Almacén de Datos e Inteligencia de ReportesHerramienta de Almacén de Datos e Inteligencia de Reportes
Herramienta de Almacén de Datos e Inteligencia de ReportesNicolás Pace
 
Base de datos
Base de datosBase de datos
Base de datosSara
 
Base de datos
Base de datosBase de datos
Base de datosSara
 
Base de datos
Base de datosBase de datos
Base de datosSara
 
Bases de datos
Bases de datosBases de datos
Bases de datosSara
 
Mendozateresita db1
Mendozateresita db1Mendozateresita db1
Mendozateresita db1tesy33
 
Desplegando un servicio de datos públicos en la nube (OGDI/DataLab) | SolidQ ...
Desplegando un servicio de datos públicos en la nube (OGDI/DataLab) | SolidQ ...Desplegando un servicio de datos públicos en la nube (OGDI/DataLab) | SolidQ ...
Desplegando un servicio de datos públicos en la nube (OGDI/DataLab) | SolidQ ...SolidQ
 
archivodiapositiva_202261218025.pptx
archivodiapositiva_202261218025.pptxarchivodiapositiva_202261218025.pptx
archivodiapositiva_202261218025.pptxStevenTusabes
 

Similar a Proyecto de analisis de respaldo para base de datos del doctorado en ti (20)

Bases de Datos 1.ppt
Bases de Datos 1.pptBases de Datos 1.ppt
Bases de Datos 1.ppt
 
Bd introducción
Bd  introducciónBd  introducción
Bd introducción
 
Bases de Datos Cap I: Introducción
Bases de Datos Cap I: IntroducciónBases de Datos Cap I: Introducción
Bases de Datos Cap I: Introducción
 
Actividad 3 producto final
Actividad 3 producto finalActividad 3 producto final
Actividad 3 producto final
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Actividad de aprendizaje 4
Actividad de aprendizaje 4Actividad de aprendizaje 4
Actividad de aprendizaje 4
 
Apunte MR - Normalización Tabla - SQL.pdf
Apunte MR - Normalización Tabla - SQL.pdfApunte MR - Normalización Tabla - SQL.pdf
Apunte MR - Normalización Tabla - SQL.pdf
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Herramienta de Almacén de Datos e Inteligencia de Reportes
Herramienta de Almacén de Datos e Inteligencia de ReportesHerramienta de Almacén de Datos e Inteligencia de Reportes
Herramienta de Almacén de Datos e Inteligencia de Reportes
 
Base de datos
Base de datosBase de datos
Base de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Base datos
Base datos Base datos
Base datos
 
Mendozateresita db1
Mendozateresita db1Mendozateresita db1
Mendozateresita db1
 
Desplegando un servicio de datos públicos en la nube (OGDI/DataLab) | SolidQ ...
Desplegando un servicio de datos públicos en la nube (OGDI/DataLab) | SolidQ ...Desplegando un servicio de datos públicos en la nube (OGDI/DataLab) | SolidQ ...
Desplegando un servicio de datos públicos en la nube (OGDI/DataLab) | SolidQ ...
 
archivodiapositiva_202261218025.pptx
archivodiapositiva_202261218025.pptxarchivodiapositiva_202261218025.pptx
archivodiapositiva_202261218025.pptx
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 

Último

Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaAlexander VA
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEmisor Digital
 
Ideas liberales en Chile.pptx2019historiadechile
Ideas liberales en Chile.pptx2019historiadechileIdeas liberales en Chile.pptx2019historiadechile
Ideas liberales en Chile.pptx2019historiadechilealcachofa6
 
Proyecto JANNET trabajo de investigación
Proyecto JANNET trabajo de investigaciónProyecto JANNET trabajo de investigación
Proyecto JANNET trabajo de investigaciónEduCE2
 
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023mmolina546
 
principios pedagógicos del modelo agazian
principios pedagógicos  del modelo agazianprincipios pedagógicos  del modelo agazian
principios pedagógicos del modelo agazianjoseph957764
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdfJC Díaz Herrera
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfJulioCesarRubianoArc1
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviHugoSSalinas
 
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERALCUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERALCarlosDelgadoMiranda
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...Daniela Márquez Sena
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfanaliticaydatos
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdfJC Díaz Herrera
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioAlexander VA
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.FeliGamarra1
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúDiegoFranciscoLarrea
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkJuanmanuelYapitamani
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahodalisnicoles
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomascarmenachullahuamani1
 
Diapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificoDiapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificojuancarlos63884
 

Último (20)

Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historia
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
Ideas liberales en Chile.pptx2019historiadechile
Ideas liberales en Chile.pptx2019historiadechileIdeas liberales en Chile.pptx2019historiadechile
Ideas liberales en Chile.pptx2019historiadechile
 
Proyecto JANNET trabajo de investigación
Proyecto JANNET trabajo de investigaciónProyecto JANNET trabajo de investigación
Proyecto JANNET trabajo de investigación
 
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
 
principios pedagógicos del modelo agazian
principios pedagógicos  del modelo agazianprincipios pedagógicos  del modelo agazian
principios pedagógicos del modelo agazian
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdf
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdf
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERALCUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomas
 
Diapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificoDiapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especifico
 

Proyecto de analisis de respaldo para base de datos del doctorado en ti

  • 1. Rodrigo Oliver Delgado Arcega INSTITUTO MEXICANO DE LA FORMACIÓN EJECUTIVA | Proyecto de análisis ALMACENAMIENTO DE DATOS
  • 2. Conceptos de almacenamiento de datos, realizar el siguiente proyecto: el diseño de una plataforma de afiliación en la nube para un partido político de nueva creación. Este proyecto te permitirá explorar y poner en práctica diversos aspectos del almacenamiento y gestión de datos, así como aprender sobre las tecnologías y herramientas utilizadas en entornos de análisis de datos en la actualidad. Definición de requisitos y alcance: Identifica los objetivos y requisitos de la plataforma de análisis de datos. ¿Cuál es el propósito principal de la plataforma? ¿Qué tipo de datos se analizarán? ¿Cuáles son las necesidades de almacenamiento y rendimiento? Selección de la tecnología de almacenamiento: Investiga y evalúa diferentes opciones de almacenamiento en la nube, como servicios de almacenamiento de objetos (por ejemplo, Amazon S3, Google Cloud Storage) o sistemas de almacenamiento distribuido (por ejemplo, Hadoop Distributed File System, Apache Cassandra). Considera aspectos como la escalabilidad, la durabilidad, el rendimiento y el costo. Diseño de la arquitectura de datos: Define la estructura y el modelo de datos necesarios para el análisis. Determina cómo se organizarán y almacenarán los datos en la plataforma, considerando aspectos como la partición, la indexación y la redundancia, etc. Monitoreo y mantenimiento: Realiza tareas de mantenimiento, como la limpieza de datos obsoletos o la optimización del rendimiento. Plan de copias de Seguridad: Define el plan que se llevara a cabo para realizar copias de seguridad de la información y cuanto espacio me va a ocupar en los servicios contratados.
  • 3. El propósito principal de la plataforma de afiliación en la nube es permitir la gestión eficiente de las afiliaciones de un partido político de nueva creación. Los datos que se analizarán incluyen información personal de los afiliados, como nombre, dirección, número de teléfono, fotografía personal y copia de la credencial para votar. Las necesidades de almacenamiento incluyen la capacidad de almacenar de forma segura los datos personales de los afiliados, así como la capacidad de realizar búsquedas y consultas eficientes sobre los registros de afiliación. Definición de requisitos y alcance: El propósito principal de la plataforma de afiliación en la nube para el partido político de nueva creación es gestionar el proceso de afiliación de personas interesadas en formar parte del partido. Los datos para analizar incluyen información personal como nombre, dirección, número de teléfono, fotografía personal y fotografía de la credencial para votar. Además, se desea tener la capacidad de visualizar y analizar estos registros en todo el territorio nacional. Selección de la tecnología de almacenamiento: Para el almacenamiento en la nube los datos de los afiliados, se puede considerar utilizar un servicio de almacenamiento de objetos como Amazon S3 o Google Cloud Storage, que ofrecen alta durabilidad y escalabilidad. Estos servicios ofrecen escalabilidad, durabilidad y un buen rendimiento para el almacenamiento de datos (ver Tabla 1 ). Tabla 1. Cuadro comparativo entre Amazon S3 y Google Cloud Storage. Aspecto Amazon S3 Almacenamiento en la Nube de Google Durabilidad Amazon S3 ofrece una durabilidad de objetos del 99.999999999% (11 9's), lo que significa que es altamente confiable para almacenar datos y garantizar su integridad a largo plazo Google Cloud Storage ofrece una durabilidad de objetos del 99.999999% (8 9's), lo que también proporciona una alta confiabilidad y garantiza que los datos se mantienen seguros. Escalabilidad Amazon S3 es altamente escalable y puede manejar cargas de trabajo de cualquier tamaño. Permite aumentar o disminuir la capacidad de almacenamiento según las necesidades del usuario. Google Cloud Storage también es altamente escalable y ofrece una escalabilidad automática para adaptarse a las demandas cambiantes de almacenamiento. Puede aumentar o disminuir la capacidad sin afectar el rendimiento.
  • 4. Disponibilidad Amazon S3 garantiza una alta disponibilidad y ofrece un SLA (Acuerdo de Nivel de Servicio) del 99,99% para la disponibilidad del servicio. Google Cloud Storage también garantiza una alta disponibilidad con un SLA del 99,95 % para el acceso a los datos. Costo El costo de Amazon S3 varía según la región, el almacenamiento utilizado y las solicitudes de API. Tiene opciones de precios flexibles, niveles incluidos de almacenamiento de acceso frecuente, almacenamiento de acceso infrecuente y almacenamiento de una zona. El costo de Google Cloud Storage también varía según la región, el almacenamiento utilizado y las solicitudes de API. Ofrece opciones de precios flexibles, como almacenamiento regional, almacenamiento multirregional y almacenamiento de archivo. Integración de otros servicios Amazon S3 se integra bien con otros servicios de Amazon Web Services (AWS), como EC2, Lambda, Redshift y otros. También es compatible con una amplia gama de herramientas y aplicaciones de terceros. Google Cloud Storage se integra de manera similar con otros servicios de Google Cloud Platform (GCP), como Compute Engine, BigQuery, Dataflow y otros. También es compatible con herramientas y aplicaciones de terceros Facilidad de uso Amazon S3 tiene una interfaz intuitiva y proporciona una fácil configuración y administración de los objetos y los permisos de acceso. Google Cloud Storage también tiene una interfaz amigable y permite una fácil configuración y administración de los objetos y los permisos. Otros servicios relacionados Amazon S3 ofrece servicios adicionales, como versionado de objetos, control de acceso a nivel de cubo, replicación entre regiones y análisis de datos con S3 Select y S3 Glacier. Google Cloud Storage ofrece servicios relacionados, como Cloud Storage Transfer Service, que facilita la migración de datos a Cloud Storage desde otros, y Cloud Storage for Firebase, que permite el almacenamiento de datos para aplicaciones web y móviles. Considerando los requisitos de almacenamiento y rendimiento, así como la escalabilidad y el costo, una opción adecuada para la plataforma de afiliación en la nube podría ser utilizada una combinación de servicios en la nube, como Amazon Web Services (AWS) y Google Cloud Platform ( PCG). De las dos opciones se escoge Amazon S3
  • 5. Diseño de la arquitectura de datos: En cuanto al diseño de la arquitectura de datos, se puede considerar el uso de una base de datos relacional para almacenar la información de afiliación, como PostgreSQL o MySQL. Estas bases de datos ofrecen características de división, indexación y redundancia para garantizar un acceso eficiente a los datos. La cantidad de espacio en datos requerido de manera estimativa de varios factores, como la cantidad de afiliados que se espera tener, el volumen de datos por afiliado y el tiempo de retención de los datos. Sin conocer estos detalles específicos, es difícil proporcionar una estimación precisa. Sin embargo, para dar una idea general, se puede considerar un cálculo aproximado basado en el tamaño promedio de los campos de datos que mencionaste: Teléfono: Un número de teléfono generalmente se almacena como una cadena de texto, que ocupa unos pocos bytes (por ejemplo, 15-20 bytes). Domicilio: dependiendo de la complejidad del domicilio (por ejemplo, si incluye campos como calle, número, ciudad, estado, código postal, etc.), se pueden estimar unos pocos kilobytes para almacenar esta información. Fotografía personal: El tamaño de una fotografía puede variar con dureza, pero en promedio, podemos considerar un rango de tamaño de archivo de 100 KB a varios megabytes. Copia de la credencial para votar: El tamaño de una copia de una credencial para votar también puede variar, pero en promedio, podemos considerar un rango similar al de la fotografía personal (100 KB a varios megabytes). Teniendo en cuenta estos rangos estimados, es recomendable realizar un análisis más detallado y calcular el tamaño real de los datos en función de la cantidad de afiliados y los volúmenes de datos esperados. S3 Standard: almacenamiento de propósito general para cualquier clase de datos que se utiliza generalmente para datos a los que se accede con frecuencia Primeros 50 TB/mes 0,023 USD por GB Siguientes 450 TB/mes 0,022 USD por GB Más de 500 TB/mes 0,021 USD por GB
  • 6. En cuanto al paquete de base de datos a utilizar, tanto PostgreSQL como MySQL son opciones populares y muy utilizadas. Ambas ofrecen características de división, indexación y redundancia que son adecuadas para garantizar un acceso eficiente a los datos. La elección entre PostgreSQL y MySQL llegó de otros factores, como las necesidades específicas del proyecto, la experiencia del equipo de desarrollo y las características adicionales que cada base de datos ofrece. Ambas son opciones sólidas y ampliamente utilizadas en la industria, por lo que es recomendable evaluar sus características y compararlas con los requisitos del proyecto antes de tomar una decisión final. Además, se puede utilizar un sistema de almacenamiento distribuido, como Apache Hadoop Distributed File System (HDFS) o Apache Cassandra, para almacenar grandes volúmenes de datos y garantizar la escalabilidad. Columna Descripción Tipo de dato Tamaño (bits) nombre_ciuadano Nombre del ciudadano varchar 8 n_ine Número del INE del ciudadano Long int 32 ciudad_cve Clave ciudad (catálogo de SEPOMEX) int 16 calle Nombre de la calle varchar 8 numero Numero de residencia del ciudadano int 16 colonia Colonia o fraccionamiento varchar 8 codigo_postal Código postal de la administración postal int 16 municipio Clave del municipio (INEGI) int 16 estado Clave entidad del INEGI int 16 ciudad Nombre de la ciudad (Catalogo SEPOMEX) Varchar 8 n_cel Numero de celular int 16 fotografia Fotografía del ciudadano string N_afiliacion Numero de afiliación al partido Long int 32
  • 7. Encuesta de salida ¿Qué mejorarías en tu ciudad? a) Suministro de agua potable. b) Seguridad pública. c) Vialidades. d) Recolección de la basura En esta encuesta, se requerirían respuestas de opción múltiple. Los tipos de datos necesarios serían: Respuesta seleccionada: Un tipo de dato que registra la opción seleccionada por el encuestado (a, b, cod). Esto puede ser representado como un personaje o una cadena de texto. Identificador único de encuestado: Si. Espacio estimado: Alrededor de 100 bytes para almacenar una respuesta breve. Almacenamiento gp2 de uso general, los volúmenes gp2 de uso general le permiten seleccionar una capacidad de almacenamiento de entre 20 GiB y 64 TiB con un rendimiento de almacenamiento de referencia de 3 IOPS por cada GiB. Los volúmenes de tamaño inferior a 1 TiB también tienen la capacidad de ampliarse hasta 3000 IOPS durante periodos largos de tiempo. Se le cobrará por el almacenamiento que aprovisione. Sin embargo, no se le cobrarán las operaciones de E/S que consuma. “Almacenamiento SSD de uso general (gp2): almacenamiento 0,115 USD por GB al mes” Monitoreo y mantenimiento: Es importante establecer un sistema de monitoreo para supervisar el rendimiento de la plataforma y realizar tareas de mantenimiento, como la limpieza de datos obsoletos y la optimización de consultas. Esto se puede lograr utilizando herramientas de monitoreo, como Prometheus o Nagios, para identificar posibles problemas y realizar los ajustes según sea necesario.
  • 8. OpenSearch-as-a-service: una plataforma SaaS nativa de la nube creada en torno a OpenSearch para centralizar sus registros, además de: • Visualización y filtros de búsqueda de OpenSearch Dashboards: busque sus datos con consultas rápidas y paneles de monitoreo en tiempo real • Alertas: activas notificaciones con alertas basadas en umbrales • AI/ML: resalta automáticamente los datos de solución de problemas críticos • Eliminar filtros: identifique y elimine fácilmente registros innecesarios para reducir costos • Niveles inteligentes: reduzca el costo de almacenamiento a medida que los datos envejecen, sin ningún impacto en el rendimiento de la búsqueda Plan de copias de seguridad: Para garantizar la seguridad de los datos, es fundamental implementar un plan de copias de seguridad. Esto puede implicar realizar copias periódicas de la base de datos y almacenarlas en un entorno seguro, como un servicio de almacenamiento en la nube con cifrado, como AWS S3 con cifrado de objetos o Google Cloud Storage con claves de cliente gestionadas. El espacio requerido para las copias de seguridad obtuvo el tamaño de la base de datos y la frecuencia de las copias. En resumen, para el diseño de una plataforma de afiliación en la nube para un partido político de nueva creación, se puede considerar el uso de servicios de almacenamiento en la nube, una combinación de bases de datos relacional y sistemas de almacenamiento distribuido, así como implementar un sistema de monitoreo y un plan de copias de seguridad adecuado. Copia de seguridad del sistema de archivos de Amazon EFS† 0,05 USD por GB al mes 0,01 USD por GB al mes El servicio de soporte se infraestructura y almacenamiento, así como respaldo empleando AWS, Amazon S3, da un costo promedio de almacenamiento en Amazon S3 de aproximadamente $0.023 por GB al mes, por la cantidad de usuarios (5000), multiplicado por el número de meses (12), serian 1,380 usd, dando un aproximado de 27,600 pesos mexicanos.