Diapositivas de recolección de datos tema en especifico
Proyecto de analisis de respaldo para base de datos del doctorado en ti
1. Rodrigo Oliver Delgado Arcega
INSTITUTO MEXICANO DE LA FORMACIÓN EJECUTIVA |
Proyecto de análisis
ALMACENAMIENTO DE DATOS
2. Conceptos de almacenamiento de datos, realizar el siguiente proyecto: el diseño
de una plataforma de afiliación en la nube para un partido político de nueva creación.
Este proyecto te permitirá explorar y poner en práctica diversos aspectos del
almacenamiento y gestión de datos, así como aprender sobre las tecnologías y
herramientas utilizadas en entornos de análisis de datos en la actualidad.
Definición de requisitos y alcance:
Identifica los objetivos y requisitos de la plataforma de análisis de datos. ¿Cuál
es el propósito principal de la plataforma? ¿Qué tipo de datos se analizarán? ¿Cuáles
son las necesidades de almacenamiento y rendimiento?
Selección de la tecnología de almacenamiento:
Investiga y evalúa diferentes opciones de almacenamiento en la nube, como servicios
de almacenamiento de objetos (por ejemplo, Amazon S3, Google Cloud Storage) o
sistemas de almacenamiento distribuido (por ejemplo, Hadoop Distributed File System,
Apache Cassandra). Considera aspectos como la escalabilidad, la durabilidad, el
rendimiento y el costo.
Diseño de la arquitectura de datos:
Define la estructura y el modelo de datos necesarios para el análisis. Determina
cómo se organizarán y almacenarán los datos en la plataforma, considerando aspectos
como la partición, la indexación y la redundancia, etc.
Monitoreo y mantenimiento:
Realiza tareas de mantenimiento, como la limpieza de datos obsoletos o la
optimización del
rendimiento.
Plan de copias de Seguridad:
Define el plan que se llevara a cabo para realizar copias de seguridad de la información
y cuanto espacio me va a ocupar en los servicios contratados.
3. El propósito principal de la plataforma de afiliación en la nube es permitir la gestión eficiente
de las afiliaciones de un partido político de nueva creación. Los datos que se analizarán
incluyen información personal de los afiliados, como nombre, dirección, número de teléfono,
fotografía personal y copia de la credencial para votar.
Las necesidades de almacenamiento incluyen la capacidad de almacenar de forma
segura los datos personales de los afiliados, así como la capacidad de realizar búsquedas
y consultas eficientes sobre los registros de afiliación.
Definición de requisitos y alcance:
El propósito principal de la plataforma de afiliación en la nube para el partido político de
nueva creación es gestionar el proceso de afiliación de personas interesadas en formar
parte del partido. Los datos para analizar incluyen información personal como nombre,
dirección, número de teléfono, fotografía personal y fotografía de la credencial para votar.
Además, se desea tener la capacidad de visualizar y analizar estos registros en todo el
territorio nacional.
Selección de la tecnología de almacenamiento:
Para el almacenamiento en la nube los datos de los afiliados, se puede considerar utilizar
un servicio de almacenamiento de objetos como Amazon S3 o Google Cloud Storage, que
ofrecen alta durabilidad y escalabilidad. Estos servicios ofrecen escalabilidad, durabilidad
y un buen rendimiento para el almacenamiento de datos (ver Tabla 1 ).
Tabla 1. Cuadro comparativo entre Amazon S3 y Google Cloud Storage.
Aspecto Amazon S3
Almacenamiento en la Nube de
Google
Durabilidad
Amazon S3 ofrece una durabilidad
de objetos del 99.999999999%
(11 9's), lo que significa que es
altamente confiable para
almacenar datos y garantizar su
integridad a largo plazo
Google Cloud Storage ofrece una
durabilidad de objetos del
99.999999% (8 9's), lo que
también proporciona una alta
confiabilidad y garantiza que los
datos se mantienen seguros.
Escalabilidad
Amazon S3 es altamente
escalable y puede manejar cargas
de trabajo de cualquier tamaño.
Permite aumentar o disminuir la
capacidad de almacenamiento
según las necesidades del
usuario.
Google Cloud Storage también es
altamente escalable y ofrece una
escalabilidad automática para
adaptarse a las demandas
cambiantes de almacenamiento.
Puede aumentar o disminuir la
capacidad sin afectar el
rendimiento.
4. Disponibilidad
Amazon S3 garantiza una alta
disponibilidad y ofrece un SLA
(Acuerdo de Nivel de Servicio) del
99,99% para la disponibilidad del
servicio.
Google Cloud Storage también
garantiza una alta disponibilidad
con un SLA del 99,95 % para el
acceso a los datos.
Costo
El costo de Amazon S3 varía
según la región, el
almacenamiento utilizado y las
solicitudes de API. Tiene opciones
de precios flexibles, niveles
incluidos de almacenamiento de
acceso frecuente,
almacenamiento de acceso
infrecuente y almacenamiento de
una zona.
El costo de Google Cloud Storage
también varía según la región, el
almacenamiento utilizado y las
solicitudes de API. Ofrece
opciones de precios flexibles,
como almacenamiento regional,
almacenamiento multirregional y
almacenamiento de archivo.
Integración de otros servicios
Amazon S3 se integra bien con
otros servicios de Amazon Web
Services (AWS), como EC2,
Lambda, Redshift y otros.
También es compatible con una
amplia gama de herramientas y
aplicaciones de terceros.
Google Cloud Storage se integra
de manera similar con otros
servicios de Google Cloud
Platform (GCP), como Compute
Engine, BigQuery, Dataflow y
otros. También es compatible con
herramientas y aplicaciones de
terceros
Facilidad de uso
Amazon S3 tiene una interfaz
intuitiva y proporciona una fácil
configuración y administración de
los objetos y los permisos de
acceso.
Google Cloud Storage también
tiene una interfaz amigable y
permite una fácil configuración y
administración de los objetos y los
permisos.
Otros servicios relacionados
Amazon S3 ofrece servicios
adicionales, como versionado de
objetos, control de acceso a nivel
de cubo, replicación entre
regiones y análisis de datos con
S3 Select y S3 Glacier.
Google Cloud Storage ofrece
servicios relacionados, como
Cloud Storage Transfer Service,
que facilita la migración de datos a
Cloud Storage desde otros, y
Cloud Storage for Firebase, que
permite el almacenamiento de
datos para aplicaciones web y
móviles.
Considerando los requisitos de almacenamiento y rendimiento, así como la escalabilidad y
el costo, una opción adecuada para la plataforma de afiliación en la nube podría ser utilizada
una combinación de servicios en la nube, como Amazon Web Services (AWS) y Google
Cloud Platform ( PCG). De las dos opciones se escoge Amazon S3
5. Diseño de la arquitectura de datos:
En cuanto al diseño de la arquitectura de datos, se puede considerar el uso de una base de
datos relacional para almacenar la información de afiliación, como PostgreSQL o MySQL.
Estas bases de datos ofrecen características de división, indexación y redundancia para
garantizar un acceso eficiente a los datos.
La cantidad de espacio en datos requerido de manera estimativa de varios factores, como
la cantidad de afiliados que se espera tener, el volumen de datos por afiliado y el tiempo de
retención de los datos. Sin conocer estos detalles específicos, es difícil proporcionar una
estimación precisa.
Sin embargo, para dar una idea general, se puede considerar un cálculo aproximado
basado en el tamaño promedio de los campos de datos que mencionaste:
Teléfono: Un número de teléfono generalmente se almacena como una cadena de texto,
que ocupa unos pocos bytes (por ejemplo, 15-20 bytes).
Domicilio: dependiendo de la complejidad del domicilio (por ejemplo, si incluye campos
como calle, número, ciudad, estado, código postal, etc.), se pueden estimar unos pocos
kilobytes para almacenar esta información.
Fotografía personal: El tamaño de una fotografía puede variar con dureza, pero en
promedio, podemos considerar un rango de tamaño de archivo de 100 KB a varios
megabytes.
Copia de la credencial para votar: El tamaño de una copia de una credencial para votar
también puede variar, pero en promedio, podemos considerar un rango similar al de la
fotografía personal (100 KB a varios megabytes).
Teniendo en cuenta estos rangos estimados, es recomendable realizar un análisis más
detallado y calcular el tamaño real de los datos en función de la cantidad de afiliados y los
volúmenes de datos esperados.
S3 Standard: almacenamiento de propósito general para cualquier clase de datos que se
utiliza generalmente para datos a los que se accede con frecuencia
Primeros 50 TB/mes
0,023
USD por GB
Siguientes 450 TB/mes
0,022
USD por GB
Más de 500 TB/mes
0,021
USD por GB
6. En cuanto al paquete de base de datos a utilizar, tanto PostgreSQL como MySQL son
opciones populares y muy utilizadas. Ambas ofrecen características de división, indexación
y redundancia que son adecuadas para garantizar un acceso eficiente a los datos.
La elección entre PostgreSQL y MySQL llegó de otros factores, como las necesidades
específicas del proyecto, la experiencia del equipo de desarrollo y las características
adicionales que cada base de datos ofrece. Ambas son opciones sólidas y ampliamente
utilizadas en la industria, por lo que es recomendable evaluar sus características y
compararlas con los requisitos del proyecto antes de tomar una decisión final.
Además, se puede utilizar un sistema de almacenamiento distribuido, como Apache Hadoop
Distributed File System (HDFS) o Apache Cassandra, para almacenar grandes volúmenes
de datos y garantizar la escalabilidad.
Columna Descripción Tipo de dato Tamaño (bits)
nombre_ciuadano Nombre del ciudadano varchar 8
n_ine Número del INE del
ciudadano
Long int 32
ciudad_cve Clave ciudad (catálogo de
SEPOMEX)
int 16
calle Nombre de la calle varchar 8
numero Numero de residencia del
ciudadano
int 16
colonia Colonia o fraccionamiento varchar 8
codigo_postal Código postal de la
administración postal
int 16
municipio Clave del municipio (INEGI) int 16
estado Clave entidad del INEGI int 16
ciudad Nombre de la ciudad
(Catalogo SEPOMEX)
Varchar 8
n_cel Numero de celular int 16
fotografia Fotografía del ciudadano string
N_afiliacion Numero de afiliación al
partido
Long int 32
7. Encuesta de salida
¿Qué mejorarías en tu ciudad?
a) Suministro de agua potable.
b) Seguridad pública.
c) Vialidades.
d) Recolección de la basura
En esta encuesta, se requerirían respuestas de opción múltiple. Los tipos de datos
necesarios serían:
Respuesta seleccionada: Un tipo de dato que registra la opción seleccionada por el
encuestado (a, b, cod). Esto puede ser representado como un personaje o una cadena de
texto. Identificador único de encuestado: Si.
Espacio estimado: Alrededor de 100 bytes para almacenar una respuesta breve.
Almacenamiento gp2 de uso general, los volúmenes gp2 de uso general le permiten
seleccionar una capacidad de almacenamiento de entre 20 GiB y 64 TiB con un rendimiento
de almacenamiento de referencia de 3 IOPS por cada GiB. Los volúmenes de tamaño
inferior a 1 TiB también tienen la capacidad de ampliarse hasta 3000 IOPS durante periodos
largos de tiempo. Se le cobrará por el almacenamiento que aprovisione. Sin embargo, no
se le cobrarán las operaciones de E/S que consuma.
“Almacenamiento SSD de uso general (gp2): almacenamiento 0,115 USD por GB al mes”
Monitoreo y mantenimiento:
Es importante establecer un sistema de monitoreo para supervisar el rendimiento de la
plataforma y realizar tareas de mantenimiento, como la limpieza de datos obsoletos y la
optimización de consultas. Esto se puede lograr utilizando herramientas de monitoreo,
como Prometheus o Nagios, para identificar posibles problemas y realizar los ajustes según
sea necesario.
8. OpenSearch-as-a-service: una plataforma SaaS nativa de la nube creada en torno a
OpenSearch para centralizar sus registros, además de:
• Visualización y filtros de búsqueda de OpenSearch Dashboards: busque sus
datos con consultas rápidas y paneles de monitoreo en tiempo real
• Alertas: activas notificaciones con alertas basadas en umbrales
• AI/ML: resalta automáticamente los datos de solución de problemas críticos
• Eliminar filtros: identifique y elimine fácilmente registros innecesarios para reducir
costos
• Niveles inteligentes: reduzca el costo de almacenamiento a medida que los datos
envejecen, sin ningún impacto en el rendimiento de la búsqueda
Plan de copias de seguridad:
Para garantizar la seguridad de los datos, es fundamental implementar un plan de copias
de seguridad. Esto puede implicar realizar copias periódicas de la base de datos y
almacenarlas en un entorno seguro, como un servicio de almacenamiento en la nube con
cifrado, como AWS S3 con cifrado de objetos o Google Cloud Storage con claves de cliente
gestionadas. El espacio requerido para las copias de seguridad obtuvo el tamaño de la base
de datos y la frecuencia de las copias.
En resumen, para el diseño de una plataforma de afiliación en la nube para un partido
político de nueva creación, se puede considerar el uso de servicios de almacenamiento en
la nube, una combinación de bases de datos relacional y sistemas de almacenamiento
distribuido, así como implementar un sistema de monitoreo y un plan de copias de seguridad
adecuado.
Copia de seguridad del sistema de archivos de
Amazon EFS†
0,05 USD por GB al
mes
0,01 USD por GB al
mes
El servicio de soporte se infraestructura y almacenamiento, así como respaldo empleando
AWS, Amazon S3, da un costo promedio de almacenamiento en Amazon S3 de
aproximadamente $0.023 por GB al mes, por la cantidad de usuarios (5000), multiplicado
por el número de meses (12), serian 1,380 usd, dando un aproximado de 27,600 pesos
mexicanos.