El documento describe las tecnologías de base de datos utilizadas por varias grandes empresas de tecnología como Facebook, Twitter, YouTube, Google y Uber. Explica que Facebook usa MySQL para almacenar datos estructurados y sistemas como Haystack y Varnish para almacenamiento de objetos e imágenes y acelerar el rendimiento. Twitter también usa MySQL y el sistema NoSQL Cassandra, mientras que YouTube emplea MySQL y Apache para almacenar videos. Google utiliza BigTable para grandes volúmenes de datos y su propio sistema de archivos distribuido. Por
2. SGBD Y TECNOLOGIA QUE UTILIZA FACEBOOK
A través de MySQL, Facebook gestiona el
almacenamiento de datos estructurados como
publicaciones de muros, información de
usuarios, biografías, etc. y los reproduce por las
diferentes localizaciones geográficas de sus
centros de bases de datos.
MySQL
Para solucionar el problema que supone
acceder a los datos almacenados sin poner
el peligro la velocidad del portal y optimizar
el tráfico de entrada y salida
Haystack
Es un sistema de almacenamiento de objetos, forjado para
cumplir con las necesidades de la red social, que almacena
imágenes en protocolos http.
Varnish
Es un acelerador de aplicaciones web cuya función, al igual
que Memcached, es almacenar en el caché datos para
aumentar la velocidad a la que el usuario accede a la
información
Memcached
3. SGBD Y TECNOLOGIA QUE UTILIZA TWITTER
Veamos los números de las bases de datos MySQL de
Twitter:
•Más de 140 millones de usuarios activos
•4629 tweets por segundo (llegan a 25,000 en horas pico)
•3 millones de registros generados por día
•400 millones de tweets por día, replicados 4 veces.
MySQL
Es una base de datos NoSQL distribuida y
basada en un modelo de almacenamiento
de «clave-valor», de código abierto que
está escrita en Java.
Permite grandes volúmenes de datos en
forma distribuida
Apache Cassandra
Ruby on Rails
Trata de combinar la simplicidad con la
posibilidad de desarrollar aplicaciones
del mundo real escribiendo menos
código que con otros frameworks y con
un mínimo de configuración
4. SGBD Y TECNOLOGIA QUE UTILIZA TWITTER
Apache en una versión mas rápida conocida
como “Lighttpd”.
Está optimizado para entornos donde la
velocidad es muy importante, y por eso
consume menos CPU y memoria RAM que otros
servidores.
Lighttpd es software libre y se distribuye bajo la
licencia BSD. Funciona en GNU/Linux y UNIX de
forma oficial.
Content ID
Los propietarios de derechos de autor pueden
usar un sistema llamado Content ID para
identificar y administrar fácilmente su contenido
en YouTube. Los videos subidos a YouTube se
analizan y cotejan con una base de datos de
archivos que nos han enviado los propietarios de
contenido
YouTube-8MMySQL y Apache
una gigantesca base de datos con 8 millones de URL
de vídeo de YouTube. En total más de medio millón
de horas de vídeo clasificados en 4800 etiquetas
distintas. Con esto podemos clasificar los vídeos y
mirar la magnitud de cada una de las categorías.
5. SGBD Y TECNOLOGIA QUE UTILIZA GOOGLE
BigTable
Cloud Bigtable es el servicio de base de datos de Big
Data NoSQL de Google. Se trata de la misma base de
datos que utilizan muchos de los principales servicios de
Google, como la Búsqueda, Analytics, Maps y Gmail.
Bigtable está diseñado para administrar cargas de
trabajo colosales con baja latencia y alto rendimiento
uniformes, así que es la elección ideal para aplicaciones
analíticas y operacionales.
Es un sistema de archivos
distribuido propietario desarrollado
por Google Inc, que soporta toda su
infraestructura informática de
procesamiento de información en nube.
Google File System
Está especialmente diseñado para
proveer eficiencia, fiabilidad de acceso
a datos usando sistemas masivos de
cluster de procesamiento en paralelo
6. SGBD Y TECNOLOGIA QUE UTILIZA UBER
Es un sistema de gestión de bases de
datos relacional orientado a
objetos y libre, publicado bajo la licencia
PostgreSQL.
Ventajas:
-Integridad en BD: restricciones en el
dominio
-Integridad referencial
-Afirmaciones (Assertions)
-Disparadores (Triggers)
-Autorizaciones
-Conexión a DBMS
-Transacciones y respaldos
MySQL (Schemaless)PostgreSQL
ANTES DESPUES
Es un mapa de hash persistente tridimensional
disperso y escaso, muy similar al Bigtable de
Google . La entidad de datos más pequeña en
Schemaless se llama célula y es inmutable; una vez
escrito, no puede ser sobrescrito o eliminado
Ventajas:
- Eficiente modelo de datos de viaje
- Capacidad de recibir notificaciones a una
distancia Schemaless
- Índices de fácil acceso