Hemos actualizado nuestra política de privacidad. Haga clic aquí para revisar los detalles. Pulse aquí para revisar los detalles
Active su período de prueba de 30 días gratis para desbloquear las lecturas ilimitadas.
Active su período de prueba de 30 días gratis para seguir leyendo.
Descargar para leer sin conexión
No matter if your data pipelines are handling real-time event-driven streams, near-real-time streams, or batch processing jobs. When you work with a massive amount of data made out of small files, specifically parquet, your system performance will degrade.
A small file is one that is significantly smaller than the storage block size. Yes, even with object stores such as Amazon S3, Azure Blob, etc., there is minimum block size. Having a significantly smaller object file can result in wasted space on the disk since the storage is optimized to support fast read and write for minimal block size.
To understand why this happens, you need first to understand how cloud storage works with the Apache Spark engine. In this session, you will learn about Parquet, the Storage API calls, how they work together, why small files are a problem, and how you can leverage DeltaLake for a more straightforward, cleaner solution.
No matter if your data pipelines are handling real-time event-driven streams, near-real-time streams, or batch processing jobs. When you work with a massive amount of data made out of small files, specifically parquet, your system performance will degrade.
A small file is one that is significantly smaller than the storage block size. Yes, even with object stores such as Amazon S3, Azure Blob, etc., there is minimum block size. Having a significantly smaller object file can result in wasted space on the disk since the storage is optimized to support fast read and write for minimal block size.
To understand why this happens, you need first to understand how cloud storage works with the Apache Spark engine. In this session, you will learn about Parquet, the Storage API calls, how they work together, why small files are a problem, and how you can leverage DeltaLake for a more straightforward, cleaner solution.
Parece que ya has recortado esta diapositiva en .
¡Acabas de recortar tu primera diapositiva!
Los recortes son una forma práctica de recopilar diapositivas importantes para volver a ellas más tarde. Ahora puedes personalizar el nombre de un tablero de recortes para guardar tus recortes.La familia SlideShare crece. Disfruta de acceso a millones de libros electrónicos, audiolibros, revistas y mucho más de Scribd.
Cancela en cualquier momento.Lecturas ilimitadas
Aprenda más rápido y de forma más inteligente con los mejores expertos
Descargas ilimitadas
Descárguelo para aprender sin necesidad de estar conectado y desde cualquier lugar
¡Además, tiene acceso gratis a Scribd!
Acceso instantáneo a millones de libros electrónicos, audiolibros, revistas, podcasts y mucho más.
Lea y escuche sin conexión desde cualquier dispositivo.
Acceso gratis a servicios prémium como TuneIn, Mubi y muchos más.
Hemos actualizado su política de privacidad para cumplir con las cambiantes normativas de privacidad internacionales y para ofrecerle información sobre las limitadas formas en las que utilizamos sus datos.
Puede leer los detalles a continuación. Al aceptar, usted acepta la política de privacidad actualizada.
¡Gracias!