Las áreas de HPC y Big Data (BD) han seguido distintas trayectorias, debido a la existencia de dos comunidades divergentes y los diferentes objetivos perseguidos por ambas. Sin embargo, en los últimos años ha existido un cambio en las aplicaciones tanto HPC como BD. Por un lado, las aplicaciones HPC
utilizan un cada vez más alto volumen de datos, requiriendo en un gran número de ocasiones la capacidad de visualizar y analizar dichos datos. Por su parte, las aplicaciones BD necesitan mayor capacidad computacional, debido a unos retos más ambiciosos y la combinación del análisis de datos con procesos de simulación.
La existencia del denominado Extreme Data Analytics crea la necesidad de combinar soluciones orientadas tanto a mejorar el acceso y tratamiento de los datos como la computación. A nivel de almacenamiento, hemos llevado a
cabo un trabajo que trata dicha convergencia. Esto puede constituir un primer paso que podría extenderse a otras características de los sistemas de computación, y por tanto, lograr la anhelada convergencia entre HPC y BD.
La propuesta analiza tres tecnologías de almacenamiento de información (SAN, NAS y DAS) para resolver los problemas de una empresa ganadera (GPM) que necesita compartir información de animales entre sus diferentes sucursales de forma más eficiente. Se propone adquirir un equipo NAS por $30,000 dólares, el cual permitirá que las sucursales accedan y revisen los documentos de control de animales de forma remota sin necesidad de ir a la oficina principal, ahorrando tiempo y costos de viaje.
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades como ver videos explicativos, realizar ejercicios prácticos de creación de bases de datos, y elaborar una base de datos para una biblioteca. El objetivo es que los aprendices adquieran conocimientos sobre conceptos básicos de bases de datos, su estructura y funcionalidad en Access.
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben construir una base de datos completa para la biblioteca de una institución educativa. El objetivo es que los aprendices adquieran conocimientos básicos sobre el uso de herramientas de bases de datos como tablas, formularios, informes y consultas.
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
La propuesta analiza tres tecnologías de almacenamiento de información (SAN, NAS y DAS) para resolver los problemas de una empresa ganadera (GPM) que necesita compartir información de animales entre sus diferentes sucursales de forma más eficiente. Se propone adquirir un equipo NAS por $30,000 dólares, el cual permitirá que las sucursales accedan y revisen los documentos de control de animales de forma remota sin necesidad de ir a la oficina principal, ahorrando tiempo y costos de viaje.
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades como ver videos explicativos, realizar ejercicios prácticos de creación de bases de datos, y elaborar una base de datos para una biblioteca. El objetivo es que los aprendices adquieran conocimientos sobre conceptos básicos de bases de datos, su estructura y funcionalidad en Access.
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben construir una base de datos completa para la biblioteca de una institución educativa. El objetivo es que los aprendices adquieran conocimientos básicos sobre el uso de herramientas de bases de datos como tablas, formularios, informes y consultas.
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta información sobre bases de datos. Incluye preguntas sobre la definición de una base de datos, ejemplos de su implementación, elementos que las componen, la función de un motor de base de datos, la importancia de los sistemas de base de datos, programas para crear y administrar bases de datos, y la definición de un SGBD. También incluye respuestas a las preguntas planteadas sobre estos temas.
Este documento presenta preguntas sobre bases de datos. Proporciona ejemplos de cómo se pueden implementar bases de datos en diferentes contextos como un centro de estudios, una colección de música y un hospital. También describe los elementos que componen una base de datos como tablas, consultas, formularios e informes. Explica el propósito de un motor de base de datos y algunos programas populares para crear y administrar bases de datos como SQL Server, MySQL, Access y Oracle.
Este documento describe el sistema CaMPI, un software libre y de código abierto para la automatización de bibliotecas. Se basa en la integración de tres proyectos existentes - Catalis para catalogación, OpacMarc para el catálogo público, y Open MarcoPolo para circulación y estadísticas. El objetivo es consolidar una comunidad de desarrollo y usuarios alrededor de este sistema. Se detallan sus características, metas, implementación, calidad, reuniones, difusión y guía de instalación.
Este documento presenta los conceptos básicos de las bases de datos orientadas a objetos. Explica que una base de datos almacena y organiza datos de manera que puedan manipularse y mostrarse fácilmente. Luego describe las características mandatorias y opcionales de un modelo de datos orientado a objetos, como tener un sistema de gestión de base de datos orientado a objetos. Finalmente, analiza las ventajas, como la manipulación eficiente de datos complejos, y desventajas, como la inmadurez del mercado, de los sistemas de base
El documento habla sobre las formas en que los centros de datos pueden reducir sus emisiones de CO2. Algunas estrategias incluyen apagar equipos que no se están utilizando, reducir el hardware innecesario, reubicar los centros de datos cerca de fuentes de energía renovables, y usar software para mejorar la eficiencia energética. Microsoft y otras compañías están midiendo el consumo de energía y las emisiones de cada aplicación para encontrar formas adicionales de reducir el impacto ambiental de los centros de datos.
La computación en la nube ofrece ventajas potenciales para las instituciones de educación superior, como la reducción de costos de TI, la flexibilidad y escalabilidad. Sin embargo, también plantea desafíos en términos de seguridad, privacidad e interoperabilidad. El documento recomienda que las universidades evalúen cuidadosamente los modelos de implementación de nube pública o privada para lograr una adopción segura y rentable que minimice los riesgos.
La computación en la nube ofrece ventajas potenciales para las instituciones de educación superior, como la reducción de costos y una mayor flexibilidad y escalabilidad. Sin embargo, también conlleva riesgos como problemas de seguridad, privacidad e interoperabilidad. El documento recomienda que las universidades consideren implementar modelos híbridos de nube privada y pública para maximizar las ventajas y minimizar los riesgos asociados con la adopción de la computación en la nube.
La computación en la nube ofrece ventajas potenciales para las instituciones de educación superior, como la reducción de costos y una mayor flexibilidad y escalabilidad. Sin embargo, también conlleva riesgos como problemas de seguridad, privacidad e interoperabilidad. El documento recomienda que las universidades consideren implementar modelos híbridos de nube privada y pública para maximizar las ventajas y minimizar los riesgos asociados con la adopción de la computación en la nube.
La computación en la nube ofrece ventajas potenciales para las instituciones de educación superior, como la reducción de costos y una mayor flexibilidad y escalabilidad. Sin embargo, también conlleva riesgos como problemas de seguridad, privacidad e interoperabilidad. El documento recomienda que las universidades consideren implementar modelos híbridos de nube privada y pública para maximizar las ventajas y minimizar los riesgos asociados con la adopción de la computación en la nube.
Este documento proporciona información sobre redes de computadoras. Explica que una red es un conjunto de equipos informáticos conectados entre sí a través de dispositivos físicos que envían y reciben impulsos eléctricos. Las redes permiten compartir recursos como archivos e impresoras entre los dispositivos conectados. También describen los componentes, beneficios y características de las redes.
FORMATO SYLLABUS TALLER DE REDES-01-2023.docRodrigo Amaya
Este documento presenta el syllabus de un curso de Taller de Redes. El syllabus describe los objetivos generales y específicos del curso, los créditos académicos, el plan de formación, la organización de las clases, la guía de trabajo para los estudiantes y la evaluación. El curso cubre temas como introducción a redes de computadoras, modelos de referencia, capas de red, direccionamiento IP, Ethernet, seguridad en redes y proyecto final.
Taller base de datos paula andrea rojas fonseca 11paulitarojas
Este documento presenta los conceptos básicos de las bases de datos, incluyendo su definición, tipos según la variabilidad y contenido, características como datos relacionados e integrados, ventajas como almacenar grandes volúmenes de datos de manera eficiente y compartida, y desventajas como requerir personal calificado y equipo costoso. Explica el problema de redundancia mediante un diagrama y define términos clave como campo, registro, fichero y carpeta.
El documento habla sobre el almacenamiento en la nube. Explica que es un modelo de almacenamiento de datos basado en redes donde los datos están alojados en espacios de almacenamiento virtualizados por terceros. Describe algunos tipos de almacenamiento como disquetes, CD-RW y memoria ROM. También menciona algunos beneficios como la disponibilidad de los datos y la independencia de la geografía, así como algunas desventajas como problemas de seguridad y rendimiento.
El documento habla sobre el almacenamiento en la nube. Explica que es un modelo de almacenamiento de datos basado en redes donde los datos están alojados en espacios de almacenamiento virtualizados por terceros. Describe algunos tipos de almacenamiento como la memoria ROM, disquetes, CD-RW y los beneficios de almacenar datos en la nube como la accesibilidad de la información desde cualquier lugar. También menciona algunas desventajas como preocupaciones sobre la seguridad y privacidad de los datos.
Seminario UADY / FMAT. Marzo 2014. Presentar temas relacionados al cómputo en la nube y desde el punto de vista académico, tanto actuales como retos y oportunidades de investigación a futuro.
La computación en la nube permite el acceso a recursos informáticos como almacenamiento, servidores y aplicaciones de forma elástica y a pedido a través de Internet. Hadoop es una plataforma distribuida que permite el análisis de grandes volúmenes de datos almacenados en la nube. S4 es una plataforma para procesar continuamente flujos infinitos de datos usando técnicas de computación distribuida.
La computación en nube es un modelo que permite, acceso ubicuo conveniente, a pedido de red a una compartida conjunto de recursos informáticos configurables (por ejemplo, redes, servidores, almacenamiento, aplicaciones y servicios) que se pueden aprovisionar rápidamente y puesto en libertad con mínimo esfuerzo de gestión o interacción proveedor de servicios. Este modelo de nube se compone de cinco características esenciales, tres modelos de servicio, y cuatro de despliegue modelos. Características esenciales: En la demanda de autoservicio.
Asistente para crear tablas paso a paso.
Diseño: Permite crear la tabla directamente.
3. Selecciona la opción Diseño.
4. En el cuadro Nombre de la tabla escribe: CLIENTES
5. En el cuadro Descripción de la tabla escribe: Datos de los clientes.
6. Pulsa el botón Crear.
7. Aparecerá la nueva tabla CLIENTES en blanco, lista para definir sus
campos.
8. Cierra la tabla CLIENTES.
9. Guarda la base de datos.
"El álgebra lineal es una herramienta fundamental en muchos campos de la ciencia y la tecnología. Es particularmente importante en la física, la ingeniería, la informática y la estadística. La capacidad de manipular eficientemente grandes cantidades de datos y matrices complejas es esencial en estas áreas para la resolución de problemas y la toma de decisiones.
A priori, puede dar la sensación de que estamos muy lejos del uso del álgebra lineal en nuestro día a día. Sin embargo, algunas técnicas como la descomposición en valores singulares y la regresión lineal para entrenar modelos y hacer predicciones precisas están detrás de la inteligencia artificial y el aprendizaje automático. ¿Te suena ChatGPT? Puede no parecerlo, pero el álgebra lineal también está detrás en algunos de sus procesos. Por este motivo, debemos seguir trabajando en este campo, ya que su importancia seguirá creciendo a medida que se generen y analicen grandes cantidades de datos en el mundo actual.
"
La pandemia de COVID-19 ha supuesto una proliferación de mapas y contramapas. Por ello, organizaciones de la sociedad civil y movimientos sociales han generado sus propias interpretaciones y representaciones de los datos sobre la crisis. Estos también han contribuido a visibilizar aspectos, sujetos y temas que han sido desatendidos o infrarrepresentados en las visualizaciones hegemónicas y dominantes. En este contexto, la presente ponencia se centra en el análisis de los imaginarios sociales relacionados con la elaboración de mapas durante la pandemia. Es decir, trata de indagar en la importancia de los mapas para el activismo digital, las potencialidades que se extraen de esta tecnología y los valores asociados a las visualizaciones creadas con ellos. El objetivo último es reflexionar sobre la vía emergente del activismo de datos, así como sobre la intersección entre los imaginarios sociales y la geografía digital.
Más contenido relacionado
Similar a ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S
Este documento presenta una guía de aprendizaje sobre bases de datos relacionales utilizando Microsoft Access. La guía incluye actividades prácticas como la creación de bases de datos de un sistema de notas escolares y de un almacén, así como una evaluación final donde los aprendices deben crear la base de datos de la biblioteca de su institución educativa aplicando los conocimientos adquiridos. El objetivo es que los aprendices dominen conceptos básicos de bases de datos y puedan aplicar herramientas como tablas, formularios, informes y
Este documento presenta información sobre bases de datos. Incluye preguntas sobre la definición de una base de datos, ejemplos de su implementación, elementos que las componen, la función de un motor de base de datos, la importancia de los sistemas de base de datos, programas para crear y administrar bases de datos, y la definición de un SGBD. También incluye respuestas a las preguntas planteadas sobre estos temas.
Este documento presenta preguntas sobre bases de datos. Proporciona ejemplos de cómo se pueden implementar bases de datos en diferentes contextos como un centro de estudios, una colección de música y un hospital. También describe los elementos que componen una base de datos como tablas, consultas, formularios e informes. Explica el propósito de un motor de base de datos y algunos programas populares para crear y administrar bases de datos como SQL Server, MySQL, Access y Oracle.
Este documento describe el sistema CaMPI, un software libre y de código abierto para la automatización de bibliotecas. Se basa en la integración de tres proyectos existentes - Catalis para catalogación, OpacMarc para el catálogo público, y Open MarcoPolo para circulación y estadísticas. El objetivo es consolidar una comunidad de desarrollo y usuarios alrededor de este sistema. Se detallan sus características, metas, implementación, calidad, reuniones, difusión y guía de instalación.
Este documento presenta los conceptos básicos de las bases de datos orientadas a objetos. Explica que una base de datos almacena y organiza datos de manera que puedan manipularse y mostrarse fácilmente. Luego describe las características mandatorias y opcionales de un modelo de datos orientado a objetos, como tener un sistema de gestión de base de datos orientado a objetos. Finalmente, analiza las ventajas, como la manipulación eficiente de datos complejos, y desventajas, como la inmadurez del mercado, de los sistemas de base
El documento habla sobre las formas en que los centros de datos pueden reducir sus emisiones de CO2. Algunas estrategias incluyen apagar equipos que no se están utilizando, reducir el hardware innecesario, reubicar los centros de datos cerca de fuentes de energía renovables, y usar software para mejorar la eficiencia energética. Microsoft y otras compañías están midiendo el consumo de energía y las emisiones de cada aplicación para encontrar formas adicionales de reducir el impacto ambiental de los centros de datos.
La computación en la nube ofrece ventajas potenciales para las instituciones de educación superior, como la reducción de costos de TI, la flexibilidad y escalabilidad. Sin embargo, también plantea desafíos en términos de seguridad, privacidad e interoperabilidad. El documento recomienda que las universidades evalúen cuidadosamente los modelos de implementación de nube pública o privada para lograr una adopción segura y rentable que minimice los riesgos.
La computación en la nube ofrece ventajas potenciales para las instituciones de educación superior, como la reducción de costos y una mayor flexibilidad y escalabilidad. Sin embargo, también conlleva riesgos como problemas de seguridad, privacidad e interoperabilidad. El documento recomienda que las universidades consideren implementar modelos híbridos de nube privada y pública para maximizar las ventajas y minimizar los riesgos asociados con la adopción de la computación en la nube.
La computación en la nube ofrece ventajas potenciales para las instituciones de educación superior, como la reducción de costos y una mayor flexibilidad y escalabilidad. Sin embargo, también conlleva riesgos como problemas de seguridad, privacidad e interoperabilidad. El documento recomienda que las universidades consideren implementar modelos híbridos de nube privada y pública para maximizar las ventajas y minimizar los riesgos asociados con la adopción de la computación en la nube.
La computación en la nube ofrece ventajas potenciales para las instituciones de educación superior, como la reducción de costos y una mayor flexibilidad y escalabilidad. Sin embargo, también conlleva riesgos como problemas de seguridad, privacidad e interoperabilidad. El documento recomienda que las universidades consideren implementar modelos híbridos de nube privada y pública para maximizar las ventajas y minimizar los riesgos asociados con la adopción de la computación en la nube.
Este documento proporciona información sobre redes de computadoras. Explica que una red es un conjunto de equipos informáticos conectados entre sí a través de dispositivos físicos que envían y reciben impulsos eléctricos. Las redes permiten compartir recursos como archivos e impresoras entre los dispositivos conectados. También describen los componentes, beneficios y características de las redes.
FORMATO SYLLABUS TALLER DE REDES-01-2023.docRodrigo Amaya
Este documento presenta el syllabus de un curso de Taller de Redes. El syllabus describe los objetivos generales y específicos del curso, los créditos académicos, el plan de formación, la organización de las clases, la guía de trabajo para los estudiantes y la evaluación. El curso cubre temas como introducción a redes de computadoras, modelos de referencia, capas de red, direccionamiento IP, Ethernet, seguridad en redes y proyecto final.
Taller base de datos paula andrea rojas fonseca 11paulitarojas
Este documento presenta los conceptos básicos de las bases de datos, incluyendo su definición, tipos según la variabilidad y contenido, características como datos relacionados e integrados, ventajas como almacenar grandes volúmenes de datos de manera eficiente y compartida, y desventajas como requerir personal calificado y equipo costoso. Explica el problema de redundancia mediante un diagrama y define términos clave como campo, registro, fichero y carpeta.
El documento habla sobre el almacenamiento en la nube. Explica que es un modelo de almacenamiento de datos basado en redes donde los datos están alojados en espacios de almacenamiento virtualizados por terceros. Describe algunos tipos de almacenamiento como disquetes, CD-RW y memoria ROM. También menciona algunos beneficios como la disponibilidad de los datos y la independencia de la geografía, así como algunas desventajas como problemas de seguridad y rendimiento.
El documento habla sobre el almacenamiento en la nube. Explica que es un modelo de almacenamiento de datos basado en redes donde los datos están alojados en espacios de almacenamiento virtualizados por terceros. Describe algunos tipos de almacenamiento como la memoria ROM, disquetes, CD-RW y los beneficios de almacenar datos en la nube como la accesibilidad de la información desde cualquier lugar. También menciona algunas desventajas como preocupaciones sobre la seguridad y privacidad de los datos.
Seminario UADY / FMAT. Marzo 2014. Presentar temas relacionados al cómputo en la nube y desde el punto de vista académico, tanto actuales como retos y oportunidades de investigación a futuro.
La computación en la nube permite el acceso a recursos informáticos como almacenamiento, servidores y aplicaciones de forma elástica y a pedido a través de Internet. Hadoop es una plataforma distribuida que permite el análisis de grandes volúmenes de datos almacenados en la nube. S4 es una plataforma para procesar continuamente flujos infinitos de datos usando técnicas de computación distribuida.
La computación en nube es un modelo que permite, acceso ubicuo conveniente, a pedido de red a una compartida conjunto de recursos informáticos configurables (por ejemplo, redes, servidores, almacenamiento, aplicaciones y servicios) que se pueden aprovisionar rápidamente y puesto en libertad con mínimo esfuerzo de gestión o interacción proveedor de servicios. Este modelo de nube se compone de cinco características esenciales, tres modelos de servicio, y cuatro de despliegue modelos. Características esenciales: En la demanda de autoservicio.
Asistente para crear tablas paso a paso.
Diseño: Permite crear la tabla directamente.
3. Selecciona la opción Diseño.
4. En el cuadro Nombre de la tabla escribe: CLIENTES
5. En el cuadro Descripción de la tabla escribe: Datos de los clientes.
6. Pulsa el botón Crear.
7. Aparecerá la nueva tabla CLIENTES en blanco, lista para definir sus
campos.
8. Cierra la tabla CLIENTES.
9. Guarda la base de datos.
Similar a ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S (20)
"El álgebra lineal es una herramienta fundamental en muchos campos de la ciencia y la tecnología. Es particularmente importante en la física, la ingeniería, la informática y la estadística. La capacidad de manipular eficientemente grandes cantidades de datos y matrices complejas es esencial en estas áreas para la resolución de problemas y la toma de decisiones.
A priori, puede dar la sensación de que estamos muy lejos del uso del álgebra lineal en nuestro día a día. Sin embargo, algunas técnicas como la descomposición en valores singulares y la regresión lineal para entrenar modelos y hacer predicciones precisas están detrás de la inteligencia artificial y el aprendizaje automático. ¿Te suena ChatGPT? Puede no parecerlo, pero el álgebra lineal también está detrás en algunos de sus procesos. Por este motivo, debemos seguir trabajando en este campo, ya que su importancia seguirá creciendo a medida que se generen y analicen grandes cantidades de datos en el mundo actual.
"
La pandemia de COVID-19 ha supuesto una proliferación de mapas y contramapas. Por ello, organizaciones de la sociedad civil y movimientos sociales han generado sus propias interpretaciones y representaciones de los datos sobre la crisis. Estos también han contribuido a visibilizar aspectos, sujetos y temas que han sido desatendidos o infrarrepresentados en las visualizaciones hegemónicas y dominantes. En este contexto, la presente ponencia se centra en el análisis de los imaginarios sociales relacionados con la elaboración de mapas durante la pandemia. Es decir, trata de indagar en la importancia de los mapas para el activismo digital, las potencialidades que se extraen de esta tecnología y los valores asociados a las visualizaciones creadas con ellos. El objetivo último es reflexionar sobre la vía emergente del activismo de datos, así como sobre la intersección entre los imaginarios sociales y la geografía digital.
Designing RISC-V-based Accelerators for next generation Computers (DRAC) is a 3-year project (2019-2022) funded by the ERDF Operational Program of Catalonia 2014-2020. DRAC will design, verify, implement and fabricate a high performance general purpose processor that will incorporate different accelerators based on the RISC-V technology, with specific applications in the field of post-quantum security, genomics and autonomous navigation. In this talk, we will provide an overview of the main achievements in the DRAC project, including the fabrication of Lagarto, the first RISC-V processor developed in Spain.
This talk will begin introducing the uElectronics section of ESA at ESTEC and the general activities the group is responsible for. Then, it will go through some of the R+D on-going activities that the group is involved with, hand in hand with universities and/or companies. One of the major ones is related to the European rad-hard FPGAs that have been partially founded by ESA for several years and that will be playing a major role in the sector in the upcoming years. It´s also worth talking about the RTL soft IPs that are currently under development and that will allow us to keep on providing the European ecosystem with some key capabilities. The latter will be an overview of RISC-V space hardened on-going activities that might be replacing the current SPARC based processors available for our missions.
El objetivo de esta charla es presentar las últimas novedades incorporadas en la arquitectura ARM y describir las tendencias en la microarquitectura de los procesadores con arquitectura ARM. ARM es una empresa relativamente pequeña en comparación con otros gigantes del sector tecnológico. Sin embargo, la amplia implantación de su arquitectura, siendo ampliamente dominante en algunos sectores, y sus microarquitecturas, hacen que la tecnología ARM ocupe un lugar central en el desarrollo tecnológico del mundo actual. La tecnología ARM está presente prácticamente en todo el espectro tecnológico, desde los dispositivos más sencillos hasta el HPC y Cloud computing, pasando por los smartphones, automoción electrónica de consumo, etc
"Formal verification has been used by computer scientists for decades to prevent
software bugs. However, with a few exceptions, it has not been used by researchers
working in most areas of mathematics (geometry, algebra, analysis, etc.). In this
talk, we will discuss how this has changed in the past few years, and the possible
implications to the future of mathematical research, teaching and communication.
We will focus on the theorem prover Lean and its mathematical library
mathlib, since this is currently the system most widely used by mathematicians.
Lean is a functional programming language and interactive theorem prover based
on dependent type theory, with proof irrelevance and non-cumulative universes.
The mathlib library, open-source and designed as a basis for research level
mathematics, is one of the largest collections of formalized mathematics. It allows
classical reasoning, uses large- and small-scale automation, and is characterized
by its decentralized nature with over 200 contributors, including both computer
scientists and mathematicians."
"Part of the research community thinks that it is still early to tackle the development of quantum software engineering techniques. The reason is that how the quantum computers of the future will look like is still unknown. However, there are some facts that we can affirm today: 1) quantum and classical computers will coexist, each dedicated to the tasks at which they are most efficient. 2) quantum computers will be part of the cloud infrastructure and will be accessible through the Internet. 3) complex software systems will be made up of smaller pieces that will collaborate with each other. 4) some of those pieces will be quantum, therefore the systems of the future will be hybrid. 5) the coexistence and interaction between the components of said hybrid systems will be supported by service composition: quantum services.
This talk analyzes the challenges that the integration of quantum services poses to Service Oriented Computing."
In this talk, after a brief overview of AI concepts in particular Machine Learning (ML) techniques, some of the well-known computer design concepts for high performance and power efficiency are presented. Subsequently, those techniques that have had a promising impact for computing ML algorithms are discussed. Deep learning has emerged as a game changer for many applications in various fields of engineering and medical sciences. Although the primary computation function is matrix vector multiplication, many competing efficient implementations of this primary function have been proposed and put into practice. This talk will review and compare some of those techniques that are used for ML computer design.
Tras una breve introducción a la informática médica y unas pinceladas sobre conceptos prácticos de Inteligencia Artificial (posible definición consensuada, strong VS weak AI y técnicas y métodos comúnmente empleados), el bloque central de la charla muestra ejemplos prácticos (en forma de casos de éxito) de distintos desarrollos llevados a cabo por el grupo de Sistemas Informáticos de Nueva Generación (SING: http//sing-group.org/) en los ámbitos de (i) Informática clínica (InNoCBR, PolyDeep), (ii) Informática para investigación clínica (PathJam, WhichGenes), (iii) bioinformática traslacional (Genómica: ALTER, Proteómica: DPD, BI, BS, Mlibrary, Mass-Up, e integración de datos ÓMICOS: PunDrugs) y (iv) Informática en salud pública (CURMIS4th). Finalmente, se comenta brevemente la importancia que se espera tenga en un futuro inmediato la IA interpretable (XAI, Explainable Artificial Intelligence) y la participación humana (HITL. Human-In-The-Loop). La charla termina con una breve reflexión sobre las lecciones aprendidas por el ponente después de más de 16 años de desarrollo de sistemas inteligentes en el ámbito de la informática médica.
Many emerging applications require methods tailored towards high-speed data acquisition and filtering of streaming data followed by offline event reconstruction and analysis. In this case, the main objective is to relieve the immense pressure on the storage and communication resources within the experimental infrastructure. In other applications, ultra low latency real time analysis is required for autonomous experimental systems and anomaly detection in acquired scientific data in the absence of any prior data model for unknown events. At these data rates, traditional computing approaches cannot carry out even cursory analyses in a time frame necessary to guide experimentation. In this talk, Prof. Ogrenci will present some examples of AI hardware architectures. She will discuss the concept of co-design, which makes the unique needs of an application domain transparent to the hardware design process and present examples from three applications: (1) An in-pixel AI chip built using the HLS methodology; (2) A radiation hardened ASIC chip for quantum systems; (3) An FPGA-based edge computing controller for real-time control of a High Energy Physics experiment.
En esta conferencia se presentará una revisión del concepto de autonomía para robots móviles de campo y la identificación de desafíos para lograr un verdadero sistema autónomo, además de sugerir posibles direcciones de investigación. Los sistemas robóticos inteligentes, por lo general, obtienen conocimiento de sus funciones y del entorno de trabajo en etapa de diseño y desarrollo. Este enfoque no siempre es eficiente, especialmente en entornos semiestructurados y complejos como puede ser el campo de cultivo. Un sistema robótico verdaderamente autónomo debería desarrollar habilidades que le permitan tener éxito en tales entornos sin la necesidad de tener a-priori un conocimiento ontológico del área de trabajo y la definición de un conjunto de tareas o comportamientos predefinidos. Por lo que en esta conferencia se presentarán posibles estrategias basadas en Inteligencia Artificial que permitan perfeccionar las capacidades de navegación de robots móviles y que sean capaces de ofrecer un nivel de autonomía lo suficientemente elevado para poder ejecutar todas las tareas dentro de una misión casa-a-casa (home-to-home).
Quantum computing has become a noteworthy topic in academia and industry. The multinational companies in the world have been obtaining impressive advances in all areas of quantum technology during the last two decades. These companies try to construct real quantum computers in order to exploit their theoretical preferences over today’s classical computers in practical applications. However, they are challenging to build a full-scale quantum computer because of their increased susceptibility to errors due to decoherence and other quantum noise. Therefore, quantum error correction (QEC) and fault-tolerance protocol will be essential for running quantum algorithms on large-scale quantum computers.
The overall effect of noise is modeled in terms of a set of Pauli operators and the identity acting on the physical qubits (bit flip, phase flip and a combination of bit and phase flips). In addition to Pauli errors, there is another error named leakage errors that occur when a qubit leaves the defined computational subspace. As the location of leakage errors is unknown, these can damage even more the quantum computations. Thus, this talk will briefly provide quantum error models.
Los chatbots son un elemento clave en la transformación digital de nuestra sociedad. Están por todas partes: eCommerce, salud digital, asistencia a clientes, turismo,... Pero si habéis usado alguno, probablemente os habrá decepcionado. Lo confieso, la mayoría de los chatbots que existen son muy malos. Y es que no es nada fácil hacer un chatbot que sea realmente útil e inteligente. Un chatbot combina toda la complejidad de la ingeniería de software con la del procesamiento de lenguaje natural. Pensad que muchos chatbots hay que desplegarlos en varios canales (web, telegram, slack,...) y a menudo tienen que utilizar APIs y servicios externos, acceder a bases de datos internas o integrar modelos de lenguaje preentrenados (por ej. detectores de toxicidad), etc. Y el problema no es sólo crear el bot, si no también probarlo y evolucionarlo. En esta charla veremos los mayores desafíos a los que hay que enfrentarse cuando nos encargan un proyecto de desarrollo que incluye un chatbot y qué técnicas y estrategias podemos ir aplicando en función de las necesidades del proyecto, para conseguir, esta vez sí un chatbot que sepa de lo que habla.
Many HPC applications are massively parallel and can benefit from the spatial parallelism offered by reconfigurable logic. While modern memory technologies can offer high bandwidth, designers must craft advanced communication and memory architectures for efficient data movement and on-chip storage. Addressing these challenges requires to combine compiler optimizations, high-level synthesis, and hardware design.
In this talk, I will present challenges, solutions, and trends for generating massively parallel accelerators on FPGA for high-performance computing. These architectures can provide performance comparable to software implementations on high-end processors, and much higher energy efficiency thanks to logic customization.
The main challenge of concurrent software verification has always been in achieving modularity, i.e., the ability to divide and conquer the correctness proofs with the goal of scaling the verification effort. Types are a formal method well-known for its ability to modularize programs, and in the case of dependent types, the ability to modularize and scale complex mathematical proofs.
In this talk I will present our recent work towards reconciling dependent types with shared memory concurrency, with the goal of achieving modular proofs for the latter. Applying the type-theoretic paradigm to concurrency has lead us to view separation logic as a type theory of state, and has motivated novel abstractions for expressing concurrency proofs based on the algebraic structure of a resource and on structure-preserving functions (i.e., morphisms) between resources.
Microarchitectural attacks, such as Spectre and Meltdown, are a class of
security threats that affect almost all modern processors. These attacks exploit the side-effects resulting from processor optimizations to leak sensitive information and compromise a system’s security.
Over the years, a large number of hardware and software mechanisms for
preventing microarchitectural leaks have been proposed. Intuitively, more
defensive mechanisms are less efficient, while more permissive mechanisms may offer more performance but require more defensive programming. Unfortunately, there are no
hardware-software contracts that would turn this intuition into a basis for
principled co-design.
In this talk, we present a framework for specifying hardware/software security
contracts, an abstraction that captures a processor’s security guarantees in a
simple, mechanism-independent manner by specifying which program executions a
microarchitectural attacker can distinguish.
La aparición de vulnerabilidades por la falta de controles de seguridad es una de las causas por las que se demandan nuevos marcos de trabajo que produzcan software seguro de forma predeterminada. En la conferencia se abordará cómo transformar el proceso de desarrollo de software dando la importancia que merece la seguridad desde el inicio del ciclo de vida. Para ello se propone un nuevo modelo de desarrollo – modelo Viewnext-UEx – que incorpora prácticas de seguridad de forma preventiva y sistemática en todas las fases del proceso de ciclo de vida del software. El propósito de este nuevo modelo es anticipar la detección de vulnerabilidades aplicando la seguridad desde las fases más tempranas, a la vez que se optimizan los procesos de construcción del software. Se exponen los resultados de un escenario preventivo, tras la aplicación del modelo Viewnext-UEx, frente al escenario reactivo tradicional de aplicar la seguridad a partir de la fase de testing.
This document discusses trusting artificial intelligence systems. It begins with an overview of trust in social and computing contexts. It then discusses artificial intelligence, including machine learning, deep learning, and natural language processing. It details how AI systems can be attacked, including adversarial inputs, data poisoning, and model stealing. It raises important discussions around using AI in contexts like cybersecurity, medicine, transportation, and sentiment analysis, and the challenges of ensuring systems can be trusted.
El uso de energías renovables es clave para cumplir los objetivos de desarrollo sostenible de la Agenda 2030. Entre estas energías, la eólica es la segunda más utilizada debido a su alta eficiencia. Algunos estudios sugieren que la energía eólica será la principal fuente de generación en 2050. Por ello es conveniente seguir investigando en la aplicación de técnicas de control avanzadas en estos sistemas.
Entre estas técnicas avanzadas cabe destacar las redes neuronales y el aprendizaje por refuerzo combinadas con estrategias clásicas de control. Estas técnicas ya se han empleado con éxito en el modelado y el control de sistemas complejos.
Esta conferencia presentará la aplicación de redes neuronales y aprendizaje por refuerzo al control de aerogeneradores, centrándolo especialmente en el control de pitch. Se detallarán diferentes configuraciones con redes neuronales y otras técnicas aplicadas al control de pitch. Finalmente se propondrán algunas técnicas híbridas que combinen lógica difusa, tablas de búsqueda y redes neuronales, mostrando resultados que han permitido probar su utilidad para mejorar la eficiencia de las turbinas eólicas.
As the world's energy demand rises, so does the amount of renewable energy, particularly wind energy, in the supply. The life cycle of wind farms starting from manufacturing the components to decommission stage involve significant involvement of cost and the application of AI and data analytics are on reducing these costs are limited. With this conference talk, the audience expected to know some of the interesting applications of AI and data analytics on offshore wind. And, also highlight the future challenges and opportunities. This conference could be useful for students, academics and researcher who want to make next career in offshore wind but yet know where to start.
¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S
1. ¿Es posible la convergencia HPC y Big Data?
Lecciones aprendidas de los sistemas de E/S
María S. Pérez
mperez@fi.upm.es
DIAPOSITIVA 0
2. Seminarios UCM, 11/04/2019 DIAPOSITIVA 1
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
3. Seminarios UCM, 11/04/2019 DIAPOSITIVA 2
Divergencia DA-CS
Source: Big Data and Extreme-Scale Computing, BDEC
4. Seminarios UCM, 11/04/2019 DIAPOSITIVA 3
Divergencia a nivel de hardware y arquitectura
Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
5. Seminarios UCM, 11/04/2019 DIAPOSITIVA 4
Diferencias históricas entre BD y HPC
Carga de trabajo típica Principios de diseño
Big Data Aplicaciones intensivas en
datos
La mayoría del tiempo de
ejecución es dedicado a E/S y
manipulación de datos
Optimizado para coste
Menor prioridad al
rendimiento
(IOPS)
HPC Aplicaciones intensivas en
cómputo
La mayoría del tiempo de
ejecución es dedicado a
computación
Optimizado para rendimiento
Menor prioridad al coste
(FLOPS)
7. Seminarios UCM, 11/04/2019 DIAPOSITIVA 6
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
8. Seminarios UCM, 11/04/2019 DIAPOSITIVA 7
BDVA (~200) members include large
industries, SMEs, research
organisations and data users and
providers to support the development
and deployment of the EU Big Data
Value Public-Private Partnership with
the European Commission
BDVA focuses its activities on updating the multi-annual
roadmap and on providing regular advice to enable the European
Commission to prepare, draft and adopt the periodic Work
Programmes, as well as on delivering Data Innovation
Recommendations, developing Big Data Value
Ecosystem, guiding Standards, and, facilitating Know-how
exchange.
9. Seminarios UCM, 11/04/2019
TF4:Communication
TF3:Ecosystem
TF2: Impact
DIAPOSITIVA 8
TF1: Programme
TF5:
Policy &
Societal
Policy &
Societal
TF6:
Technical
Data Science/AI
(Analytics
visualization)
Data Technology
Architectures
HPC-Big Data
Data Protection and
Pseudonymisation
Mechanisms
Standardisation
Data Benchmarking
TF7:
Application
Telecom
Healthcare
Media
Earth observation &
geospatial
Smart Manufacturing
Industry
Mobility and Logistics
Smart Governance and
Smart Cities
Agri
TF8:
Business
Data
entrepreneurs
(SMEs and
startups)
Transforming
traditional
business
(Large
Enterprise)
Observatory
on Data
Business
Models
TF9:
Skills and
Education
Skill
requirements
from European
industries
Liaison with
existing
educational
projects
Analysis of
current
curricula
related to data
science
BDVA Task Forces
11. Seminarios UCM, 11/04/2019 DIAPOSITIVA 10
CABAHLA-CM: Convergencia BD-HPC: de
los sensores a las aplicaciones
• Proyecto financiado por la Comunidad de Madrid, ayudas para la
realización de programas de actividades de I+D entre grupos de
investigación de la Comunidad de Madrid en tecnologías y en biomedicina
(2019-2022)
• 4 grupos:
– ArTeCS, Universidad Complutense de Madrid
– ARCOS, Universidad Carlos III de Madrid
– SciTrack, Centro de Investigaciones Energéticas, Medioambientales y Tecnológicas
– OEG, Universidad Politécnica de Madrid
• Objetivo: Mejorar la integración de los paradigmas de HPC y Big Data
– Plataforma intensiva en computación y datos
– Dos casos de uso: captación y modelado de datos de sensores para la predicción de
radiación solar con alta resolución espacio-temporal y procesamiento de datos masivos en
imagen médica del cerebro
12. Seminarios UCM, 11/04/2019 DIAPOSITIVA 11
• Introducción
• Contexto
• Problema general de convergencia
HPC-Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
13. Seminarios UCM, 11/04/2019 DIAPOSITIVA 12
Traditional Big Data Extreme Data Analytics
Enterprise IT HPC
Data-intensive workloads
[Example] Inferring new
insights from big data-sets
e.g. pattern recognition
across suppliers, consumers,
etc for data-driven insights
and innovation
‘Regular’ workloads
[Example] Running the
enterprise – HR, Legal,
Payroll, finance, etc.
Compute-intensive
workloads
[Example] Modelling and
simulating focusing on
interaction amongst parts of
a system and the system as a
whole e.g. product design
Compute- and Data
intensive workloads:
[Example] Reshaping
healthcare through advanced
analytics and artificial
intelligence – leading to
predictive and personalized
medicine
Source: Subgroup HPC-BD BDVA
14. Seminarios UCM, 11/04/2019 DIAPOSITIVA 13
Estudio de aplicaciones/casos de uso
13
Source: Subgroup HPC-BD BDVA
15. Seminarios UCM, 11/04/2019 DIAPOSITIVA 14
14
HPC, Big Data y Deep Learning
Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
16. Seminarios UCM, 11/04/2019 DIAPOSITIVA 15
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
17. Seminarios UCM, 11/04/2019 DIAPOSITIVA 16
HPC a nivel de almacenamiento
Aplicación HPC
Sistema de ficheros POSIX• Lecturas y escrituras
aleatorias en fichero
• Jerarquía (directorios)
• Permisos
• Renombrado atómico
• Protección multiusuario
18. Seminarios UCM, 11/04/2019 DIAPOSITIVA 17
POSIX
Lecturas y escrituras aleatorias en fichero
Jerarquía (directorios)
Permisos
Renombrado atómico
Protección multiusuario
21. Seminarios UCM, 11/04/2019 DIAPOSITIVA 20
HPC a nivel de almacenamiento
Aplicación HPC
Sistema de almacenamiento
basado en objetos
22. Seminarios UCM, 11/04/2019 DIAPOSITIVA 21
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Aplicación Big Data
23. Seminarios UCM, 11/04/2019 DIAPOSITIVA 22
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Aplicación Big Data
Sistema
K/V BBDD
Sist. de
ficheros
24. Seminarios UCM, 11/04/2019 DIAPOSITIVA 23
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Sistema
K/V BBDD
Sistema de ficheros
Aplicación Big Data
25. Seminarios UCM, 11/04/2019 DIAPOSITIVA 24
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Sistema
K/V BBDD
Sistema de almacenamiento
basado en objetos
Aplicación Big Data
26. Seminarios UCM, 11/04/2019 DIAPOSITIVA 25
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento basado en objetos convergente
Sistema
K/V BBDD
Aplicación Big Data
27. Seminarios UCM, 11/04/2019 DIAPOSITIVA 26
Pila de almacenamiento actual
Biblioteca de E/S
App
HPC
App
HPC
App
HPC
SFP HPC
App
BD
App
BD
App
BD
Framework Big Data
SFD Big Data
Llamadas bib E/S-
Framework BD
Llamadas tipo
POSIX
28. Seminarios UCM, 11/04/2019 DIAPOSITIVA 27
Pila de almacenamiento actual
Biblioteca de E/S
App
HPC
App
HPC
App
HPC
Adaptador HPC
App
BD
App
BD
App
BD
Framework Big Data
Adaptador Big Data
Llamadas bib E/S-
Framework BD
Llamadas tipo
POSIX
Sistema de almacenamiento basado en objetos convergente
29. Seminarios UCM, 11/04/2019 DIAPOSITIVA 28
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
30. Seminarios UCM, 11/04/2019 DIAPOSITIVA 29
Primitivas orientadas a objetos
• Acceso al objeto: lectura (read) aleatoria del objeto, tamaño (size) del
objeto
• Manipulación del objeto: escritura (write) aleatoria del objeto,
truncado (truncate)
• Gestión del objeto: crear objetos (create), borrar objetos (delete)
• Estas operaciones son similares a las operaciones POSIX básicas
sobre un fichero
• Las operaciones a nivel de directorio no tienen contrapartida a nivel
de objeto:
– Bajo número de este tipo de operaciones
– Se pueden emular mediante la operación “scan” (operación poco
eficiente, pero compensado por el hecho de utilizar un espacio de
nombres plano y una semántica más sencilla)
31. Seminarios UCM, 11/04/2019 DIAPOSITIVA 30
Estudio sobre aplicaciones HPC/BD
Plataforma Aplicación Uso Lecturas Escrituras Ratio R/W Perfil
HPC/MPI
mpiBLAST Protein
docking
27.7 GB 12.8 MB 2.2*10^3 Read-intensive
MOM Oceanic
model
19.5 GB 3.2 GB 6.09 Read-intensive
ECOHAM Sediment
propagation
67.4 GB 71.2 GB 0.94 Balanced
Ray Tracing Video
processing
0.4 GB 9.7 GB 4.1*10^-2 Write-intensive
Cloud/Spark
Sort Text
processing
5.8 GB 5.8 GB 1.00 Balanced
Connected
Component
Graph
processing
13.1 GB 71.2 MB 1.8*10^2 Read-intensive
Grep Text
processing
55.8 GB 863.8 MB 66.14 Read-intensive
Decision
Tree
Machine
Learning
59.1 GB 4.7 GB 12.57 Read-intensive
Tokenizer Text
processing
55.8 GB 235.7 GB 0.23 Write-intensive
Pierre Matri, Yevhen Alforov, Álvaro Brandón, María S. Pérez et al. Mission possible: Unify HPC and Big Data stacks
towards application-defined blobs at the storage layer. Future Generation Computer Systems, In press.
35. Seminarios UCM, 11/04/2019 DIAPOSITIVA 34
BlobSeer/RADOS vs Lustre (HPC) and HDFS/Ceph (BD)
• Grid’5000 testbed distribuido en 11 sitios en Francia y Luxemburgo
(parapluie cluster, Rennes)
• Cada nodo: 2 x 12-core 1.7 Ghz 6164 HE, 48 GB of RAM y 250 GB
HDD.
• Apps HPC: Lustre 2.9.0 y MPICH 3.2 [67], en un cluster de 32 nodos
(InfiniBand)
• Apps BD: Spark 2.1.0, Hadoop / HDFS 2.7.3 and Ceph Kraken, en un
cluster de 32 nodos (Gigabit Ethernet)
36. Seminarios UCM, 11/04/2019 DIAPOSITIVA 35
BlobSeer
Bogdan Nicolae; Gabriel Antoniu; Luc Bougé; Diana Moise; Alexandra Carpen-Amarie. 2011. BlobSeer: Next-generation
data management for large scale infrastructures. J. Parallel Distrib. Comput. 71, 2 (February 2011), 169-184.
42. Seminarios UCM, 11/04/2019 DIAPOSITIVA 41
Análisis del estudio
• La convergencia a nivel de almacenamiento es posible mediante
el uso de almacenamiento basado en objetos, llevando a una
mejora en el rendimiento para ambos tipos de plataformas (HPC y
Cloud)
• Utilizando objetos, se consigue una mejora de hasta el 32%
– Principalmente por el espacio de nombres plano
– Rados: capacidad de lectura directa y esquema sencillo y
descentralizado de gestión de metadatos (gran rendimiento para
lecturas)
– BlobSeer: control de concurrencia multi-versión da soporte a gran
velocidad de escritura para cargas de trabajo altamente concurrentes
(gran rendimiento para escrituras)
• Problemas de ambos sistemas:
– Aunque el rendimiento de Rados es excelente cuando hay baja
contención de escritura, su control de concurrencia basado en
cerrojos limita el rendimiento de casos de uso altamente concurrentes.
– El control de concurrencia multi-versión de BlobSeer da buen soporte de
escritura, pero el árbol de metadatos distribuidos de BlobSeer supone
una latencia de lectura significativa
43. Seminarios UCM, 11/04/2019 DIAPOSITIVA 42
Týr
• ¿Se pueden lograr los beneficios de ambos sistemas?
• Además de combinar las ventajas de Rados y BlobSeer, hay un
conjunto significativo de casos de uso que requieren semánticas de
consistencia más estrictas
– Indexación y agregación de datos (Ejemplo: ALICE CERN LHC
experiment)
– Distributed shared logs (Ejemplo: Computational steering + in-situ
visualization)
44. Seminarios UCM, 11/04/2019 DIAPOSITIVA 43
Týr
Pierre Matri; Alexandru Costan; Gabriel Antoniu; Jesús Montes; María S. Pérez. "Týr: Blob StorageSystems Meet Built-
In Transactions". SC '16 Proceedings of the International Conference for High Performance Computing, Networking,
Storage and Analysis. Article n. 49, Best student paper award finalist
45. Seminarios UCM, 11/04/2019 DIAPOSITIVA 44
Týr
Pierre Matri; Philip Carns; Robert Ross; Alexandru Costan; María S. Pérez; Gabriel Antoniu;. ”SLoG: A large-scale
Logging Middleware for HPC and Big Data convergence”. ICDCS’2018. pp. 1507-1512, 2018.
46. Seminarios UCM, 11/04/2019 DIAPOSITIVA 45
Diseño de Týr
• Distribución de datos predecible
– Combinación de técnicas de data striping y consistent hashing
– Elimina la necesidad de un servidor de metadatos centralizado
• Control de concurrencia multi-versión transparente
– Se utiliza versioning a nivel de chunk y números no secuenciales para el
versionado
• Semántica transaccional ACID
– Utilizando el protocolo transaccional Warp*
– Utilizan cadenas de los servidores afectados por las transacciones y grafos de
dependencias
• Operaciones de transformación atómicas
– Eficientes operaciones read-modify-write
– Particularmente interesante cuando las operaciones de transformación son
sencillas (aritméticas, a nivel de bit)
– El cliente no comunica el nuevo dato a escribir, sino la modificación a aplicar,
evitando two-round trips
• Prototipo software con aproximadamente 25,000 líneas de código Rust y
GNU C
* R. Escriva, B. Wong and E. Sirer. Warp: Lightweight multi-key transactions for key-value stores. arXiv preprint
arXiv:1509.07815, 2015.
49. Seminarios UCM, 11/04/2019 DIAPOSITIVA 48
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
50. Seminarios UCM, 11/04/2019 DIAPOSITIVA 49
Conclusiones y líneas de futuro
• El diseño de Týr supera significativamente BlobSeer y sistemas
de ficheros tradicionales, tanto para aplicaciones HPC como BDA
– Escrituras no bloqueantes, mediante el uso de control de concurrencia
multi-versión
– Escrituras directas utilizando técnicas de consistent hashing
• Týr sufre una pequeña penalización respecto a Rados
– Excepto para aplicaciones intensivas en escritura, debido a la
eficiencia del control de concurrencia multi-versión
– Resultado de unas garantías de consistencia más fuerte
(transacciones)
• Este es un primer paso sobre el que se puede trabajar para la
convergencia HPC y BDA a otros niveles, más allá del
almacenamiento
51. ¿Es posible la convergencia HPC y Big Data?
Lecciones aprendidas de los sistemas de E/S
María S. Pérez
mperez@fi.upm.es
DIAPOSITIVA 50