RT Dissertation/Thesis
T1 On the convergence of big data analytics and high-performance computing: a novel approach for runtime interoperability
A1 Caino Lores, Silvina
AB Convergence between high-performance computing (HPC) and Big Dataanalytics (BDA) is currently an established research area that spawned newopportunities for unifying the platformlayer and data abstractions in theseecosystems. This thesis builds on the hypothesis that HPC-BDA convergenceat platform level can be attained by enabling runtime interoperability in away that preserves BDA platform usability and productivity, exploits HPCscalability and performance, and expands both BDA and HPC capabilitiesto cope with prospect hybrid application models. The goal is to architect anabstract system that enables the interoperability of established BDA and HPCruntimes.In order to exploit the benefits of BDA data-centric paradigms, this thesispresents a data-centric transformation methodology to allow process-centricworkloads the interaction with BDA platforms and storage infrastructures.Furthermore, an architecture to achieve full runtime interoperability is proposed.It reflects the key design features that interest both the HPC and BDAcommunities, and includes an abstract data collection and operational modelthat generates a unified interface for hybrid applications. It also incorporates a mechanism to transfer each stage of the application to the appropriateruntime.This architecture can be implemented in different ways depending on theprocess- and data-centric runtimes of choice, and the mechanisms put inplace to effectively meet the requirements of the architecture. The Spark-DIYplatformis introduced as a possible implementation. It preserves the interfacesand execution environment of the popular BDA platformApache Spark–thus making it compatible with any Spark-based application and tool– whileproviding efficient communication and kernel execution via DIY, a powerfulcommunication pattern library built on top of MPI.Finally, these solutions are analysed in terms of performance by applyingthem to a representative use case, EnKF-HGS. This application is a clear exampleof how current HPC simulations are evolving towards hybrid HPC-BDAapplications, integrating HPC simulations within a BDA environment. Otherauxiliary use cases –like an application from the railway domain and a BDAbenchmark operator– are also introduced to support other specific contributionsof this thesis.
AB La convergencia entre la computación de altas prestaciones (HPC) y el análisisde macrodatos (BDA) es actualmente un área de investigación establecidaque ha generado nuevas oportunidades para la unificación de la capa deplataforma y las abstracciones de datos en estos ecosistemas. Esta tesis desarrollala hipótesis de que la convergencia HPC-BDA a nivel de plataformapuede ser obtenida con la habilitación de mecanismos de interoperabilidadentre entornos de ejecución, de modo que se preserve la usabilidad y productividadde las plataformas BDA, se explote la escalabilidad y rendimiento deHPC, y se expandan las capacidades de HPC y BDA para tratar futuros modeloshíbridos de aplicación. El objetivo es desarrollar un sistema abstracto quepermita la interoperabilidad de entornos de ejecución ya establecidos en losecosistemas BDA y HPC.Con el fin de explotar los beneficios de los paradigmas orientados a datosen BDA, esta tesis presenta una metodología de transformación tambiénorientada a datos que permite a las aplicaciones orientadas a proceso interactuarcon plataformas BDA y sus correspondientes infraestructuras de almacenamiento. Además, se propone una arquitectura para obtener interoperabilidadtotal entre entornos de ejecución. Ésta refleja las característicasde diseño clave que interesan a las comunidades BDA y HPC, e incluye unaabstracción de colección de datos y modelo operacional que genera una interfazunificada para aplicaciones híbridas. Además, incorpora un mecanismopara transferir cada etapa de la aplicación al entorno de ejecución adecuado.Esta arquitectura puede ser implementada de distintas maneras dependiendode los entornos de ejecución orientados a datos y proceso seleccionados,y las tcnicas utilizadas para cumplir de manera efectiva con los requisitosde la arquitectura. La plataforma Spark-DIY se introduce como posible implementación.Preserva las interfaces y entorno de ejecución de la popularplataforma BDA Apache Spark –haciéndola compatible con cualquier aplicacióno herramienta basada en Spark–, mientras provee comunicación yejecución eficiente de núcleos de simulación y análisis a través de DIY, unapotente biblioteca de patrones de comunicación construida sobre MPI.Finalmente, estas soluciones son analizadas en términos de rendimiento alaplicarlas a un caso de uso representativo, EnKF-HGS. Esta aplicación esun ejemplo claro de cómo las simulaciones HPC están evolucionando haciaaplicaciones HPC-BDA híbridas, integrando simulaciones HPC dentro de unentorno BDA. Otros casos de uso auxiliares –como una aplicación del ámbitoferroviario y un operador referente de BDA– son introducidos para apoyarotras contribuciones específicas de esta tesis.
YR 2019
FD 2019-05
LK https://hdl.handle.net/10016/29720
UL https://hdl.handle.net/10016/29720
LA eng
NO Mención Internacional en el título de doctor
DS e-Archivo
RD 18 jul. 2024