DPCB: Centro de Procesado de Datos de Barcelona

DPCB pertenece al grupo Gaia DPAC en la Universidad de Barcelona (IEEC-UB), en estrecha cooperación con el Barcelona Supercomputing Center (BSC) y el Consorci de Serveis Universitaris de Catalunya (CSU), en Barcelona, España.

El hardware utilizado en las operaciones de Gaia en DPCB se encuentra en el BSC (específicamente el supercomputador MareNostrum), mientras que el equipo IEEC-UB lleva a cabo la gestión, operaciones, desarrollo y pruebas.

DPCB ejecuta los siguientes sistemas durante operaciones:

  • Actualización de datos intermedios (IDU) de la unidad CU3, principalmente compuesto por IDU-XM (enlace de observaciones a fuentes), IDU-CAL (calibración) e IDU-IPD (el proceso principal, la determinación de los parámetros de imagen).
  • DpcbTools de DPCB, incluyendo el sistema gestor de datos de DPCB (DDM) y las herramientas de monitorización DPCB (DMON).
  • Sistema de transferencia de datos de Gaia (GTS), incluyendo Aspera y DTSTool de CU1, para las transferencias de datos desde / hacia DPCE (el centro de procesado de datos en ESAC, cerca de Madrid).

DPCB forma parte del procesado cíclico de DPAC y ejecuta las distintas etapas de IDU (XM, CAL e IPD) en cada ciclo. Dependiendo de las entradas disponibles, sobre todo al inicio de operaciones, puede ser que se ejecuten sólo algunas de estas etapas. En fases finales de la misión, pueden ser necesarias repetidas ejecuciones de estos subsistemas durante un ciclo determinado.

La recepción y gestión de datos se ejecuta diariamente sobre los datos enviados contínuamente por DPCE.

El objetivo general de DPCB es proporcionar una tabla actualizada de «cross-match» (enlaces de observaciones con objetos) utilizando la última actitud y catálogo de fuentes disponibles, calibraciones actualizadas (de sesgo electrónico, fondo de cielo astrofísico, y respuesta instrumental en forma de una LSF), así como, principalmente, los parámetros de imagen actualizados utilizando dichas calibraciones. Todo esto permite mejorar los resultados de todos los demás sistemas de DPAC (principalmente AGIS y PhotPipe) ya que al usar estos datos mejorados podrán generar mejores resultados.

DPCB también participa activamente en la definición y diseño de la estrategia general DPAC para las actividades cíclicas que intervienen en la reducción de datos de Gaia.

Por último, otro papel importante de DPCB ha sido la generación de conjuntos de datos simulados para la unidad CU2, para el desarrollo y ensayo de los sistemas de todo DPAC. Las simulaciones de CU2 han sido esenciales antes de la puesta en marcha de Gaia para probar los sistemas de procesado diario de datos de DPAC, y todavía serán utilizadas, incluso después de su lanzamiento, para poner a prueba las cadenas de procesamiento cíclicos. Actualmente se siguen generando algunas simulaciones para la validación del software de CU9 y pruebas adicionales de otras unidades. Estas simulaciones son esenciales para la preparación de las primeras versiones del catálogo Gaia.

Hardware de DPCB

MareNostrum:

Uno de los supercomputadores más potentes de Europa se encarga de ejecutar el sistema IDU durante su fase operativa. La última actualización del BSC, MareNostrum III, se compone de 3028 nodos de computación, cada uno con 16 núcleos de procesadores Intel Sandy Bridge-EP E5-2670 (2.6 GHz), 32 GB de RAM y 500 GB de disco local. Están interconectados mediante una red de fibra óptica de punto a punto (Infiniband 10Gb).

El sistema de archivos central del MareNostrum, basado en IBM GPFS, se compone de más de 20 servidores de almacenamiento que proporcionan una capacidad total de 1.9 PB, que ofrece acceso global a todos los nodos y proporciona un acceso paralelo en Ethernet de 10 Gb. Además, un almacenamiento a largo plazo está disponible, ofreciendo más de 5 PB, que será utilizado para el almacenamiento a largo plazo de los datos de entrada para IDU (la base de datos en bruto, o Raw DB) y también para almacenar los datos de salida finales de IDU.

DPCB también dispone de un servidor virtual proporcionado por el BSC para permitir la ejecución de algunas tareas específicas, principalmente relacionadas con las transferencias y gestiones de datos.

 

Consumed CPU Hours at BSC

Horas de procesador consumidas en el BSC

Hardware CESCA/CSUC:

Clúster Xeon 8–core (Prades):

Cuenta con 45 nodos, cada uno con 2 procesadores de cuatro núcleos Intel Xeon. 29 de los nodos tienen Xeon E5472 a 3 GHz y 32 GB de RAM, mientras que los otros 16 tienen Xeon X5550 a 2.66 GHz (idénticos a los usados para las operaciones de IDT en DPCE durante los primeros meses de misión) y 48 GB de RAM. El rendimiento total de procesado es de 2.68 TFLOP.

Clúster Altix UV (Pirineus):

Este es un sistema de memoria compartida con 1344 núcleos Intel Xeon X7542 (2.66 GHz) y 6056 GB de RAM, que ofrecen cerca de 14 TFLOP. Se utiliza para simulaciones de GOG para CU9 y simulaciones científicas específicas relacionadas con Gaia.

Consumed CPU Hours at CSUC

Horas de procesador consumidas en el CESCA/CSUC

 

Software DPCB

DPCB también desarrolla software dentro de DPAC, específicamente DpcbTools. Este producto incluye un conjunto de herramientas así como una infraestructura de ejecución de algoritmos para permitir que las aplicaciones DPAC hagan un mejor uso del hardware disponible en DPCB (sobre todo el hardware BSC). Las principales características proporcionadas por este producto son:

  • Data Access Layer (DAL) o capa de acceso a datos, con servidores y cachés (o memorias intermedias), especialmente desarrollado para cada uno de los almacenes de datos de DPCB-BSC, a saber: un almacenamiento local para cada nodo, almacenamientos remotos en otros nodos, un repositorio global para todos los nodos (GPFS), y una copia de seguridad o almacenamiento permanente. El DAL busca el uso más eficiente de los mismos, especialmente teniendo en cuenta los requisitos de I/O del sistema CU3-IDU. Los servidores de datos y cachés gestionan de forma eficaz el acceso a ciertos datos que pueden necesitarse en varios procesos repetidamente. Cada nodo tendrá un caché de datos para algunos de éstos, mientras que otros datos serán almacenados en las memorias caché o servidores compartidos entre varios nodos.
  • Herramientas de gestión de nodos y de tareas, para determinar y poner en marcha las tareas necesarias para el procesado de algunos datos, y también para gestionar este tipo de tareas y los nodos donde están siendo ejecutados.
  • DPCB Data Manager (DDM) o gestor de datos de DPCB, la interfaz principal entre GTS (el sistema de transferencia de datos de Gaia en DPAC) y los recursos de almacenamiento DPCB. Este software es el encargado de manejar los datos recibidos del DPCE, realizar copias de seguridad de los datos y la gestión de transferencias de datos de vuelta al DPCE.
  • DPCB Monitoring Tools (DMON) o herramientas de monitorización, también desarrolladas con el hardware de BSC en mente, pero aplicable a CESCA/CSUC y también a otros DPCs.

Gestión de calidad en DPCB y actividades de preparación para operaciones

DPCB ha participado en varias actividades y campañas de prueba antes de las operaciones de Gaia para poner a prueba plenamente el Centro de Procesado de Datos (DPC).

Algunas de las actividades de preparación llevadas a cabo son:

  • Prueba de recepción de datos desde DPCE en DPCB en la fase 1 de las pruebas de interfaz desde noviembre del 2010 a enero del 2011.
  • Fase 2 de las pruebas de extremo a extremo, para probar la recepción y manipulación de los datos desde DPCE (Junio-Diciembre 2011).
  • Fase 2 de las pruebas de interfaz, para probar el retorno de los datos de DPCB a DPCE (Noviembre 2011 – Enero 2012).
  • Fase 3 de las pruebas de extremo a extremo, para probar la ejecución de IDU en DPCB y el retorno de los datos a DPCE (primera mitad de 2012).
  • Primer ensayo de operaciones, centrado en la fase de puesta en marcha y por lo tanto simplemente probando la recepción y organización de los datos recibidos desde DPCE. (Junio 2012)
  • Segundo ensayo de operaciones, centrado en la fase de puesta en marcha y por lo tanto simplemente probando la recepción y organización de los datos recibidos desde DPCE. (Diciembre 2012)
  • Tercer  ensayo de operaciones, centrado en la fase de puesta en marcha y por lo tanto simplemente probando la recepción y organización de los datos recibidos desde DPCE. (Abril 2013)
  • Cuarto ensayo de operaciones, centrado en la fase nominal, tan sólo recibiendo y organizando los datos recibidos de DPCE. (Setiembre 2013)

DPCB participa en todas las actividades de validación y calificación definidas en el Plan de Operaciones de Validación de DPAC, incluyendo los ensayos y desafíos, así como las pruebas preliminares de procesado de datos con los primeros datos recibidos desde el satélite durante la puesta en marcha.

Hitos relevantes conseguidos por DPCB durante los últimos años

2009:

  • Versión de ciclo 6 de GASS y GOG integrados en DPCB y generación de datos
  • Pruebas de IDT e IDU para el lanzamiento de las versiones de los ciclos 6 y 7

2010:

  • Implantación del acceso web de los resultados científicos de IDT obtenidos con IDV en DPCB-CESCA
  • Monitorización web de IDT y de su progreso en DPCB-CESCA
  • Repositorio local en DPCB para IDU con la ingestión de datos desde ESAC a través de GTS
  • Generación del primer conjunto de datos de pruebas para las pruebas de extremo a extremo de DPAC (6 meses de datos de Gaia simulados) y el segundo conjunto de datos para las pruebas de extremo a extremo (12 meses de datos)
  • Versión del simulador GASS con la E/S optimizada con la ayuda de DPCB, integrado y probado
  • Integración y pruebas de IDT e IDU para el ciclo 8
  • Pruebas de interfaz de DPCB con DPCE

2011:

  • Simulación de 24h a escala real y alta densidad con GASS
  • Pruebas con IDT utilizando los datos a escala real en DPCB-CESCA
  • Pruebas de interfaz con GTS pasadas con éxito
  • Primera versión completa de los sistemas de preparación de datos para IDU (incluyendo la creación de trabajos de procesado) y pruebas en DPCB
  • Primera versión de cachés basados en MPJ incluido en pruebas de DpcbTools

2012:

  • Revisión y definición de la arquitectura final para IDU en DPCB-BSC
  • IDU ejecutado con éxito durante la fase 3 de las pruebas de extremo a extremo
  • Campañas de pruebas de rendimiento y estimación en recursos para IDU
  • Desarrollo y pruebas de formatos específicos de ficheros HDF5 para DPCB
  • Desarrollo de software DpcbTools e integración de GTS

2013:

  • MareNostrum actualizado. Actualización de software para funcionar en la nueva máquina
  • Servidor DPCB actualizado en BSC para mejorar el rendimiento de la gestión de transferencias, con más espacio en disco y mejora en la fiabilidad antes del inicio de operaciones
  • Pruebas de preparación para operaciones de DpcbTools y GTS para la transferencia de datos DPCE-DPCB
  • Generación de datos GASS para más pruebas de sistemas críticos de procesado diario

2014:

  • Simulación GASS a gran escala para las pruebas de esfuerzo de DPAC
  • Simulación completa del Catálogo con GOG para pruebas CU9
  • Generación del conjunto de datos de GASS para pruebas con IDU y AGIS. Esto incluye dos simulaciones de 5 años
  • Prueba de rendimiento de IDU-XM sobre 5 años de datos simulados
  • Lanzamiento de DpcbTools con funcionalidad completa para operaciones nominales y optimizado para un mejor rendimiento
  • Ensayo de operaciones para el software cíclico
  • Pruebas IDU sobre datos reales Gaia

2015:

  • Primera ejecución IDU en operaciones