DPCB: Centre de Processament de Dades de Barcelona

DPCB pertany al grup Gaia DPAC a la Universitat de Barcelona (UB), en estreta cooperació amb el Barcelona Supercomputing Center (BSC) i el Consorci de Serveis Universitàries de Catalunya (CSU), a Barcelona, Espanya.

El hardware utilizat en les operacions de DPCB es troba en el BSC (Superordinador MareNostrum), mentre que els equips de la IEEC-UB duen a terme la gestió, operacions, desenvolupament i proves.

DPCB executa els següents sistemes durant les operacions de:

  • Actualització de dades intermèdies (IDU) de la unitat CU3, principalment compost per IDU-XM (enllaç d’observacions a fonts), IDU-CALÇ (calibratge) i IDU-IPD (el procés principal, la determinació dels paràmetres d’imatge).
  • DpcbTools de DPCB, incloent el sistema gestor de dades de DPCB (DDM) i les eines de monitoratge DPCB (DMON).
  • Sistema de transferència de dades de Gaia (GTS), incloent Aspera i DTSTool de CU1, per a les transferències de dades des de / cap a DPCE (el centre de processament de dades en ESAC, prop de Madrid).

DPCB forma part del processament cíclic de DPAC i executa les diferents etapes de IDU (XM, CALÇ i IPD) en cada cicle. Depenent de les entrades disponibles, sobretot a l’inici d’operacions, pot ser que s’executin només algunes d’aquestes etapes. En fases finals de la missió, poden ser necessàries repetides execucions d’aquests subsistemes durant un cicle determinat.

La recepció i gestió de dades s’executa diàriament sobre les dades enviades contínuamente per DPCE.

L’objectiu general de DPCB és proporcionar una taula actualitzada de “cross-match” (enllaços d’observacions amb objectes) utilitzant l’última actitud i catàleg de fonts disponibles, calibratges actualitzats (de biaix electrònic, fons de cel astrofísic, i resposta instrumental en forma d’una LSF), així com, principalment, els paràmetres d’imatge actualitzats utilitzant aquests calibratges. Tot això permet millorar els resultats de tots els altres sistemes de DPAC (principalment AGIS i PhotPipe) ja que en usar aquestes dades millorades podran generar millors resultats.

DPCB també participa activament en la definició i disseny de l’estratègia general DPAC per a les activitats cícliques que intervenen en la reducció de dades de Gaia.

Finalment, un altre paper important de DPCB ha estat la generació de conjunts de dades simulades per a la unitat CU2, per al desenvolupament i assaig dels sistemes de tot DPAC. Les simulacions de CU2 han estat essencials abans de l’engegada de Gaia per provar els sistemes de processament diari de dades de DPAC, i encara seran utilitzades, fins i tot després del seu llançament, per posar a prova les cadenes de processament cíclics. Actualment se segueixen generant algunes simulacions per a la validació del programari de CU9 i proves addicionals d’altres unitats. Aquestes simulacions són essencials per a la preparació de les primeres versions del catàleg Gaia.

Hardware de DPCB

MareNostrum

Un dels supercomputadores més potents d’Europa s’encarrega d’executar el sistema IDU durant la seva fase operativa. L’última actualització del BSC, MareNostrum III, es compon de 3028 nodes de computació, cadascun amb 16 nuclis de processadors Intel Sandy Bridge-EP I5-2670 (2.6 GHz), 32 GB de RAM i 500 GB de disc local. Estan interconnectats mitjançant una xarxa de fibra òptica de punt a punt (Infiniband 10Gb).

El sistema d’arxius central del MareNostrum, basat en IBM GPFS, es compon de més de 20 servidors d’emmagatzematge que proporcionen una capacitat total d’1.9 PB, que ofereix accés global a tots els nodes i proporciona un accés paral·lel en Ethernet de 10 Gb. A més, un emmagatzematge a llarg termini està disponible, oferint més de 5 PB, que serà utilitzat per a l’emmagatzematge a llarg termini de les dades d’entrada per IDU (la base de dades en brut, o Raw DB) i també per emmagatzemar les dades de sortida finals de IDU.

DPCB també disposa d’un servidor virtual proporcionat pel BSC per permetre l’execució d’algunes tasques específiques, principalment relacionades amb les transferències i gestions de dades.

 

Consumed CPU Hours at BSC

Hores de processador consumides en el BSC

 

Hardware CESCA/CSUC:

Xeon 8–core cluster (Prades):

Compta amb 45 nodes, cadascun amb 2 processadors de quatre nuclis Intel Xeon. 29 dels nodes tenen Xeon I5472 a 3 GHz i 32 GB de RAM, mentre que els altres 16 tenen Xeon X5550 a 2.66 GHz (idèntics als usats per a les operacions de IDT en DPCE durant els primers mesos de missió) i 48 GB de RAM. El rendiment total de processament és de 2.68 TFLOP.

Altix UV cluster (Pirineus):

Aquest és un sistema de memòria compartida amb 1344 nuclis Intel Xeon X7542 (2.66 GHz) i 6056 GB de RAM, que ofereixen prop de 14 TFLOP. S’utilitza per a simulacions de GOG per a CU9 i simulacions científiques específiques relacionades amb Gaia.

Consumed CPU Hours at CSUC

Hores de processador consumides en el CESCA/CSUC

 

Software DPCB

DPCB també desenvolupa programari dins de DPAC, específicament DpcbTools. Aquest producte inclou un conjunt d’eines així com una infraestructura d’execució d’algorismes per permetre que les aplicacions DPAC facin un millor ús del maquinari disponible en DPCB (sobretot el maquinari BSC). Les principals característiques proporcionades per aquest producte són:

  • Data Access Layer (DAL) o capa d’accés a dades, amb servidors i cachés (o memòries intermèdies), especialment desenvolupat per a cadascun dels magatzems de dades de DPCB-BSC, a saber: un emmagatzematge local per a cada node, emmagatzematges remots en altres nodes, un repositori global per a tots els nodes (GPFS), i una còpia de seguretat o emmagatzematge permanent. El DAL busca l’ús més eficient dels mateixos, especialment tenint en compte els requisits d’I/O del sistema CU3-IDU. Els servidors de dades i cachés gestionen de forma eficaç l’accés a certes dades que poden necessitar-se en diversos processos repetidament. Cada node tindrà un caché de dades per a alguns d’aquests, mentre que altres dades seran emmagatzemades en les memòries caché o servidors compartits entre diversos nodes.
  • Eines de gestió de nodes i de tasques, per determinar i engegar les tasques necessàries per al processament d’algunes dades, i també per gestionar aquest tipus de tasques i els nodes on estan sent executats.
  • DPCB Data Manager (DDM) o gestor de dades de DPCB, la interfície principal entre GTS (el sistema de transferència de dades de Gaia en DPAC) i els recursos d’emmagatzematge DPCB. Aquest software és l’encarregat de manejar les dades rebudes del DPCE, realitzar còpies de seguretat de les dades i la gestió de transferències de dades de tornada al DPCE. 
  • DPCB Monitoring Tools (DMON) o eines de monitoratge, també desenvolupades amb el maquinari de BSC en ment, però aplicable a CESCA/CSUC i també a altres DPCs.

Gestió de qualitat en DPCB i activitats de preparació per a operacions 

DPCB ha participat en diverses activitats i campanyes de prova abans de les operacions de Gaia per posar a prova plenament el Centre de Processament de Dades (DPC).

Algunes de les activitats de preparació dutes a terme són:

  • Prova de recepció de dades des de DPCE en DPCB en la fase 1 de les proves d’interfície des de novembre del 2010 a gener del 2011.
  • Fase 2 de les proves d’extrem a extrem, per provar la recepció i manipulació de les dades des de DPCE (Juny-Desembre 2011).
  • Fase 2 de les proves d’interfície, per provar la tornada de les dades de DPCB a DPCE (Novembre 2011 – Gener 2012).
  • Fase 3 de les proves d’extrem a extrem, per provar l’execució de IDU en DPCB i la tornada de les dades a DPCE (primera meitat de 2012).
  • Primer assaig d’operacions, centrat en la fase d’engegada i per tant simplement provant la recepció i organització de les dades rebudes des de DPCE. (Juny 2012)
  • Segon assaig d’operacions, centrat en la fase d’engegada i per tant simplement provant la recepció i organització de les dades rebudes des de DPCE. (Desembre 2012)
  • Tercer assaig d’operacions, centrat en la fase d’engegada i per tant simplement provant la recepció i organització de les dades rebudes des de DPCE. (Abril 2013)
  • Quart assaig d’operacions, centrat en la fase nominal, tan sols rebent i organitzant les dades rebudes de DPCE. (Setembre 2013)

DPCB participa en totes les activitats de validació i qualificació definides en el Pla d’Operacions de Validació de DPAC, incloent els assajos i desafiaments, així com les proves preliminars de processament de dades amb les primeres dades rebudes des del satèl·lit durant l’engegada.

Fites rellevants aconseguides per DPCB durant els últims anys

2009:

  • Versió de cicle 6 de GASS i GOG integrats en DPCB i generació de dades
  • Pruebas de IDT e IDU para el lanzamiento de las versiones de los ciclos 6 y 7

2010:

  • Implantació de l’accés web dels resultats científics de IDT obtinguts amb IDV en DPCB-CESCA
  • Monitoratge web de IDT i del seu progrés en DPCB-CESCA
  • Repositorio local en DPCB para IDU con la ingestión de datos desde ESAC a través de GTS
  • Generació del primer conjunt de dades de proves per a les proves d’extrem a extrem de DPAC (6 mesos de dades de Gaia simulats) i el segon conjunt de dades per a les proves d’extrem a extrem (12 mesos de dades)
  • Versió del simulador GASS amb la I/S optimitzada amb l’ajuda de DPCB, integrat i provat
  • Integració i proves de IDT i IDU per al cicle 8
  • Proves d’interfície de DPCB amb DPCE

2011:

  • Simulació de 24h a escala real i alta densitat amb GASS
  • Proves amb IDT utilitzant les dades a escala real en DPCB-CESCA
  • Proves d’interfície amb GTS passades amb èxit
  • Primera versió completa dels sistemes de preparació de dades per IDU (incloent la creació de treballs de processament) i proves en DPCB
  • Primera versió de cachés basats en MPJ inclòs en proves de DpcbTools

2012:

  • Revisió i definició de l’arquitectura final per IDU en DPCB-BSC
  • IDU ejecutado con éxito durante la fase 3 de las pruebas de extremo a extremo
  • Campañas de pruebas de rendimiento y estimación en recursos para IDU
  • Desenvolupament i proves de formats específics de fitxers HDF5 per DPCB
  • Desarrollo de software DpcbTools e integración de GTS

2013:

  • MareNostrum actualitzat. Actualització de programari per funcionar en la nova màquina
  • Servidor DPCB actualitzat en BSC per millorar el rendiment de la gestió de transferències, amb més espai en disc i millora en la fiabilitat abans de l’inici d’operacions
  •  Proves de preparació per a operacions de DpcbTools i GTS per a la transferència de dades DPCE-DPCB
  • Generació de dades GASS para més proves de sistemes crítics de processament diari

2014:

  • Simulació GASS a gran escala per a les proves d’esforç de DPAC
  • Simulació completa del Catàleg amb GOG para proves CU9
  • Generació del conjunt de dades de GASS per a proves amb IDU i AGIS. Això inclou dues simulacions de 5 anys
  • Prova de rendiment de IDU-XM sobre 5 anys de dades simulades
  • Llançament de DpcbTools amb funcionalitat completa per a operacions nominals i optimitzat per a un millor rendiment
  • Assaig d’operacions per al programari cíclic
  • Proves IDU sobre dades reals Gaia

2015:

  • Primera execució IDU en les operacions