Konzept & Technik
Entwicklungsplattform & Status Quo
Stand November 2021 liegen sämtliche über die Webseite zugängliche Daten immer noch auf einer hauseigenen Lösung basierend auf MongoDB und GridFS. Dieses System ist für einen Standort (@KIS) ausgelegt, und besteht physikalisch aus 2 Rechnern mit einer Gesamtkapazität (gespiegelt) von 150 TB netto. Es diente als Entwicklungsplattform für die Datenkurierung, -gruppierung und -einspeisung von Daten aus dem OT und als Backend für die bestehende Suchmaschine. Embargoes, Programmierschnittstellen zu Python oder IDL, sowie eine verteilte Datenhaltung an mehreren Standorten werden nicht unterstützt.
Verteiltes System
Wissenschaftliche Anforderungen
Die nächste Generation von Instrumenten am OT wird eine Datenrate im Bereich von 70 TB pro Tag erreichen. Im Hinblick auf meherere solcher Instrumente von verschiedenen Partnern und im Vorgriff auf EST, bei dem die zu erwartende Datenrate eher im Bereich von 1 - 2 PB pro Tag liegen wird, ist die Beschränkung auf einen Standort nicht mehr adäquat. Ein Datenvolumen in diesem Bereich erfordert eine flexible Haltung von Teildatenbeständen an unterschiedlichen Standorten mit garantierten Redundanzen und Lebenszeiten.
Die Einspeisung der Daten von den unterschiedlichen Instrumenten, deren initiale Kalibrierung, die redundante Verteilung auf mehrere Standorte, sowie die Erzeugung von Standardprodukten, müssen automatisiert erfolgen.
Idealerweise sollten Rechnungen auf diesen Datenbeständen nahe den Datenspeicherorten ausgeführt werden. Sollte dies nicht möglich sein, so sollte der Datentransport zum Ort der Rechnung für den Nutzer möglichst transparent und unter Berücksichtigung der hierfür individuell zur Verfügung stehenden Resourcen und der anfallenden Kosten geschehen.
Rucio & dCache
Ein mögliches Produkt, das die oben beschriebenen Anforderungen erfüllt und bewiesen hat und das es mit Datenvolumina jenseits der oben geforderten Raten umgehen kann, ist Rucio. Rucio ist ein System zum wissenschaftlichen Datenmanagement, welches am CERN für Experimente am LHC entwickelt wurde. Alleine für das ATLAS Experiment belaufen sich die derzeit in diesem System gespeicherten (Stand Nov. 2021) Daten auf 450 PB verteilt auf 120 Standorte.
Auch in der Astronomie gewinnt Rucio immer mehr Anhänger (ESCAPE, SKA, ...) und wird für immer mehr Projekte mit Datenvolumina im oben beschriebenen Bereich eingesetzt. Ein Problem für den Einsatz im Bereich der Astronomie jedoch ist, dass Rucio von Haus aus keine Datenembargos, wie sie in allen Bereichen der Astronomie üblich sind, unterstützt. Für Daten vom OT beispielsweise, ist eine Embargoperiode von mindestens einem Jahr nach Beobachtung geplant. Dies erfordert (neben dem freien Zugriff auf nicht mehr einem Embargo unterliegende Daten), eine Nutzerauthentifizierung und -authorisierung über alle Zugriffsmöglichkeiten hinweg (siehe unten).
Rucio kann mit verschiedensten im wissenschaftlichen Umfeld gängigen Speichersystemen und -transportmechanismen umgehen. Wir haben uns für eine Speicherung auf Grundlage von dCache entschieden, einem quell-offenen, freien Produkt, dass ebenfalls aus dem Bereich der Teilchenphysik stammt und dort aktive weiterentwickelt wird.