24.DV-Treffen der MPG, 6.11-8.11. 2007, Jena 

Programmentwurf r2.0 

Abstracts

"Die größte Datenbank der Welt, ein Oracle?"

Michael Lautenschlager (WDCC / MPI-M)


In der Datenbank des ICSU World Data Center Climate (WDCC) werden Ergebnisse der Klimamodellierung und verwandter Beobachtungsdaten verwaltet, die langfristig verfügbar sein sollen und interdisziplinär genutzt werden. Verbunden mit dieser Zielsetzung sind Anforderungen an die Dokumentation und Organisationsstruktur der Daten.


Der suchbare Datenkatalog des WDCC ist in Tabellen des relationalen Datenbanksystems ORACLE gespeichert und basiert auf dem CERA Datenmodell (cera.wdc-climate.de). Die Klimadaten selbst werden als Zeitserien einzelner Variabler in BLOB (Binary Large Objects) Tabellen der Oracle Datenbank gespeichert. Die WDCC Datenbank stellte Anfang August 305 TB an Klima(modell)daten im Internet-Zugriff zur Verfügung. Die Daten sind organisiert und beschrieben in 975 Experimenten und 124.000 Datensätzen (BLOB-Tabellen). Die Summe der Tabelleneinträge beträgt 5,6 Milliarden, was einer mittleren BLOB-GRöße (kleinste zugreifbare Dateneinheit) von 60 kB entspricht. Der jährliche Datenzuwachs des WDCC betrug ca. 70 TB.


Neben einem Skript-basierten Datenzugriff über die Java-Schnittstelle der Oracle Datenbank wird ein Browser-basiertes, graphisches Interface für Katalogsuche und Datenzugriff angeboten (cera.wdc-climate.de)