illustration of a bee flying through the air over a forest, dragging a green label with the white text

Community Building Event: „Herausforderungen für den souveränen Umgang mit Daten im Umweltbereich und das Potential von Geodatenräumen“

Neuigkeiten Projekte Veranstaltungen Datenräume Environmental Data Interoperabilität

Annotierte Daten bilden die Grundlage für eine gute Modellbildung und dienen als treibende Kraft für die Weiterentwicklung KI-gesteuerter Umweltforschung. Jedoch ist die Verfügbarkeit von qualitativ hochwertigen, harmonisierten annotierten Daten stark eingeschränkt. Ein zentraler Aspekt von „LabelledGreenData4All“ ist daher die Verbesserung der Verfügbarkeit von annotierten Umweltdaten und umweltrelevanten Daten und deren sektorübergreifende gemeinsame Nutzung in souveränen Datenräumen. Dadurch kann der Aufwand für die Datenaufbereitung reduziert und der Fokus auf Innovationen gelegt werden.

Doch wer profitiert von einem souveränen Zugang zu Geodaten? Welche Interessen und Anforderungen sollten berücksichtig werden? Welchen Mehrwert bieten Datenräume für die verschiedenen Sektoren im Umweltbereich? Welche Anforderungen und Interessen gilt es zu berücksichtigen? Diese Fragen standen im Fokus unseres ersten Community Building Event.

illustration of two people observing environmental data on their tablets. between them is a rising green and white graph

„Alles steht und fällt mit den Trainingsdaten“

Nach einer kurzen Projektvorstellung durch Thorsten Reitz (wetransform GmbH) folgte ein Impulsvortrag über die Innovationskraft von annotierten Daten. Anhand von Beispielen zeigte Kevin Kocon vom Fraunhofer IGD, warum annotierte Daten eine so hohe Innovationskraft haben und wie KI helfen kann, Zeit und Kosten zu sparen. Dabei räumte er jedoch ein, dass dieses Potential von den Trainingsdaten abhängt. Anhand eines Beispiels aus der wissenschaftlichen Praxis zeigte er anschaulich, vor welchen Herausforderungen Forschende im Umgang mit Trainingsdaten stehen. Zudem erläuterte er welche Ansätze es gibt, um mit wenigen Trainingsdaten zu arbeiten. Er schloss seinen Vortrag mit einem Appell an die Community und fasste die wichtigsten Anforderungen an Trainingsdaten in Form einer „Wunschliste“ zusammen:

  • Das Wissen wo Trainingsdaten zu finden sind…
  • …und wie darauf zugegriffen werden kann
  • Metadaten / Beschreibungen, die es ermöglichen möglichst rasch den „fitness for use“ für eine bestimmte Trainingsaufgabe zu bestimmen
  • Das Wissen unter welchen Nutzungsbedingungen die Daten für ein Training verwendet werden dürfen…
  • …und welche Konsequenzen das für die Verwertung des resultierenden Modells hat
  • Und vieles mehr…

Datenräume als digitales Ökosystem

Anschließend stellte Thorsten Reitz (wetransform GmbH) das Datenraumkonzept als wichtige Lösungsstrategie zur Verbesserung der Zugänglichkeit sowie der Interoperabilität von Umweltdaten vor. Kritisch sieht Reitz, dass derzeit direkt wiederverwendbare Umweltdaten für ML-Entwicklung in vielen Bereichen eher die Ausnahme sind. Zudem sind annotierte Daten schwer auffindbar, schwer bewertbar und auch ihre Qualität ist nicht immer abschätzbar. Hinzu kommt, dass es insbesondere im wissenschaftlichen Bereich keine einheitlichen Standards für das Datenmanagement gibt. Obwohl viele Daten erhoben würden, seien für deren Nachnutzung nur wenige Prozesse etabliert, so Reitz. Darin sieht er die Hauptursachen dafür, dass Daten nicht geteilt werden oder nicht auffindbar sind.

Um dem dysfunktionalen Datenmarkt in Europa entgegenzuwirken, wurde die Europäische Datenstrategie als Lösungsstrategie ins Leben gerufen. Reitz sieht Datenräume als einen zentralen Baustein zur Umsetzung der europäischen Datenstrategie. Insbesondere ermöglichen Datenräume die volle Kontrolle über die Daten und schließen damit die Lücke zwischen Open Data und Closed Data. Datenräume bieten viele Möglichkeiten, die durch Aktivitäten auf EU-Ebene (z.B. GREAT-Projekt, SAGE-Projekt) realisiert werden können. Auf europäischer Ebene gibt es viele Initiativen zur Schaffung eines funktionierenden Marktes sowie Bestrebungen, die Interoperabilität über Datenräume hinweg zu gewährleisten. Neben den zahlreichen Chancen sind jedoch auch viele Herausforderungen zu bewältigen, auf die Reitz hinweist. Seiner Meinung nach liegt die Hauptherausforderung nicht in der Technologie, sondern vielmehr in der Governance, dem „sich einigen“ aller Beteiligten.

Reitz schließt mit einem optimistischen Blick in die Zukunft ab, da die Dynamik in diesem Bereich in den letzten Jahren enorm zugenommen hat. Seiner Meinung nach hat diese im Vergleich zu INSPIRE eine ganz andere Dimension erreicht und er geht davon aus, dass es in den nächsten ein bis zwei Jahren zu bedeutenden Entwicklungen kommen wird.

Chancen

  • Datenräume als perfektes Gegenmodell zu zentralisierenden, allmächtigen Plattformen
  • Adaption allgemeiner, standardisierter Lösungen fördert Zugänglichkeit, reduziert Lock-in
  • Personenbezogene und sicherheitskritische Daten können unter kontrollierten Bedingungen genutzt werden
  • Zusammenführung kleiner Datensätze führt zu besseren KI-Modellen
  • Standardisierte Anwendungen
  • Souveränität auf Daten- und Verarbeitungsebene
  • Ein Datenraum kann auf bestehenden Dateninfrastrukturen aufbauen

Herausforderungen

  • Fehlende rechtliche Vorgaben zur Umsetzung und zu den Konsequenzen
  • Governance (gemeinsame Regeln z.B. zur Datennutzung) ist die zentrale Hürde
  • Zusätzliche Komplexität
  • Teilweise unausgereifte Technologie und Infrastruktur
  • Bereitstellung ausreichender Daten
  • Interoperabilität spielt beim Aufbau von Datenräumen noch eine untergeordnete Rolle, wird aber inzwischen intensiver bearbeitet

Aufzeichnung