
Community Building Event: „Annotierte Daten im Umweltbereich – Lessons Learned aus dem Projekt LabelledGreenData4All“
Künstliche Intelligenz (KI) spielt eine entscheidende Rolle in der doppelten Transformation. Insbesondere im Umweltbereich sind Daten eine der wertvollsten Ressourcen. Durch den Einsatz von KI und Machine Learning (ML) können Umweltprobleme effizienter analysiert und nachhaltige Lösungen entwickelt werden. Annotierte Daten sind dabei zentral, da sie für das Training von KI-gestützten Modellen unverzichtbar sind und deren Qualität und Aussagekraft maßgeblich beeinflussen.
Das Projekt LabelledGreenData4All untersuchte das Potenzial annotierter Umweltdaten und entwickelte strategische Handlungsempfehlungen für deren optimale Nutzung. Das Team der wetransform GmbH und des Fraunhofer-Institut für Graphische Datenverarbeitung IGD arbeiteten gemeinsam daran, die Innovationskraft annotierter Umweltdatensätze anhand von Anwendungsfeldern zu erforschen, um den Einsatz von KI im Umweltbereich effizient und nachhaltig zu gestalten.
Im "Community Building Event" am 04. Februar 2025 präsentierte das Projektteam die Ergebnisse. Der erste Teil thematisierte den Bedarf, das Potential und die Wirkung annotierter Daten im Umweltsektor. Dem folgte ein technischer Teil, in welchem das im Projekt entwickelte Vorgehensmodell für die Datenannotation vorgestellt wurde.
Teil 1: Annotierte Daten im Umweltsektor: Welche politischen Handlungsempfehlungen ergeben sich aus Bedarf, Potential und Wirkung?
Nach einer Projekteinführung durch Cathleen Mitzschke (Referat Z 2.3 - Digitale Transformation und Beratungsstelle Green IT) wurde die Bedeutung von ML im Umweltbereich mit Fokus auf die Sektoren Biodiversität, Landwirtschaft und Forstwirtschaft durch Franziska Hochenegger (wetransform GmbH) beleuchtet. Insbesondere im Umweltsektor zeigen sich vielfältige Potenziale zur Verbesserung von Effizienz und Nachhaltigkeit. Im Sektor Biodiversität erleichtert ML die Artenerkennung und Überwachung von Lebensräumen und bedrohten Arten, wodurch präzisere Schutzmaßnahmen ermöglicht werden. In der Landwirtschaft unterstützen ML-Methoden die präzise Steuerung von Ressourcen wie Pestiziden und Düngemitteln und verbessern die Resilienz landwirtschaftlicher Systeme gegenüber dem Klimawandel. Forstwirtschaftliche Anwendungen umfassen die Waldüberwachung und frühzeitige Erkennung von Gefahren wie Bränden und Krankheiten.
Bezogen auf das Potential zeigte Frau Hochenegger, dass der Einsatz von KI- und ML-Methoden im Umweltbereich signifikante Vorteile bietet und diese sektorübergreifend genutzt werden können. Politisch gesehen unterstützt die datenbasierte Analyse politische Entscheidungsträger*innen im Umwelt- und Naturschutz, insbesondere durch die Bereitstellung fundierter Empfehlungen. Wissenschaftlich und technologisch kann KI ein besseres Verständnis komplexer Umweltsysteme fördern und Vorhersagemodelle für Umweltüberwachung und -schutz optimieren.
Wirtschaftlich gesehen optimieren ML-Verfahren Prozesse in Land- und Forstwirtschaft, z.B. durch eine effizientere Ressourcenverwaltung und Ernteprognosen, was zur Reduktion von Betriebskosten und zum Erhalt der Biodiversität beiträgt. In sozialer und ökologischer Hinsicht fördert KI die Erreichung der Nachhaltigkeitsziele (SDGs) durch eine effizientere Analyse und strategische Planung.
Die Wirkungsanalyse weist auf die komplexe Herausforderung hin, die positiven und negativen Effekte von KI bzw. ML-Verfahren in Bezug auf umwelt- und gesellschaftspolitische Ziele in geeigneter Weise auszubalancieren. Während ML die Verwirklichung von 79% der SDG-Unterziele unterstützen kann, sind beispielsweise etwa 35% der Unterziele durch den hohen Energieverbrauch gefährdet.
Qualitätsgesicherte und interoperable Daten: Ein Engpass für KI-Anwendungen im Umweltbereich:
Trotz des hohen Potentials annotierter Daten existieren signifikante Herausforderungen, die den Zugang zu und die Nutzung von Umweltdaten beeinflussen. Die sektorspezifische Betrachtung zeigte insbesondere, dass sich im landwirtschaftlichen Sektor die Wiederverwendbarkeit annotierter Daten aufgrund der heterogenen Anwendungsfälle sowie wenig Überlappungen in Bezug auf Daten und Methodik sehr schwierig gestaltet. Im forstwirtschaftlichen Sektor ist vor allem das Fehlen von Datenstandards und die geringe Bereitschaft Daten zu teilen problematisch, während im Sektor Biodiversität die Heterogenität der Daten sowie die hohen Anforderungen an die Interoperabilität und Integration ausschlaggebend sind.
Technische, rechtliche und infrastrukturelle Barrieren begrenzen zudem die Verfügbarkeit und Interoperabilität von Daten. Besonders in sensiblen Bereichen wie der Forstwirtschaft und der Biodiversität fehlen oft standardisierte, qualitätsgesicherte und leicht zugängliche Daten, welche nach den FAIR-Prinzipien bereitgestellt werden. Insbesondere ein Mangel an Metadatenstandards und offenen Formaten erschwert die effektive Nutzung von annotierten Umweltdaten. Die nachfolgende Tabelle bietet einen Überblick über die bestehenden Limitierungen und Hindernisse.
Handlungsempfehlungen
Basierend auf diesen Ergebnissen wurden Handlungsempfehlungen zur Förderung eines robusten, nachhaltigen Datenökosystems, das den Umweltsektor unterstützt und zugleich die Effizienz, Transparenz und Resilienz in der Nutzung von KI-basierten Lösungen verbessert, durch Frau Hochenegger vorgestellt.
Zusammenfassung der Empfehlungen
- Förderung der Datenkompetenz und Implementierung von Datenmanagement-Richtlinien
- Etablierung von Datenräumen und Datentreuhändern
- Standardisierung als Grundlage für das Datenteilen
- Rechtlicher Rahmen für Risikobewertung
- Verpflichtendes Teilen von Forschungsdaten
- Etablierung von Anreizstrukturen
Teil 2: ML-Anwendungen mit wenigen Daten
Im Projekt konzentrierte sich das Fraunhofer IGD auf die Evaluierung und Analyse vorhandener Annotationsverfahren sowie ihrer Skalierbarkeit und ihrer Ergebnisqualität. Basierend darauf wurde ein Vorgehensmodell für die Datenannotation unter Berücksichtigung verschiedener Datenarten und Anwendungsfälle entwickelt, welches im Community Building Event ausführlich durch Kevin Kocon (Fraunhofer IGD) vorgestellt wurde.
Das Vorgehensmodell wurde als Entscheidungshilfe für das Arbeiten mit wenigen Daten bei der Entwicklung von ML-Anwendungen im Umweltbereich entwickelt und anhand von zwei konkreten Anwendungsfällen validiert. Die Studie fokussierte sich auf Fernerkundungsdaten (Luftbilder, Satellitenbilder, Punktwolkendaten). Entscheidende Kriterien waren zudem Automatisierbarkeit und Skalierbarkeit. Wirtschaftliche Aspekte wurden bei der Entwicklung des Vorgehensmodells nicht berücksichtigt.
Schrittweise führte Herr Kocon durch die Studie: Der gewählte Ansatz umfasste die Einrichtung einer technischen Experimentierplattform zur Automatisierung von Datenverarbeitungsprozessen sowie die Evaluierung verschiedener Annotationsmethoden. Letzteres gliederte sich in daten- und modellzentrierte Ansätze, welche durch Herrn Kocon kurz erläutert wurden. Sie bildeten die Grundlage für die Entwicklung eines Entscheidungsbaums, der, abhängig von der Verfügbarkeit gelabelter Daten geeignete Annotationsansätze vorschlägt.
Für die anschließende prototypische Umsetzung wurden die komplementären Ansätze Pseudo-Labeling und Transfer Learning für die beiden Anwendungsfälle ausgewählt und evaluiert. Basierend auf den Ergebnisse der prototypischen Umsetzung zeigte Herr Kocon, dass mit Pseudo-Labeling selbst bei geringer Verfügbarkeit von gelabelten Daten qualitativ hochwertige Ergebnisse erzielt werden können. Zudem erläuterte er, dass Transfer Learning als ressourcenschonende Methode die Trainingszeit erheblich verkürzen kann.
Entscheidungsbaum als zentrales Ergebnis der Studie
Der Entscheidungsbaum bietet Entwickler*innen von ML-Modellen Handlungsempfehlungen für verschiedene Szenarien, die sich hinsichtlich der Verfügbarkeit gelabelter Daten unterscheiden. Anhand der Ergebnisauswertung für die beiden Anwendungsfälle zeigte Herr Kocon, dass eine Kombination aus daten- und modellzentrierten Ansätzen eine effektive Strategie zur Bewältigung der Herausforderungen bei der Arbeit mit wenigen annotierten Daten darstellen kann. Das entwickelte Vorgehensmodell fungiert somit als praktische Orientierungshilfe für die komplexen Aufgaben guter Modellbildung.
Fazit und weiterer Forschungsbedarf
Das vorgestellte Verfahren legt den Fokus auf die Verfügbarkeit von Daten. Ein weiteres wichtiges Entscheidungskriterium ist die Qualität der Referenzlabels. Es besteht ein dringender Bedarf an standardisierten Verfahren, um die Qualität von Referenzlabels beurteilen und in die Entscheidungsfindung einbeziehen zu können. Darüber hinaus wird empfohlen, das Vorgehensmodell zu erweitern, um die Anwendungsfälle stärker zu differenzieren, weitere Datentypen zu berücksichtigen und weitere Entscheidungskriterien wie z.B. Aspekte der Wirtschaftlichkeit und Nachhaltigkeit einzubeziehen.