Workshop-Reihe: Das Potential annotierter Daten im Umweltsektor
LabelledGreenData4All - Annotierte Datensätze als Innovationskraft im Umweltsektor
Annotierte Daten bilden die Grundlage für eine gute Modellbildung und dienen als treibende Kraft für die Weiterentwicklung KI-gesteuerter Umweltforschung. Annotierte Datensätze können die Genauigkeit und Effizienz von Umweltüberwachungs- und Prognosesystemen erheblich verbessern. Sie ermöglichen präzisere Analysen von Umweltdaten, was zur Entwicklung effektiverer Strategien zur Bekämpfung des Klimawandels und des Artenschutzes beiträgt. Darüber hinaus fördern sie die Integration von KI in umweltrelevante Anwendungen, wodurch nachhaltigere Lösungen geschaffen werden können.
In welchen Sektoren entfalten annotierte Daten die größte Wirkung? Wo liegt ihr größtes Potenzial? Welche aktuellen Hemmnisse bestehen, und welche Chancen und Risiken gehen damit einher? Diese und viele weitere Fragestellungen eruierten wir zusammen mit Experten und Expertinnen in unserer Workshop-Reihe zum Thema “Das Potential annotierter Daten im Umweltsektor”. Der Fokus lag dabei auf den Sektoren Landwirtschaft, Forstwirtschaft und Biodiversität.
Annotationen als limitierender Faktor in der Landwirtschaft
Unser Auftaktworkshop am 27.09.2024 beschäftigte sich mit dem Potential annotierter Daten in der digitalen Landwirtschaft. Florian Männer vom Fraunhofer IGD in Rostock stellte dazu eine Vielzahl an möglichen Anwendungen im Bereich Smart Farming vor. Angefangen von Bodenfeuchtekarten aus Satellitendaten, über die Identifikation von ökologischen Vorrangflächen, der KI-basierten Analyse von Drohnenbildern zur Biodiversitätsbestimmung, dem Erkennen von Pilzerkrankungen und Insektenbefall an Erdbeerpflanzen im Folientunnel sowie vielen Beispielen im Bereich Tierhaltung, Tierwohl und Tiergesundheit (z.B. Lahmheitserkennung von Kühen, Schmerzerkennung bei Mäusen), konnte Herr Männer in seinem Vortrag den Facettenreichtum KI-gestützter Analysen veranschaulichen. Die anschließende Diskussion drehte sich um die Wiederverwendbarkeit annotierter Daten und um Strategien für das effektive Arbeiten mit wenig Trainingsdaten.
Vor allem die Wiederverwendbarkeit annotierter Daten gestaltet sich oft sehr schwierig, da die Anwendungsfälle meist heterogen und spezifisch sind und es nur wenige Überlappungen in Bezug auf Daten und/oder die Methodik gibt. Eine Ausnahme bildet der Pflanzenbau, da die Methodik auf Objekterkennung von 2D-Bildern ausgerichtet ist und es dabei größere Überschneidungen gibt. Im Gegensatz dazu sind die Ansätze im Bereich Tierwohl und Tiergesundheit sehr individuell.
Das größte Potential in der Landwirtschaft sieht Herr Männer im Bereich Ökologie und Artenerkennung. Er räumt jedoch ein, dass dieses Potential nur dann ausgeschöpft werden kann, wenn die entsprechenden Daten zur Verfügung stehen. In diesem Zusammenhang weist Herr Männer darauf hin, dass es derzeit nur wenige Drohnendaten für die Arterkennung gibt. Sein Team setzt daher auf die Generierung synthetischer Daten, um künstlich eine Vielfalt zu erzeugen, die in der Natur so nicht vorkommt. Er betonte auch, dass die zeitliche Mehrfachdatenerfassung in Gebieten mit Trainingsdaten ebenfalls sehr wertvoll ist.
Wir fassten den Workshop mit dem Fazit zusammen, dass nicht die Erfassung der Daten das Schwierigste ist, sondern tatsächlich die Zeit und der Aufwand die für die qualitative Annotation der Daten aufgewendet werden müssen.
Ergebnisse:
- Intelligente Landwirtschaft profitiert enorm von Big Data und ML
- ML hat zu erheblichen Fortschritten bei Effizienz, Nachhaltigkeit und Produktivität geführt
- Die Landwirtschaft gehört zu den Vorreitern der KI, und ist dabei den meisten anderen Branchen voraus
- Ökologie und Artenerkennung haben großes Potential, wobei die Wiederverwendbarkeit von annotierten Daten ein zentraler Aspekt ist
- Die Annotation erfordert den größten Zeit- und Arbeitsaufwand
- Hindernisse wie die mangelnde Standardisierung und Einschränkungen aufgrund der Datenaggregation schränken die Verfügbarkeit und Nutzbarkeit von Daten ein, so dass das Potential nicht voll ausgeschöpft werden kann
„Es gibt keine Kultur des Standardisierens und des Datenteilens in der Forstwirtschaft“
Im zweiten Workshop fokussierten wir uns auf das Potential annotierter Daten in der Forstwirtschaft. Als Impulsredner durften wir Richard Georgi von der OGF GmbH begrüßen. In seinem Vortrag zeigte Herr Georgi die derzeitigen Grenzen der Standardisierung von Metadaten und Trainingsdaten auf und bekräftigte erneut, dass die Verfügbarkeit der Daten ein großes Problem darstellt. Er betonte das Potential, das in der Standardisierung und der gemeinsamen Nutzung von Trainingsdaten für die Forstwirtschaft liegt. Er zeigte auch auf, wie wichtig es ist, durch die Bündelung der Kräfte und die Etablierung gemeinsamer Standards für Daten und Metadaten ein vernetztes Ökosystem zu schaffen, das es ermöglicht, das volle Potenzial der KI in der Forstwirtschaft auszuschöpfen und nachhaltige Lösungen zu entwickeln.
Die Diskussion konzentrierte sich auf die Themen Standardisierung und Datenverfügbarkeit. Herr Georgi betonte noch einmal, dass es ein enormes Defizit zwischen dem was möglich ist und dem, was tatsächlich in der Praxis umgesetzt wird, gibt, was auf die Verfügbarkeit von standardisierten und qualitätsgeprüften Daten zurückzuführen ist. In diesem Zusammenhang spielt vor allem die Transparenz eine wichtige Rolle. Nach wie vor werden Forstinventurdaten nur eingeschränkt zur Verfügung gestellt, so dass ein effektives Training von Algorithmen nicht möglich ist. Ähnlich sieht es bei der Bereitstellung von Forschungsdaten aus, die ebenfalls nur begrenzt und meist nicht in standardisierter Form zur Verfügung stehen.
Der Workshop schloss mit der Erkenntnis, dass ein gemeinsamer Standard für die Bereitstellung von Daten und damit für die Ausschöpfung des Potenzials im Forstsektor essenziell ist. Datenräume sind eine Möglichkeit für eine nachhaltige Lösung der Datenbereitstellung.
Ergebnisse:
- Es besteht eine große Diskrepanz zwischen dem, was technisch möglich ist und dem, was tatsächlich in der Praxis umgesetzt wird, so dass das Potenzial nicht ausgeschöpft wird
- Datenschutz als zentraler Aspekt für das Datenteilen
- Transparenz fördert Effizienz
- Derzeit gibt es keinen gemeinsamen Standard für die Aufbereitung von forstlichen Daten
- Datenräume als nachhaltige Lösung
„KI ist nur so schlau wie der Experte dahinter“
Der letzte Workshop drehte sich um das Thema Biodiversität. Erneut konnten wir Florian Männer vom Fraunhofer IGD begrüßen. In seinem Vortrag stellte er aktuelle Technologien und entsprechende Anwendungen zur Biodiversitätsbestimmung im Grünland, Mooren und Agrarlandschaften vor. Auf Basis von Luftbilddaten trainiert sein Team Machine Learning-Algorithmen zur Erkennung von Pflanzenarten, Pflanzenbiodiversität und Biotopvielfalt. Dies erfolgt mit annotierten Daten aus eigens dafür erhobenen Datensätzen mittels Drohnen oder Flugzeugbefliegungen, aber auch mit Bilddaten, die bereits annotiert sind oder nachträglich annotiert werden.
Im Mittelpunkt der Diskussion standen erneut annotierte Daten. Aber auch Kontextdaten, wie z.B. Bewirtschaftungsdaten, wurden als wichtige Parameter angesprochen. Ähnlich wie in der Forstwirtschaft erweist sich die Verfügbarkeit auch in der Landwirtschaft als sehr schwierig, da diese direkt von den Landwirten erhoben und zur Verfügung gestellt werden müssen. Bestehende Plattformen wie Flora Incognita sowie Crowdsourcing wurden als mögliche Optionen diskutiert, um zusätzliche Daten in die Analysen einfließen zu lassen.
Aktuell setzt das Fraunhofer IGD auf manuelle Annotationen durch Personen mit botanischem Fachwissen, wie Botaniker oder Ökologen. Durch den „Human in the loop“ Ansatz ist es möglich die Algorithmen langfristig effektiv zu trainieren, da lediglich Daten eingespeist werden, die das System falsch erkannt hat. Auf diese Weise wird der Algorithmus intelligenter und kann so die bestmöglichen Ergebnisse liefern, während der manuelle Anteil sukzessive reduziert wird.
Ergebnisse:
- ML-Methoden haben vielfältige Anwendungsmöglichkeiten in der Biodiversitätsforschung
- Crowdsourcing als Möglichkeit Datenverfügbarkeit zu verbessern
- Expertinnen und Experten sind für das Training von KI unverzichtbar
- „Human in the loop“ als zentraler Ansatz, um Algorithmen intelligenter zu machen
Ausblick
Die Erkenntnisse aus unserer Workshop-Reihe werden als Grundlage für die weiteren Analysen innerhalb von LabelledGreenData4All genutzt. Ziel ist eine Analyse der Potentiale und Wirkungen annotierter Daten im Umweltsektor als Grundlage für politische Handlungsempfehlungen. Insbesondere sollen für das Umweltressort strategische Empfehlungen erarbeitet werden, in welchen Anwendungsbereichen und mit welchen Daten die größten Potentiale für den Einsatz von ML-Modellen bestehen.