Moderner Umweltschutz baut darauf auf, wie gut wir verstehen und vorhersagen können, was in der Welt passiert.
Um das Verständnis menschlicher Experten zu erweitern, wurden Ansätze der künstlichen Intelligenz (KI) wie maschinelles Lernen entwickelt. Sie helfen Data Scientists, riesige Datenmengen schneller zu analysieren und unsichtbare Muster aufzudecken, ohne dabei jemals müde zu werden.
Um all das zu tun, braucht es geeignete Daten.
Maschinen lernen, indem sie Daten analysieren.
Die grundlegenden Methoden des maschinellen Lernens stammen aus den 1950er Jahren, aber erst in den 2000er Jahren gelangen den Wissenschaftlern mit einem datengesteuerten Ansatz wirkliche Erfolge. Je mehr Daten verfügbar waren, desto effektiver konnten ihre KI-Modelle werden.
Eine KI zu trainieren bedeutet, dass sie viele Daten benötigt, um Muster zu erkennen und darauf reagieren zu lernen. Die Menge an relevanten Daten, die erfasst und in das KI-Modell eingespeist werden können, wirkt sich direkt darauf aus, wie gut dieses Modell funktioniert.
Das Sammeln und Bereinigen dieser äußerst wichtigen Daten bildet die erste Hälfte eines Prozesses namens Data Engineering. Dabei spüren Data Scientists historische Daten aus einer Vielzahl unterschiedlicher Quellen auf und durchkämmen sie. Diese Daten sind verstreut, verwenden unterschiedliche Vokabulare und enthalten viele Inkonsistenzen. Daher benötigen die Data Scientists ihr menschliches Fachwissen, um alles in ein Format zu bringen, das ihr KI-Modell versteht.
Die andere Hälfte des Data-Engineering-Prozesses, das Feature-Engineering, konzentriert sich darauf, die gesammelten Daten so an das Modell anzupassen, dass es besser funktioniert. Data Scientists können beispielsweise zwei stark korrelierte Variablen zu einem einzigen Eingabemerkmal kombinieren, Wörter in Vektoren umwandeln oder sogar die Ausgabe eines anderen Modells als Eingabe für das neue verwenden (“Ensemble Learning”).
Der Data-Engineering-Prozess macht etwa 80 % des Aufwandes beim Implementieren des maschinellen Lernens aus.
Stellen Sie sich vor, wie viel besser die Modelle funktionieren könnten, wenn Data Scientists ihre ganze Zeit in Feature Engineering und Innovation investieren könnten, anstatt Daten zu sammeln und zu bereinigen.
Wenn große Pools harmonisierter Daten leicht zugänglich gemacht werden, können sie genau das tun.
Datenräume können große Pools harmonisierter Daten enthalten. Obwohl die harmonisierten Daten aus unterschiedlichen Quellen stammen, erfüllen sie gemeinsame Standards und lassen sich leicht auffinden und integrieren. Das verschafft den Data Scientists die Zeit für eine datenzentriertere Modellierung und das Vorantreiben von Innovationen.
Der andere Vorteil harmonisierter Datenräume ist die Reproduzierbarkeit.
Beim maschinellen Lernen ist, wie in jedem anderen wissenschaftlichen Bereich, die Reproduzierbarkeit von Ergebnissen ein wichtiges Ziel. Denn ohne Reproduzierbarkeit können diese Ergebnisse weder bestätigt noch durch neue Experimente verbessert werden.
Gemeinsam genutzte Datenräume ermöglichen es verschiedenen Data Scientists, problemlos auf genau dieselben Datenquellen zuzugreifen, die in einem ursprünglichen Experiment verwendet wurden, wobei aufgrund des Zeitablaufs wahrscheinlich sogar noch mehr Daten vorhanden sind. Dies macht es viel einfacher, das Original zu reproduzieren und mit neuen Projekten darauf aufzubauen.
Bestehende Modelle können verifiziert und so angepasst werden, dass sie in leicht geänderten Szenarien funktionieren. Ein KI-Modell, das der Forstwirtschaft in Deutschland hilft, kann der Forstwirtschaft überall auf der Welt helfen, vorausgesetzt, die Data Scientists können es mit den passenden Daten für ihr lokales Szenario füttern.
Mit harmonisierten Datenräumen können sie genau das.
Europa hat sich entschieden, in weniger als 30 Jahren ein klimaneutraler Kontinent zu werden. Um auf diesem anspruchsvollen Weg Entscheidungen zu treffen, die wirtschaftlich sinnvoll sind und gleichzeitig Biodiversität und Resilienz verbessern, ist der Zugang zu Umwelt- und Klimadaten essenziell.
Mit der Gründung der Environmental Data Spaces Community unterstützt wetransform den Aufbau von Datenökosystemen zur Nutzung von Umweltdaten. Die Mitglieder dieser Gemeinschaft kommen aus Behörden, Industrie sowie Forschung und Wissenschaft. Gemeinsam verfolgen wir das Ziel, Umweltdaten in einem sicheren Datenraum zugänglich zu machen, der die Datensouveränität gewährleistet.