Im Allgemeinen unterscheidet man im Machine Learning zwischen vier verschiedenen Typen von Modellen: Dem überwachten Lernen (supervised Learning), dem unüberwachten Lernen (unsupervised Learning), dem teilüberwachten Lernen und dem Reinforcement Learning. Dieser Artikel soll Einsteigern oder Nicht-Technikern das überwachte Lernen anschaulich näherbringen.
Lernen mit Goldstandard
Beim überwachten Lernen lernt ein Algorithmus aus Paaren von Ein- und Ausgaben. Zu jeder Dateninstanz steht der tatsächliche Wert bzw. das tatsächliche Label zur Verfügung: Beispiel für eine Dateninstanz wäre zum Beispiel ein Wort, wenn ein Modell zur Wortarterkennung (POS-Tagging) trainiert werden soll. Das entsprechende korrekte Label ist dann die durch Menschen festgelegte Wortart. Diese Menge der tatsächlichen Werte nennt man auch die Annotationen oder den Goldstandard.
Der Lernprozess eines ML-Modells anschaulich erklärt
Den Lernprozess eines ML-Modells kann man mit dem eines Kindes vergleichen, das Korrekturen durch Erwachsene erhält. Am Anfang ohne viele Instanzen und Korrekturen gesehen zu haben, hat ein Kleinkind, das sprechen lernt, oft noch zu vereinfachte Vorstellungen: Nachdem seine Eltern ihm dreimal eine Taube gezeigt und benannt haben, wird es höchstwahrscheinlich auch eine “Möwe” erst einmal als Taube bezeichnen, schließlich ist sie ja ebenfalls ein Vogel.
Erst nach ein paar Korrekturen wird das Kind lernen, dass nicht alle Vögel Tauben sind. Sondern das man unter anderem Farbe des Gefieders und die Form des Schnabels zur richtigen Benennung der Vogelart betrachten muss. Die Eigenschaft Flügel und einen Schnabel zu besitzen ist zu allgemein. Je mehr leicht unterschiedliche Möwen das Kind zu sehen bekommt, desto treffsicherer wird es bei der Erkennung von Möwen. Hat es dagegen noch nie einen Raben gesehen, wird es nicht in der Lage sein ihn richtig zu benennen. An diesem Beispiel wird also klar, dass die Trainingsdaten eines Maschine-Learning-Modells repräsentativ und vollständig für die anschließende Vorhersageaufgabe sein sollten.
Muss der Goldstandard immer von menschlichen Annotatoren stammen?
Nicht immer müssen die die Goldstandardwerte durch menschliche Annotation von Daten erzeugt werden, gerade im Bereich der Regression (Vorhersage von stetigen Werten wie etwa bei der Vorhersage von Luftverschmutzungswerten), können die Werte des Goldstandards zum Beispiel durch Messsensoren ermittelt werden. Gerade da nicht immer galabelte Daten zur Verfügung stehen und das Labeln von Daten zeitintensiv ist, gibt es auch kombinierte Verfahren: Im semi-supervised Learning wird ein größerer Teil der Annotationen maschinell erzeugt, während ein kleinerer Teil vom Menschen annotiert wurde.
Bei MORESOPHY nutzen wir auf diese Weise trainierte Maschine-Learning-Modelle beispielsweise für die Segment-Klassifikation innerhalb unseres semantischen Knowledge Graphen.