Der SMART DATA BLOG

Home

Responsible AI

Content in Context

Data-Driven Business

Wie kann ein Computer lernen eine natürliche Sprache zu verstehen? (Teil 2: Textkodierung und Textaufbereitung)

von 15. Juli 2021Content in Context

Jeder, der etwas von Computern versteht, weiß, dass diese ausschließlich in „Nullen“ und „Einsen“ denken. Wie also kann ein Computer einen natürlich-sprachlichen Text dann nicht nur lesen, sondern sogar verstehen? Dies wollen wir im zweiten Teil unseres Beitrags näher betrachten (Hier geht es zu Teil 1).
Auf der Basis der Computer-Wörter „0“ und „1“ entstanden zu Anfang unseres digitalen Zeitalters Algorithmen für numerische Berechnungen, beispielsweise im Verwaltungswesen oder für wissenschaftliche Anwendungen. Der Umgang mit Texten beschränkte sich zunächst auf das Darstellen, Abspeichern, Wiederfinden, Vergleichen, Sortieren, Ändern und Löschen. Welche Techniken und Finessen sind erforderlich, dass ein Computer einen Text auch „verstehen“ kann?

Am Anfang steht die Kodierung

Allen Groß- und Kleinbuchstaben samt Diakritika, den Ziffern, Satzzeichen und Sonderzeichen ist ein eindeutiger Binärcode zugeordnet, z.B. der ASCII-Zeichensatz (128 Zeichen) oder der EBCDIC- Zeichensatz (256 Zeichen). Es wird schlichtweg nur mit dem „Bild“ eines Buchstabens oder Zeichens gearbeitet. Verschiedene Kodierungen ließen sich zunächst nicht gemeinsam in einer Datei speichern,  die Inhalte mussten umständlich konvertiert werden. Erst mit der aufwändigen Schaffung von UTF-8,  dem universellen und internationalen Standard zur Kodierung, wurde es einfacher. UTF-8 umfasst zahlreiche sog. Unicode-Zeichensätze: Version 1 vom Oktober 1991 enthielt 24 Schriftsysteme und ca. 7.000 Zeichen, Version 12 im Mai 2019 sogar 150 Schriftsysteme und ca. 138.000 Zeichen. Nun wurde es möglich, verschiedenste Zeichensysteme bunt gemischt von

中國人, عربى, ᚮᚱᛄ, ⠃⠗⠊ , ♫??? ??

bis

? ? ?

darzustellen und nebeneinander abzuspeichern. Ein alltäglicher Komfort, aber ein unterschätzter und unbemerkter Meilenstein des Computerzeitalters und ein Motor der Globalisierung.

Textarten und Informationsgehalt

Wie kann nun der Computer vom einem binär verschlüsselten „Bild“ eines Buchstabens den Sprung zum Wort, Satz, Information, Bedeutung und „zwischen den Zeilen lesen“ bewältigen? Betrachten wir dazu folgenden Beispieltext:

„Nennt mich Ismaelia-Mercedes. Als ich vor siebeneinhalb Jahren am 24. Dezember 1873 – ohne Belang, wie lange genau her – wenig oder gar nur 26 $ Geld im MyCashPocket hatte und mich im Lande Patagonien nichts Besonderes reizte, dachte ich, ich wollt ein wenig als Gallionsfigur auf einem Dreimaster herumsegeln und den wässrigen Teil der Erde, nämlich den Golf von Biskaya, besehen.“

Bei einem Menschen entstehen während des Lesens Bilder im Kopf, er notiert sich vielleicht einige konkrete und interpretierte Daten und fühlt sich hier auf verquere Weise an Moby Dick erinnert. Welche Stellen im Beispieltext liefern denn überhaupt Informationen oder lassen Rückschlüsse zu?

„Nennt mich Ismaelia-Mercedes (Protagonist ist eine Frau). Als ich vor siebeneinhalb Jahren am 24. Dezember 1873 (folglich ist es nun Juni 1881) – ohne Belang, wie lange genau her – wenig oder gar nur 26 $ Geld im MyCashPocket (?) hatte und mich im Lande Patagonien nichts Besonderes reizte, dachte ich, ich wollt ein wenig als Gallionsfigur auf einem Dreimaster herumsegeln und den wässrigen Teil der Erde (also die Meere),  nämlich den Golf von Biskaya, besehen.“

Was fällt auf?

  • Texte gehorchen keiner festen Struktur. Welche Wörter in welcher Reihenfolge, wie viele Sätze in welcher Länge, wie viele Überschriften oder Kapitel – das bestimmen nur der Textverfasser bzw. der Typ des Textes wie E-Mail, Tweet, Börsenticker oder Gedicht.
  • In einem Fließtext gibt es eher nur wenige informationstragenden Ausdrücke, aber eine Menge an sprachlichen Ausschmückungen und aussagelosen Füllwörtern, den sog. Stoppwörtern. Allein die 100 häufigsten deutschen Wörter (die, der, und, in, zu, den, das, nicht, von, sie …) bestreiten – in mehrfacher Verwendung – gut 60 % eines herkömmlichen Textes! Dieses Beiwerk ist nur dann relevant, wenn es um die Erkennung und Charakterisierung eines typischen Schreibstils (kurze oder verschachtelte Sätze, ausschmückende Adjektive, Wörtervielfalt, kurze oder eher längere Wörter, Reichtum an Stilmitteln wie Metaphern oder Alliteration usw.) bei einer Autorenschafts- oder Plagiatsprüfung durch den Computer geht.

Werkzeuge und Schritte für die Textaufbereitung

Der Computer braucht zunächst ein digitales Wörterbuch oder Lexikon, in dem für jedes Wort alle seine flektierten Formen, Zerlegungen und Unregelmäßigkeiten stehen. Damit kennt er die Morphologie der Sprache. Wegen der Tatsache „Es gibt kein vollständiges Wörterbuch“ ist das Wörterbuch aber immer etwas unpräzise. Als zweites braucht der Computer ein digitales Sprachmodell. Es beschreibt, mit welchen Wahrscheinlichkeiten die flektierten Wörter hintereinander stehen können und wie Sätze gebildet werden: „Sie liest gerne Bücher“ ist wahrscheinlicher als „Sie liest gerne Tücher“. Damit kennt er die Struktur der Sprache. Es gibt altgediente statistische Sprachmodelle auf der Basis von N-Grammen oder Hidden Markov Modellen bis hin zu den angesagten neuralen Sprachmodellen wie der BERT-Technologie. So wird es möglich, ab einer bestimmten Satzposition mögliche Folgewörter vorauszusagen und Rückschlüsse auf bedeutungsähnliche Wörter und Phrasen zu ziehen. Die Wahrscheinlichkeiten lernt ein Computer aus vielen Millionen Trainingssätzen.

Um Informationen in einem Text zu erkennen und zu extrahieren, muss der Text zuerst aufbereitet und mit Meta-Informationen versehen werden. Zunächst liest der Computer den Text als ewig lange Kette von Nullen und Einsen in seinen Speicher und zerlegt ihn dabei mit dem Wissen aus Wörterbuch und Sprachmodell in einzelne Wörter und Sätze. Hierbei sind spezielle Zeichen und Positionen, die wir Menschen quasi überlesen, von großer Bedeutung: das Leerzeichen (oder Blank, Space, Whitespace usw.), das Satzende und das Ende einer zusammengehörigen Wortfolge wie Überschrift oder Fußnote. Jedem separierten Wort werden u. a. Wortart und Grundform – falls es in flektierter Form vorlag – zugewiesen oder es erhält das Attribut „unbekannt“. Letzteres bedeutet aber nur, dass das Wort nicht in seinem Wörterbuch vorkam, dass der Computer aber trotzdem weiß, dass es laut Sprachmodell z.B. ein maskulines Einzahl-Nomen im Akkusativ sein müsste und bedeutungsähnlich zu den Wörter Kuchen oder Hefezopf ist („Sie bäckt heute einen Googlehuup.„).

In diesen Aufbereitungsschritten steckt viel Wissen um Sprachtheorie, Sprachregeln und vor allem um Sprachpragmatik, z.B. der Gebrauch der Subjekt-Prädikat-Objekt-Reihenfolge „Ich werde es dir zeigen. – Dir werde ich es zeigen! Das Mädchen beißt der Hund.“. Speziell bei unstrukturierten Texten helfen nur Detektivarbeit und Tricks, um die Erkennungsrate um Zehntel-Prozente zu steigern.

Als verdeutlichendes Beispiel sei die Satzende-Erkennung vorgestellt:
Hat Dr. H. – C. Mustermann am 1. April um 8.00 Uhr 3.50 € bei der A.B.C.-Bank e.V. einbezahlt?“
Ein Satz endet nicht immer mit einem „.“, sondern auch mit „?!-:;„. Ein „.“ kann auch bei Abkürzungen, Datum, Uhrzeit, Währung, E-Mail-Adresse, URL, einer fortlaufender Nummerierung u.a. vorkommen. Oft finden sich auch nur Satz- und Textbruchstücke wie Überschriften, Seitennummern, Grußformeln, Listen, Aufzählungen, Tabellen, Fußnoten, Quellenangaben oder ein Inhaltsverzeichnis. Hier muss der Computer entscheiden, an welchen Stellen am besten ein künstliches Satzende definiert wird.

Im nächsten Teil erfahren Sie, welche Informationsarten der Computer extrahieren kann und wo er dem Menschen dabei sogar überlegen ist.

Autor

Ulrike Handelshauser

Ulrike Handelshauser

Ulrike ist Informatikerin und Computer-Linguistin. Der thematische Schwerpunkt ihrer Blog-Beiträge zielt auf die Verständlichkeit und Bedienbarkeit des Mensch-Maschine-Interface.

Weitere Beiträge

Content ist dynamisch

d wie dynamisch Was bedeutet das? Das Konzept von dynamischem Content ist technisch motiviert und ist eine wichtige Eigenschaft moderner...

mehr lesen

Content ist beständig

B wie beständig Was bedeutet das? Beständig heißt langlebig, ausdauernd und nachhaltig. Ja, Content ist in der Tat nachhaltig. Was einmal im...

mehr lesen

Connect

Nutzen Sie Ihre Daten

Treten Sie mit uns in Kontakt und lassen Sie sich von den unzähligen erfolgreichen Use Cases überzeugen. Gerne findet die MORESOPHY eine passgenaue Lösung, wie wir nachhaltig Ihr Geschäftskonzept erfolgreicher machen können.

FOLLOW

Folgen Sie uns

Gerne können Sie unseren Updates und Neuigkeiten auch auf folgenden Social Media Plattformen verfolgen:

Cookie Consent Banner von Real Cookie Banner