Computerlinguistik

Mit klugen Algorithmen die Qualität von ChatGPT messen

20. September 2023 von Christina Alma Emilian, Sophie Hanak
Benjamin Roth untersucht, wie Algorithmen uns bei der Verarbeitung von großen Textmengen unterstützen können. Gemeinsam mit seinem Team entwickelt er Programme, mit denen man die Qualität von ChatGPT und Co. messen kann.
Symbolbild Computerlinguistik
Benjamin Roth möchte mit seinem vom WWTF geförderten Projekt neue Methoden der Computerlinguistik entwickeln. © iStock

Rudolphina: Herr Prof. Roth, Sie forschen zum Thema "Computerlinguistik". Was ist das eigentlich?

Benjamin Roth: Tatsächlich ist dieser Forschungsbereich den wenigsten Menschen ein Begriff, dabei kommen wir alle fast täglich mit Anwendungen aus diesem Gebiet in Berührung. Und das nicht erst seit dem Hype um den KI-Chatbot ChatGPT. In diesen Bereich gehören auch Übersetzungsprogramme wie "Google Translate" oder Programme, die anhand von Schlagwörtern selbstständig Texte erstellen.

Die Computerlinguistik untersucht, wie Sprache – die zum Beispiel in Form von Texten oder Sprachaufnahmen vorliegt – mit Hilfe von Algorithmen verarbeitet werden kann. Sie befindet sich damit an der Schnittstelle zwischen Sprachwissenschaft und Informatik, deshalb ist meine Professur für Digitale Textwissenschaften an der Uni Wien sowohl an der Fakultät für Informatik als auch an der Philologisch-Kulturwissenschaftlichen Fakultät angesiedelt.

Rudolphina: Was ist die Aufgabe vom Algorithmus in der digitalen Textverarbeitung?

Benjamin Roth: Es gibt in der Computerlinguistik grob gesagt zwei Schulen: Die ältere ist regelbasiert, sprich der Algorithmus braucht eine genaue Anweisung, was er in einem konkreten Fall zu tun hat. Dem Übersetzungsprogramm liegt beispielsweise ein Wort vor, das es mit einem anderen übersetzt: "Apfel" wird zu "Apple" im Englischen. Der Algorithmus kann bei einem bestimmten Input nur einen bestimmten Output liefern – er kann aber nicht von einem Fall auf andere schließen. Unregelmäßige Verben zum Beispiel kann so ein System nicht konjugieren, wenn dies nicht explizit programmiert wird.

Die neuere Schule verwendet Machine Learning, welches nicht regel- sondern datenbasiert funktioniert. Hier muss nicht jeder einzelne Fall vorgegeben werden: Der Algorithmus kann anhand von Beispielen auf ähnliche Fälle schließen. Das funktioniert aber nur, wenn er ausreichend viele Fälle kennt, mit deren Hilfe er verallgemeinern kann.

Anstelle von Regeln lernt der Algorithmus aus Beispielen, die sogenannte "Annotationen" haben. Eine Annotation ist die Anreicherung einer Eingabe mit einer erwünschten Ausgabe, etwa die Übersetzung eines Beispieltextes in eine andere Sprache. Der Algorithmus kann aus einer Fülle von Texten lernen, wie er mit Sonderfällen umgehen muss – auch wenn man diese Sonderfälle nicht als Regel eins zu eins vorgegeben hat. Das Programm kann Regeln bis zu einem gewissen Grad also selbst erkennen und lernen.

Rudolphina: Gibt es einen konkreten Algorithmus, an dem Sie und ihr Team gerade tüfteln?

Benjamin Roth: Grundsätzlich arbeiten wir derzeit an einem Algorithmus, der aus Texten Informationen herausfiltern und zusammenfassen kann. Das Ziel unseres Forschungsprojekts ist es, den Umweg über die Annotationen – also die manuelle Aufbereitung von Daten – zu verkürzen. Wir entwickeln eine Methode, bei der wir dem Algorithmus nur noch Prototypen geben, aber keine Beispiele mehr nötig sind. Ich stelle also etwa die Anfrage "Suche mir alle Firmen mit Hauptsitz in Europa", nenne aber keine Beispiele für solche Firmen.

Rudolphina: Wie könnte uns Ihr Algorithmus in der Zukunft helfen? 

Benjamin Roth: Ich sehe großes Potenzial für viele verschiedene Einsatzgebiete. Um Anfragen beantworten zu können, benötigen beispielsweise auch Siri und Alexa menschliche Annotator*innen, die das System laufend mit Informationen und Beispielen füttern – das läuft nicht automatisch ab! Menschen müssen permanent die Interaktionen zwischen den Nutzer*innen und diesen Systemen beobachten, sie lesen Fehlerberichte durch, hören Sequenzen nach, die das System nicht verstanden hat, und verknüpfen dann nicht erkannte Befehle mit bestimmten Handlungen. Sie erschaffen manuell neue Kategorien, die dann wiederum mit bestimmten Anweisungen im System verknüpft werden.

Mit unseren Methoden könnte vieles davon automatisch passieren. Aber unsere Forschung hat nicht nur für Unternehmen Potenzial, sondern für alle Lebensbereiche, zum Beispiel auch für die Wissenschaft oder für die Demokratie.

Rudolphina: Was könnte der Algorithmus denn in der Wissenschaft oder für die Demokratie bewirken?

Benjamin Roth: In der Forschung kann er unterstützend eingesetzt werden. Man könnte dem Programm sagen: "Durchsuche das Internet und alle Datenbanken, die ich dir vorgebe, nach Studien zu einem bestimmten Thema, und fasse alle relevanten Informationen zusammen". Evidenz systematisch zusammenzufassen wäre dadurch viel einfacher und günstiger. Heute arbeiten große Forschungsteams oft jahrelang an systematischen Übersichtsarbeiten oder Metaanalysen, weil sie alles händisch durchgehen müssen. Der Computer könnte das blitzschnell erledigen. Obwohl natürlich wichtige Aufgaben wie Schlüsse ziehen oder Entscheidungen treffen nach wie vor Aufgabe der Forscher*innen bleibt.

Ein anderes Beispiel: Ich betreue derzeit eine Masterarbeit, in der Texte über politische Reformen und deren Auswirkungen in verschiedenen Ländern mit sprachtechnologischen Methoden untersucht werden. Aber was genau sind politische Reformen? Es gibt dafür keine "Standardform", keine Beispiele, aus denen ein Algorithmus dann extrapolieren kann – dafür sind Reformen viel zu unterschiedlich. Unser Programm könnte alle Reformen systematisch suchen und analysieren.

Wenn man das weiterdenkt, kann man sich leicht vorstellen, dass so eine Anwendung auch dazu beitragen könnte, Information für Entscheidungsprozesse in der Politik bereitzustellen. Unsere Algorithmen können dann unterstützen, wenn es darum geht, mit riesigen Datenmengen umzugehen, wie beispielsweise Journalist*innen mit den Panama Papers oder Pandora Papers. Diese händisch durchzugehen ist extrem aufwändig. Mit einer intelligenten, computerbasierten Anwendung wäre das sehr einfach möglich. Die würde nämlich nicht wie eine klassische Suchmaschine funktionieren, die einen Text nach bestimmten Stichwörtern durchsucht, ich könnte vielmehr eine Frage stellen und der Algorithmus würde mir Informationen aggregiert aus allen Texten zusammenfassen.

Stapel an Papieren
Kluge Algorithmen, wie sie Benjamin Roth und sein Team entwickeln, können riesige Datenmengen untersuchen und dadurch in verschiedenen Bereichen unterstützen, vom Journalismus über die Wissenschaft bis hin zur Politik.

Rudolphina: Wie kommt ChatGPT hier ins Spiel, was halten Sie von dem Programm? 

Benjamin Roth: Ich finde es faszinierend, dass ChatGPT so gut funktioniert, kaum grammatische Fehler macht und allgemein schon sehr viele Dinge sehr gut kann. Es ist spannend, dass dies jede*r ausprobieren kann, problematisch ist jedoch, dass außer der Entwicklerfirma OpenAI niemand so wirklich genau weiß, wie das Programm funktioniert. ChatGPT ist technisch beeindruckend, man sollte sich aber nicht fehlleiten lassen. Eine Doktorandin aus meinem Team beschäftigt sich aktuell mit dem Thema zeitliche Zusammenhänge in Texten. Wenn man nun dem KI-Chatbot solch einen Text zeigt und fragt, was vorher oder nachher passiert sei, dann macht er sehr viele Fehler.

Rudolphina: Waren Sie überrascht, als das Programm vorgestellt wurde?

Benjamin Roth: Ja schon, ich muss aber sagen, dass es schon Jahre zuvor viele Entwicklungen gab, die mich genauso überrascht haben, etwa die Fortschritte in der maschinellen Übersetzung mit neuronalen Sprachmodellen im Jahr 2014 oder der sogenannte "Attention Mechanism", der 2017 herauskam. Es ist beeindruckend, was hier in den letzten Jahren passiert ist, und Chat GPT war dann der nächste Schritt.

Mit den Algorithmen, die wir entwickeln, können wir beispielsweise messen, wie gut die Ausgaben sind, die ChatGPT generiert.
Benjamin Roth

Rudolphina: Was hat "Ihr" Algorithmus Programmen wie ChatGPT voraus?

Benjamin Roth: Die Algorithmen, die wir entwickeln, stehen nicht im Gegensatz zu ChatGPT. Z.B. erforschen wir Methoden, die man kontrolliert einsetzen kann, um messen zu können, wie gut die Qualität von ChatGPT und Co. ist. Die Ergebnisse können dabei helfen, die Programme zu verbessern. Hat man etwa verschiedene Chatbots, die auf die gleiche Frage unterschiedliche Antworten geben, können unsere Algorithmen uns sagen, welche dieser Antworten am zuverlässigsten ist.

Rudolphina: Wie gehen Sie mit den aktuellen Entwicklungen um, geht Ihnen manches zu schnell?

Benjamin Roth: Dass ständig etwas Neues nachkommt, macht es auch spannend. Noch vor wenigen Jahren wurden bestimmte Fehler in Sprachsystemen wie z.B. der maschinellen Übersetzung als Beleg dafür genommen, dass statistische Algorithmen kein tiefes Sprachverstehen entwickeln können. Viele dieser Fälle beherrschen die aktuellen Systeme jetzt aber fehlerfrei.

Die Geschwindigkeit der Entwicklungen zwingt uns dazu, genauer darüber nachzudenken, was wir unter "echtem" Sprachverständnis verstehen. Definieren wir ein messbares Kriterium? Dann müssten wir auch akzeptieren, dass ein System Sprachverständnis im Sinne des Kriteriums hat, wenn ein Test dafür erfüllt ist. Oder lehnen wir die Möglichkeit, dass Algorithmen wie die Sprachmodelle hinter ChatGPT Sprachverständnis entwickeln können, aus prinzipiellen Überlegungen ab, etwa weil sie anders als der Mensch nicht mit einem Körper die durch Sprache beschriebene Welt sinnlich erfahren können? Diese Sichtweise entzieht sich aber in gewisser Weise der wissenschaftlichen Methode, weil sie nicht durch einen Versuchsaufbau bestätigt oder widerlegt werden kann. 

Vielen Dank für das Gespräch!

Mehr über KI erfahren: Ringvorlesung, Selbstlern-Kurs MOOC & Zemanek Lecture

  • In der von Benjamin Roth organisierten Ringvorlesung Machines That Understand? Large Language Models and Artificial Intelligence im WS 2023/24 berichten internationale Vortragende über aktuelle Entwicklungen im Bereich der KI sowie deren Fähigkeiten, Grenzen und gesellschaftliche Relevanz. Mehr Infos zu den Ringvorlesungen im WS 2023/24 an der Uni Wien
  • Wer mehr über Digitalisierung und damit einhergehende Transformationsprozesse wissen möchte, dem empfehlen wir den kostenlosen digitalen Selbstlern-Kurs MOOC "Digitales Leben 4". Die fünf Lektionen ermöglichen es den Teilnehmer*innen, die Risiken und Möglichkeiten digitaler Transformationsprozesse zu bewerten, eine konstruktiv-kritische Position zum digitalen Wandel zu beziehen und sich als aktiven Teil der digitalen Transformation zu fühlen.
  • Vortrag: Die Österreichische Computer Gesellschaft lädt am 5.10.2023 zur Zemanek Lecture in den Festsaal der Universität Wien. Prof. Georg Gottlob, University of Oxford, spricht zum Thema "Künstliche Intelligenz und Künstliche Ignoranz".
© Privat
© Privat
Benjamin Roth Benjamin Roth ist seit September 2020 Professor für "Digitale Textwissenschaften" an der Fakultät für Informatik und an der Philologisch-Kulturwissenschaftliche Fakultät.

Roth leitet die "Natural Processing Working Group", eine Forschungsgruppe innerhalb der Research Group Data Mining and Machine Learning. Mit seiner Forschung trägt er dazu bei, sprachtechnologische Algorithmen besser zu verstehen, analysieren und entwickeln zu können.