Ist das von dir oder von DeepL?

Ein Forschungsprojekt des Goethe-Instituts entwickelt ein selbstlernendes Programm, das nicht nur dabei hilft, Schummler*innen zu entdecken. Im Gespräch mit Victoria Engels erklärt der Wissenschaftler Leo Sylvio Rüdian, wie ein solches Programm Lehrkräfte bei der Tutorierung eines Online-Deutschkurses unterstützt.

Von Victoria Engels

In dem Forschungsprojekt arbeitet das Goethe-Lab Sprache, eine Innovationseinheit des Goethe-Instituts, von 2019-2020 mit Prof. Dr. Niels Pinkwart und Leo Sylvio Rüdian von der Humboldt-Universität zu Berlin als wissenschaftlichem Partner zusammen. Ziel der Kooperation war es, auf Basis praktischer Fallbeispiele zu testen, inwieweit Natural Language Processing-Verfahren in Kombination mit Machine Learning zu einer automatisierten Analyse von Lernertexten in den Deutsch Online Kursen genutzt werden können.

Leo Sylvio Rüdian ist wissenschaftlicher Mitarbeiter des Weizenbaum-Instituts, Doktorand an der Humboldt-Universität zu Berlin und Mitglied des KI-Campus-Projekts im Educational Technology Lab beim Deutschen Forschungszentrum für Künstliche Intelligenz. Er sprach mit Victoria Engels vom Goethe-Institut über das Projekt.

Was ist der Unterschied zwischen Künstlicher Intelligenz, einem Neuronalen Netzwerk und einem selbstlernenden Programm?

Leo Sylvio Rüdian | Foto (Ausschnitt): © Leo Sylvio Rüdian

Wir verwenden den Begriff der Künstlichen Intelligenz unter anderem für Verfahren, die aus Daten lernen und dadurch Entscheidungen treffen. Die Idee besteht darin, dass wir einem Verfahren Daten aus unserer realen Welt zeigen, zum Beispiel Bilder von Katzen und Hunden. Methodisch kann dazu etwa ein Neuronales Netz trainiert werden. Das Verfahren lernt durch die Daten, auf welchem Bild eine Katze oder ein Hund zu sehen ist. Für künftige neue Bilder kann das Neuronale Netz dann entscheiden, welches der beiden Tiere es ist. Strukturen wie Neuronale Netze können uns helfen, Vorhersagen zu treffen. Allerdings gibt es einen Nachteil: Sie zeigen uns nicht, wie sie zu dem Ergebnis kommen. Sie zeigen uns nur das Ergebnis selbst.

Sie forschen zu automatisierter Textanalyse. Worum geht es in dem gemeinsamen Projekt zwischen der Humboldt-Universität zu Berlin und dem Goethe-Institut?

In zahlreichen Workshops gemeinsam mit dem Goethe-Institut haben wir eine hohe Distanz zwischen unserer Forschung und dem Einsatz in der Praxis festgestellt. Es gibt viele Technologien, an denen wir arbeiten, die trotz toller Ergebnisse bislang noch keinen Einzug in die Praxis der Online-Deutschkurse fanden. Eines der Themen ist die automatisierte Textanalyse, bei der wir von Anfang an das Ziel hatten, den Technologietransfer von der Wissenschaft zum Goethe-Institut zu ermöglichen. Im ersten Schritt haben wir uns darauf fokussiert, Tutor*innen bei der Bewertung von offenen Schreibaufgaben zu unterstützen.

Welches Problem kann eine automatisierte Textanalyse dabei lösen?

Eine der Hauptaufgaben der Tutor*innen ist die Bewertung und Korrektur von offenen Schreibaufgaben. Die Tutor*innen müssen überprüfen, ob ein Text einer aktuellen Lektion angemessen ist, ob die Lernenden den vermittelten Wortschatz angewandt und gelernte Grammatiken verwendet haben. Dazu ist viel Meta-Wissen über den Kurs notwendig. Wir wollten herausfinden, ob wir Verfahren entwickeln können, welche die Bewertung von offenen Schreibaufgaben übernehmen können, um so die Tutor*innen zu unterstützen. Denn faktisch haben wir viele objektive Parameter, die auch durch Algorithmen ausgewertet werden könnten.

Menschen sitzen in einem Hörsaal der Aalto-Universität, Espoo, Finnland — Das Erkennen von gefälschten Einsendungen ist heutzutage Teil des Sprachunterrichts | Foto: Dom Fou / Unsplash

Welche Daten nutzen Sie, um die Technologie zu trainieren?

Wir arbeiten auf zwei Ebenen: Mit den Kursinhalten und den bewerteten Nutzertexten offener Schreibaufgaben aus der Vergangenheit. Problematisch ist, dass das Verfahren für jede offene Schreibaufgabe neu trainiert und justiert werden muss. Das ist aufwändig, da für jede Aufgabe hunderte, besser sogar tausende Bewertungen vorliegen müssten.

Das lernende Programm soll auch dabei helfen, „Fake“-Texte zu erkennen. Wie muss man sich das vorstellen?

Es gibt ab und an Lernende, die offene Schreibaufgaben mit automatischen Übersetzungswerkzeugen wie Google Translate oder DeepL lösen. Solche „Fake“-Texte können wir mit unseren objektiven Kriterien häufig erkennen. Dort werden nämlich oft sprachliche Konstrukte und Wörter verwendet, die gar nicht in den Kursen vorkommen. Zeitgleich enthalten die Texte kaum Fehler. Die Kombination der Anwendung komplexer Sprachkonstruktionen mit einem nahezu fehlerfreien Text führt in unserem Algorithmus zu einer Warnung für die Tutor*innen. Dann lohnt es sich, den Text auf der Tutor*innenseite genauer zu begutachten.

Wie sieht die Zukunft des Sprachenlernens aus?

Die Zukunft des Sprachenlernens erfolgt individuell, inhaltlich und methodisch angepasst an das Vorwissen und an die Vorlieben der Lernenden. Bislang ist hierzu eine Privatlehrkraft notwendig, doch die Technologien ermöglichen eine personalisierte Lernerfahrung, um künftig effizienter lernen zu können. Tutor*innen werden dabei auch in naher Zukunft nicht ersetzt. Stattdessen werden sie unterstützt.

Dieses Interview erschien erstmals auf der Website von Goethe-Lab-Sprache im November 2020.