11. Deutsch-Brasilianischer Dialog: Trotz Herausforderungen bei Datenbanken trägt KI zur Erhaltung indigener Sprachen in Brasilien bei

Obwohl die Modelle für künstliche Intelligenz (KI) zum Großteil auf englischsprachigen Daten aus den USA basieren, unterstützen sie bereits die Erfassung indigener Sprachen im Amazonasgebiet. Es muss jedoch eine kritische Reflexion dieser Technologie erfolgen, insbesondere in Bezug auf die Kompetenz der Nutzer. Mit diesen Schwerpunkten zum Thema KI in den Geisteswissenschaften beschäftigte sich das vierte Panel des 11. Deutsch-Brasilianischen Dialogs über Wissenschaft, Forschung und Innovation, der am 7. und 8. Mai in São Paulo stattfand.

Der Themenblock wurde moderiert von Professor Renata Wassermann von der Universität São Paulo (USP) und beinhaltete Beiträge von Claudio Pinhanez, der am Zentrum für Künstliche Intelligenz der USP (C4AI) und bei IBM Research tätig ist, sowie der Professoren Christoph Burchard (Goethe-Universität Frankfurt) und Diogo Cortiz (Päpstlich-Katholische Universität São Paulo – PUC-SP).

Cortiz machte darauf aufmerksam, dass die KI-Modelle vorwiegend mit Daten aus dem Globalen Norden gespeist werden – größtenteils aus den Vereinigten Staaten. Als Beispiel erwähnte er den Meta-Konzern, der die Plattformen Facebook, WhatsApp und Instagram betreibt und dessen KI-Modell namens Llama 95 % seiner Daten zum Trainieren vorab in englischer Sprache nutzt.

Im Rahmen einer von Cortiz durchgeführten Studie wurde der generativen künstlichen Intelligenz Midjourney, die Textbeschreibungen in Bilder umwandelt, der Befehl gegeben, Bilder von brasilianischen Volksfesten zu erstellen. „Im Fall des Folklore-Festivals in Parintins kam es vor, dass das System zwar verstanden hat, dass es sich um indigene oder afrobrasilianische Elemente handelte, aber bei der Bildgenerierung semiotische Zeichen der amerikanischen Kultur importierte. Wir sehen in solchen Bildern zum Beispiel Inhalte der Apachen-Kultur. Ein anderes Beispiel ist [das katholische Fest] Círio de Nazaré. Das System kommt bei diesem Thema komplett durcheinander und erstellt Bilder, die sich auf den für den Surfsport bekannten Nazaré-Strand in Portugal beziehen und vermischt das mit Digitalkunst“, erläuterte der Wissenschaftler.

Seiner Ansicht nach sind Daten nicht „das neue Erdöl“, sondern Gemeingüter, die zugänglich sein sollten. Cortiz setzt sich für das Einrichten von Datenbanken in portugiesischer Sprache ein, die auf lokale Kultur und Sprachen ausgerichtet sind, sowie für Investitionen in politische Maßnahmen für den Zugang der in Brasilien generierten Daten. „Wir erzeugen jeden Tag eine enorme Datenmenge. Die Menschen in Brasilien generieren diese Daten, aber dies geschieht innerhalb der großen Plattformen wie YouTube, Instagram etc. Wie bekommen wir Zugang zu diesen Daten, um unsere eigenen Modelle zu trainieren? Ist dies nicht der Fall, treten wir die für uns wertvollen Daten an die großen Portale und Netzwerke ab“, führte er aus.

Indigene Sprachen

Pinhanez, Vertreter des KI-Zentrums C4AI und von IBM, stellte Projekte des internationalen IT-Unternehmens in Kooperation mit den Instituten für Informatik und Linguistik der USP vor, die sich mit der Erhaltung der indigenen Sprachen im Norden Brasiliens beschäftigen. Von den aktuell 7.000 gesprochenen Sprachen weltweit werden Schätzungen zufolge die Hälfte von ihnen bis zum Ende dieses Jahrhunderts ausgestorben sein. In Bezug auf Brasilien ist das Szenario noch bedrohlicher: Viele der indigenen Sprachen werden von weniger als tausend Menschen gesprochen.

Der Ansatz dieser Projekte beruht auf der Verwendung von KI und Sprachmodellen, um Übersetzungstools, Wörterbücher und Korrekturwerkzeuge zu entwickeln, die zum Beispiel auf Handys genutzt werden können. Da es laut Pinhanez nur wenig verfügbare Daten gibt, konzentriert man sich hierbei auf die Optimierung bereits existierender Modelle, die mit dem vorhandenen Material trainiert werden. „Wir arbeiten mit einem Modell, das auf gemeinschaftliche Nutzung ausgelegt ist. Wir haben mit den Daten angefangen, die im Internet zu finden waren und haben dann mit den indigenen Gemeinschaften getestet, was funktioniert und was nicht. Das wichtigste ethische Prinzip ist es, mit den Völkern zusammenzuarbeiten – und nicht nur mit einzelnen Personen, sondern auch mit Organisationen, die diese Gemeinschaften repräsentieren“, erklärte er.

Das Team entwickelte Hilfsmittel wie Wörterbücher, Übersetzer und Wortvorschläge für Handys und Web, die geteilt und kopiert werden können, was ab Juli 2025 getestet wird. „Die derzeitigen Technologien, insbesondere die großen Sprachmodelle, können tatsächlich hilfreich sein. Wenn es sie nicht gäbe, wäre das alles nicht möglich. Unsere Vision ist anspruchsvoll: Wir wollen generische Modelle für diese Sprachen schaffen unter Berücksichtigung der Bedürfnisse der indigenen Gemeinschaften, die uns dabei unterstützen und diese Anwendungen nutzen“, so der Experte.

Kritische Kompetenz

Professor Burchard regte zu einer Reflexion hinsichtlich des Konzepts von digitaler Kompetenz im Bereich künstliche Intelligenz an. Diese ist in der Europäischen Union bereits gesetzlich vorgegeben: Die Anbieter müssen sicherstellen, dass die Nutzer über KI-Grundkenntnisse verfügen. Seiner Einschätzung nach wurde dieses Modell jedoch insbesondere in Deutschland unzureichend umgesetzt: Zuerst vermittelt man die Arbeitsweise und dann die Ethik (oder umgekehrt), was nicht funktioniert.

In diesem Zusammenhang präsentierte der Professor der Goethe-Universität Frankfurt das Konzept Critical Computational Literacy (CCL) für kritische digitale Kompetenz. Diesem Ansatz zufolge soll das Erlernen der Arbeitsweise von einer kritischen Reflexion begleitet werden.

„Wir möchten nicht in die Falle tappen, davon auszugehen, dass man alles mit Bildung oder der Entwicklung technischer Fähigkeiten lösen kann. Die kritische digitale Kompetenz sollte natürlich auf technologischer Expertise basieren, aber in Verbindung mit einer Gesellschaftskritik. Unserem Verständnis nach ist CCL ein Konzept mit Transformationspotenzial, das computerbasierte Befähigung und kritische Auseinandersetzung verknüpft. Anstelle eines additiven Ansatzes versuchen wir von Anfang an, kritische Reflexion in technische Lernprozesse zu integrieren und umgekehrt. Das Ziel dabei ist es, echte transdisziplinäre Kompetenz zu fördern“, betonte er.

Deutsch-Brasilianischer Dialog

Der 11. Deutsch-Brasilianische Dialog wurde vom Deutschen Wissenschafts- und Innovationshaus (DWIH) São Paulo und der Forschungsförderagentur des Bundesstaates São Paulo (FAPESP) durchgeführt. Im Rahmen der Veranstaltung diskutierten deutsche und brasilianische Expertinnen und Experten aus Wissenschaft und Industrie das diesjährige Thema „Artificial Intelligence: Promises, Expectations, and Limitations in Science and Society“.

Insgesamt wurden vier Themenblöcke behandelt: KI in der Medizin und im Gesundheitswesen, künstliche Intelligenz in den exakten und Ingenieurwissenschaften, Regulierung der Auswirkungen von KI und ihr Einsatz in den Geisteswissenschaften. Ziel war es, die Folgen dieser Technologie sowie Möglichkeiten zur Abmilderung der negativen Auswirkungen des Einsatzes von KI interdisziplinär zu erörtern.

Text: Rafael Targino

Die Video-Aufzeichnungen der Veranstaltung sind hier verfügbar

Portugiesisch

Englisch

DWIH São Paulo

Themen

Netzwerk

Forschung & Innovation

Aktivitäten und Service

DWIH-Jahresberichte

11. Deutsch-Brasilianischer Dialog: Trotz Herausforderungen bei Datenbanken trägt KI zur Erhaltung indigener Sprachen in Brasilien bei

Die Video-Aufzeichnungen der Veranstaltung sind hier verfügbar