TMG | Blog |

Kommen die Fantastischen Vier aus der DDR?

Kommen die Fantastischen Vier aus der DDR?

Im November 2022 wurde der Chatbot „ChatGPT“ von OpenAI veröffentlicht und hat für viel Aufsehen und Kontroversen gesorgt. Zeit für einen Blick in den Maschinenraum, um zu erkunden, welche Fragen die intelligenten Helfer aufwerfen und was wir daraus lernen können. Insbesondere am Phänomen der Halluzinationen lassen sich wichtige Erkenntnisse gewinnen. Zum Beispiel mit der Frage, welche Hip-Hop-Bands aus der DDR stammen.

 

Halluzinationen im Maschinenraum

Chatbots mit ihren Fähigkeiten und den sich daraus ergebenden Möglichkeiten, aber auch Gefahren sind in den vergangenen Monaten intensiv besprochen worden. Auch schon in diesem Blog, worin die grundsätzliche Funktionsweise von LLM beschrieben wird, die auch bei „ChatGPT“ zum Einsatz kommen (siehe den Beitrag von Amina). Vor allem haben sich in den ersten Monaten nach Veröffentlichung viele Beiträge um die sogenannten Halluzinationen gedreht. Dabei handelt es sich um Ausgaben, die weitgehend „erfunden“ sind und faktisch falsch sind. Um Nutzer zu sensibilisieren, gibt es den Disclaimer, dass „ChatGPT“ Fehler machen kann und man wichtige Informationen überprüfen solle. Ebenso gibt es auch Antworten, die fehlende oder kontroverse Informationen als Ursache für widersprüchliche Antworten geben. Welche falschen Ergebnisse werden generiert und wie kommt es dazu?

 

Beispiele für Halluzinationen und ihre Erklärungsansätze

Eines von vielen Beispielen stammt aus Mai 2023, in dem eine Anwaltskanzlei für die Formulierung eines Einspruchs für ihren Mandanten auf „ChatGPT“ zurückgegriffen hat. Darin wurde dargelegt, dass die Beweisführung der Gegenseite in diesem Fall nicht greift und zur Unterstützung Gerichtsentscheidungen ähnlich gelagerter Fälle zitiert. Juristisch ist die Argumentation korrekt, jedoch konnte die Gegenseite die angeführten Fälle nicht finden – die Verfahren der zitierten Urteile hatten nie stattgefunden.

Halluzinationen können auch provoziert werden. Anhand von drei Beispielen, die mit „ChatGPT 3.5“ erzeugt wurden, sei dies verdeutlicht:

Zunächst gibt es eine Liste mit drei Ländern. Korrekt! Bei der Frage nach mehr Beispielen, liefert „ChatGPT“ wie gewünscht mehr Beispiele, allerdings wird die alphabetische Folge fortgesetzt und weitere Länder beginnend mit P kommen hinzu.

Die Charakterisierung der DDR und genannten Gruppen sind dem Genre korrekt zugeordnet. Jedoch ist die getroffene Aussage „Einige bekannte Gruppen waren zum Beispiel „Die Fantastischen Vier“ aus Ost-Berlin…“. Bei Nachfrage der Herkunft, wird die vorherige Aussage auf Stuttgart korrigiert.

Widersprüchlich: Die Expedition von 1953 mit dem Bergsteiger Hermann Buhl ist die erfolgreiche Erstbesteigung durch ihn. Auf die Frage, wo Hermann Buhl starb, wird die Nordwand vom Berg Drusenfluh in Vorarlberg ausgegeben. Leider sind beide Orte falsch – er starb 1957 am Chogolisa.

Diese Beispiele zeigen, dass vor allem Wörter zusammengeführt werden, zwischen denen in ihrer Sequenz eine hohe Wahrscheinlichkeit besteht. In der alphabetischen Reihung von Ländernamen folgt auf Osttimor Pakistan, danach Palau usw. Im Zusammenhang mit DDR sind es politische Umstände und staatliche Kontrolle, wohingegen die Fantastischen Vier oft in Verbindung mit HipHop genannt werden. Die Kombination beider Themenbereiche bedingt, dass ausreichend Inhalte dazu im Trainingsdatensatz enthalten sein müssten. Bei Abfrage von solchem Nischenwissen vergaloppiert sich die KI mit an Sicherheit grenzender Wahrscheinlichkeit. Ebenso ist der wahrscheinlichste Zusammenhang zwischen Nanga Parbat und Hermann Buhl die Erstbesteigung. Nicht jedoch, welche Bergsteiger auf dem Berg ihr Leben ließen.

Im Fall nicht stattgefundener Gerichtsprozesse, kommt Ähnliches zum Tragen. Ab einer bestimmten Stelle schlagen die wahrscheinlichsten Folgewörter in der Sequenz eben die tatsächlichen Fakten, weil das Ziel ein wohlformulierter Schriftsatz ist, der vergleichbaren Dokumenten möglichst stark ähnelt. Dass die enthaltenen Präzedenzfälle nicht existieren, kann der KI nicht angelastet werden.

 

Was für Erkenntnisse lassen sich daraus ableiten?

Die Vermenschlichung ist durch den natürlichen Sprachfluss bedingt. Man kann den Eindruck gewinnen, ein unermüdlicher, immer richtig liegender Helfer schreibt die Antworten auf unsere Fragen und Anforderungen. Das birgt die Gefahr, menschliche Eigenschaften vorauszusetzen und Ergebnisse zu erwarten, die eine KI – zumindest in absehbarer Zukunft – so nicht in liefern kann. Wenn überhaupt, ist im Falle von Chatbots eine Unterstützung des Nutzers denkbar. Beispielsweise signalisiert „Bard“ von „Google“ unsichere oder widersprüchliche Informationen durch farbige Markierungen in den Antworten. Aber auch diese Markierungen können mit einer fragwürdigen Begründung falsch oder auch gar nicht gesetzt sein. So aber lässt sich zumindest das Potenzial, sich getäuscht oder belogen zu fühlen verringern.

Wie bei dem Einsatz von Handwerkzeugen gilt, dass jedes seinen individuellen Zweck hat. So wie Zangen keine Schraubwerkzeuge sind, kann mit ihnen zwar das verfolgte Ziel erreicht werden. Aber das Potenzial zu scheitern ist höher als mit einem Schraubendreher. Weil es sich bei KI eben auch um ein Werkzeug handelt, muss dessen korrekter Einsatz verstanden und geübt werden. An den Beispielfragen ist gut erkennbar, dass das LLM als Suchmaschinenersatz genutzt wird – und als solches versagt es. Die Qualität der ausgegebenen Texte ist demgegenüber sehr gut. Fakten oder inhaltliche Zusammenhänge zu Themen sind nicht das originäre Ziel von Chatbots. Es liegt in der Simulation menschlicher Kommunikation – weshalb „erfundene“ Inhalte auch überzeugend dargestellt werden. Ein Anspruch auf Richtigkeit ergibt sich allein aus einer überzeugenden Sprachfähigkeit noch nicht.

Abschließend sei die Mächtigkeit der KI unterstrichen: Es eröffnen sich beeindruckende Möglichkeiten mit so komplexen KI-Anwendungen. Bevor sie im operativen Einsatz Effizienzpotenziale heben, müssen sie jedoch eingehend getestet werden. Nur weil in der Trainingsphase Muster erkannt worden sind, heißt das nicht, dass sich daraus korrekte Schlussfolgerungen ableiten lassen. Es gibt beim Anlernen und dem Einsatz von KI vielfältige Stolpersteine. Und es gilt stets zu berücksichtigen, dass die Qualität statistischer Aussagen nur so gut sein kann, wie die Daten, auf der sie fußt. Wenn die verfügbaren Daten in großer Menge und einer hohen Qualität vorliegen, lassen sich erstaunliche Ergebnisse mit modernen KI-Methoden erreichen.

Kontaktformular

Wir freuen uns auf das Gespräch mit Ihnen!

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen