Gängige KI-Modelle scheitern an einfachen Aufgaben
Eine aktuelle Studie enthüllt gravierende Defizite im logischen Denken der gängigen großen Sprachmodelle (LLMs). Getestet wurden Modelle wie GPT 3.5, GPT 4, Claude 3 Opus, Googles Gemini, Llama 2 und 3, Mistral, Mixtral, Dbrx und Command R+. Die einfache Frage "Alice hat N Brüder und M Schwestern. Wie viele Schwestern hat Alice' Bruder?" brachte viele Modelle ins Straucheln. Besonders beunruhigend fanden die Forscher, dass diese Modelle oft falsche Antworten als korrekt darstellen und dies mit scheinbar logischen, aber falschen Argumenten untermauern, berichtet Heise.
Interessanterweise schnitten GPT-4 und Claude 3 besser ab und lieferten gelegentlich korrekte Antworten. Dennoch ist das allgemeine Ergebnis alarmierend. Die Forscher vom Juelich Supercomputing Center und weiteren Institutionen betonen, dass die Modelle oft als "stochastische Papageien" beschrieben werden, die nur wiedergeben, was sie gelernt haben, ohne echtes Verständnis zu zeigen. Dies erklärt, warum sie bei simplen logischen Aufgaben versagen.
Besonders gefährlich sehen die Forscher, dass diese Modelle ihre falschen Antworten selbstbewusst als richtig präsentieren und dabei erfundene Erklärungen liefern. Dies könnte zu ernsthaften Missverständnissen und Fehlentscheidungen führen, wenn solche Modelle in wichtigen Bereichen eingesetzt werden. Die Studie fordert daher, die aktuellen Benchmarks für KI-Modelle zu überdenken, um solche grundlegenden logischen Defizite besser erkennen zu können.