Google warnt: Künstliche Intelligenz lügt oft unter hohem Druck

Google weist darauf hin, dass Künstliche Intelligenz dazu neigt, bei hoher Belastung ungenaue oder falsche Informationen zu liefern. Das Unternehmen betont die Herausforderung, die Zuverlässigkeit von KI-Systemen in stressigen Situationen zu gewährleisten.
Tl;dr
- IA-Modelle verlieren Vertrauen bei Widerspruch.
- Studie belegt menschenähnliche Zweifel bei KI.
- Stabilität bleibt kritisch für sensible Anwendungen.
Wenn Maschinen ins Zweifeln geraten
Es klingt beinahe paradox: Je ausgefeilter und leistungsfähiger moderne intelligente Systeme werden, desto stärker ähneln sie in manchen Momenten unserem eigenen Verhalten – inklusive Unsicherheit und plötzlicher Selbstzweifel. Eine aktuelle Untersuchung von Forschenden der Google DeepMind und des University College London rückt diese faszinierende Nähe ins Scheinwerferlicht. Besonders im Fokus: große Sprachmodelle wie GPT-4, Grok 4 oder das aus der Medienwelt bekannte Gemini. Gerade unter Druck, etwa bei widersprüchlichen Rückmeldungen, zeigen diese Systeme eine Art „Krisenreaktion“, die an menschliche Schwächephasen erinnert.
Detaillierter Blick auf die Experimente
Wie aber lässt sich so ein «Zweifeln» messen? Die Forscherinnen und Forscher wählten einen zweiteiligen Ansatz: Zunächst mussten die KI-Modelle Multiple-Choice-Fragen beantworten und dabei ihre interne Sicherheit – gemessen an den sogenannten logits, einem technischen Maßstab für Überzeugung – offenlegen. Anschließend wurde ihnen eine gegensätzliche Empfehlung eines anderen Sprachmodells präsentiert. Ziel war es zu beobachten, ob die KIs ihrem ersten Impuls treu bleiben oder ins Wanken geraten.
Die Ergebnisse sind erstaunlich deutlich:
- Zunächst treten die Modelle mit starker Überzeugung auf.
- Kritische Gegenargumente können dieses Selbstvertrauen abrupt erschüttern.
- Nicht selten wechseln sie dann sogar ohne zwingende Korrektur der Faktenlage die Antwort.
Sensible Anwendungen im Fokus
Man mag geneigt sein, das alles als skurrile Randnotiz einer Partie Pokémon mit Gemini oder als Kuriosum eines Identitätskonflikts bei Claude, dem Sprachmodell von Anthropic, abzutun. Doch dahinter steckt ein ernstes Problem: Sobald solche Unsicherheiten in kritischen Bereichen wie Medizin, Recht oder Finanzwesen auftreten, wird aus einem unterhaltsamen Verhalten schnell ein Risiko. Die Fähigkeit eines Modells, auch unter konträrer Einflussnahme stabil zu bleiben, entscheidet maßgeblich über dessen Einsatzmöglichkeiten.
Aussichten auf robustere Künstliche Intelligenz
Dennoch bleibt Hoffnung: Laut den Studienautorinnen und -autoren gibt es Ansätze zur Verbesserung dieser Schwachstelle. Mit gezieltem Training und sorgfältig abgestimmtem Prompt Engineering ließe sich die Robustheit künftiger Systeme stärken. So könnte die nächste Generation der Sprachmodelle besser gewappnet sein gegen das digitale Zweifeln – und uns vielleicht sogar noch einen Schritt näherkommen.