Ein Experiment zeigt, dass sich die Halluzinationen von ChatGPT deutlich reduzieren lassen, wenn das Modell dazu gebracht wird, seinen eigenen Antworten zu misstrauen. Durch entsprechende Prompts agiert die KI wie ein „kritischer Prüfer“. Sie soll unbestätigte Behauptungen als falsch ansehen und unsichere Informationen eindeutig kennzeichnen. Dadurch werden die Antworten vorsichtiger, analytischer und zuverlässiger.
Halluzinationen können so nicht vollständig vermieden werden, treten aber seltener auf. Das Modell neigt weniger zu übertrieben selbstsicheren oder erfundenen Antworten und zeigt potenzielle Fehler eher an. Das Vorgehen verdeutlicht, dass gutes Prompt-Design die Verlässlichkeit großer Sprachmodelle deutlich verbessern kann, indem es zu kritischer Selbstüberprüfung und strukturiertem Umgang mit Unsicherheiten anregt.