In einem Experiment wurden mehrere KI-Chatbots zur Bewertung von KI-generierten Lebensläufen eingesetzt. Modelle wie die GPT-Systeme von OpenAI und Claude von Anthropic sollten Bewerbungsprofile beurteilen, die von anderen KI-Systemen erstellt wurden. Die Ergebnisse zeigen deutliche Unterschiede in der Bewertung. Claude bewertete eigene Antworten dabei häufig besser als die von konkurrierenden Modellen wie GPT.
Die Studie zeigt Unstimmigkeiten bei der Qualitätsbewertung durch große Sprachmodelle auf, selbst wenn es um die Beurteilung ähnlicher, von KI generierter Inhalte geht. Die Forscher weisen darauf hin, dass dies Fragen hinsichtlich Voreingenommenheit und der Zuverlässigkeit von Selbstbewertungen aufwirft. Es stellt sich die allgemeine Herausforderung, KI-Systeme einzusetzen, um andere KI-Systeme in praktischen Anwendungsfällen zu bewerten.