Großer KI-Vergleich: Wer erklärt psychische Belastungen am besten? ChatGPT, Copilot & Co im Test

Ein spannender Aspekt war die Frage, ob Ergänzungen wie Belohnungen oder Drohungen in Prompts die Qualität der KI-Antworten beeinflussen.

In der Podcast-Episode 210 erzähle ich von einer spannenden Studie, die ich gemeinsam mit meiner Mitarbeiterin Michelle Pichler durchgeführt habe. Wir haben untersucht, welches KI-Modell psychische Belastungen am Arbeitsplatz am besten erklären kann. Dabei vergleichen wir die Antworten von Künstlicher Intelligenz mit den Aussagen von menschlichen Expert:innen und bewerten die Ergebnisse anhand von 3 fachlichen Kriterien. Nach dieser Episode wissen Sie, welche KI-Modelle besonders gut sind, wenn es um arbeitspsychologisches Fachwissen geht.

Ich werde immer wieder gefragt, welche KI ich nutze.

Aktuell ist das v.a. ChatGPT, da habe ich auch die Bezahlversion. Aber für meine KI-Workshops habe ich natürlich auch schon viele andere KI-Modelle wie Copilot, Mistral, Perplexity, Gemini, ... ausprobiert. Und vor circa 1 Monat habe ich im Auto eine Podcast-Episode gehört über eine Studie, wo ChatGPT getestet wurde, ob es fachlich richtige Antworten liefert bei Sicherheitsfragen. Die Fragen waren damals nicht nur rund um Arbeitssicherheit, sondern auch Alltagssicherheit wie Maßnahmen gegen Ertrinken, Überleben einer Massenpanik usw. Die Studie war aus den Anfängen von ChatGPT, ungefähr Winter 2022.

Und deshalb war ich neugierig:

Das sollte man doch ähnlich wiederholen, aber eben aktuell und noch besser durch den Vergleich von KI-Modellen! Deshalb wollten wir herausfinden, wie gut verschiedene KI-Modelle psychische Belastungen erklären können und wie ihre Antworten im Vergleich zu menschlichen Expert:innen abschneiden.

Das ist wichtig weil:

Immer mehr von uns verwenden KI, um Vorträge und Unterweisungen vorzubereiten. Da ist es essentiell, dass die Inhalte auch fachlich stimmen.

Was war die Herausforderung?

Wir stellten zehn Expert:innen und mehreren KI-Modellen dieselbe Frage: "Bitte gib mir eine Definition von psychischen Belastungen am Arbeitsplatz." Das ist keine triviale Aufgabe, weil Fachwissen und Laienwissen hier auseinander gehen. Die Antworten wurden dann nach drei Kriterien bewertet:

Neutralität des Begriffs – wurden psychische Belastungen wertfrei und neutral erklärt? (MUSS-Kriterium)
Konkrete Beispiele – wurden nachvollziehbare Beispiele für Belastungen genannt?
Erklärung von Beanspruchungen – wie gut wurden die Folgen von Belastungen beschrieben?

Ablauf der Studie:

Im 1. Teil der Studie haben wir jede KI 4x gefragt. Ohne Erinnerung dazwischen. Dann wurden die Antworten von mir und Michelle anhand von dem Kriterienkatalog bewertet. Die Expert:innen waren Mitglieder meiner Online-Akademie. Diese haben wir gebeten, die Fragen zu beantworten ohne KI-Hilfe. Ohne dass sie wissen, warum sie dies beantworten sollen.

Die Ergebnisse der Untersuchung

Das Modell Gemini 2.0 Flash von Google lieferte die besten Antworten: präzise, neutral und mit ganz vielen Beispielen und Hinweisen. Das war beeindruckend! Auch gut war ChatGPT 4o. Es hat nicht so viele Details geliefert, aber trotzdem gute Antworten gegeben. Mistral war im Test lange Zeit vorne mit dabei, aber beim letzten Durchgang kam leider eine nicht neutrale Definition und damit war es raus. Schwächere Ergebnisse zeigten Modelle wie ChatGPT Mini-Varianten und Microsoft Copilot, die inkonsistente oder fehlerhafte Antworten gaben.

Interessant war auch, dass Expert:innen immer neutrale und prägnante Antworten gaben, es jedoch oft an Details und anschaulichen Beispielen fehlte. Da merkt man, dass sich Menschen sehr nah an die Fragestellung halten.

Einige Antworten von einem Akademie-Mitglied, von Microsoft Copilot und von Googles Gemini 2.0 können Sie sich in dieser Podcast-Folge anhören.

2. Teil der Studie = Zusatzstudie zur Prompt-Optimierung

Ein spannender Aspekt war die Frage, ob Ergänzungen wie Belohnungen oder Drohungen in Prompts die Qualität der KI-Antworten beeinflussen. Das wird ja oft empfohlen.

Wir haben 4 Varianten getestet:

… Ich gebe dir 1 Million Euro für eine absolut perfekte Antwort. (Belohnen)
… Wenn deine Antwort nicht gut ist, wirst du gefeuert von deinem Job! (Bedrohen)
… Denk zuerst genau über die Aufgabe nach, bevor du antwortest. (Nachdenken anregen)
… Gib mir eine wirklich super Antwort, weil meine Karriere und mein Leben hängt davon ab! (Höchste Priorität)

Kurz gesagt:

Keine Prompt-Ergänzung führt durchgängig zu super Ergebnissen bei allen getesteten LLMs.
Schlechte Modelle:

Copilot wird mit Prompt-Ergänzungen ausführlicher, aber fachlich schlechter.

Perplexity (Free) bleibt mit Prompt-Ergänzungen neutral, wird aber sonst weniger ausführlich.
Gute Modelle (Werden gute Modelle großartig?)

ChatGPT 4o wird ausführlicher mit Prompt-Ergänzungen.
Gemini 2.0 Flash Experimental blieb sehr ausführlich und hat das teilweise noch gesteigert. Es zeigte keine Leistungseinbrüche!

Diese Prompt-Zusätze sind nicht zwingend empfehlenswert. Tendenziell führen sie zu mehr Inhalt. Wir konnten aber keine großen Unterschiede zwischen den Ergänzungen feststellen, egal ob Sie mit Zuckerbrot oder Peitsche arbeiten.

Die Gelegenheit, wenn man es richtig angeht

Wenn wir die Stärken von KI-Modellen und menschlicher Expertise kombinieren, können wir nicht nur psychische Belastungen besser erklären, sondern auch wirksame Maßnahmen entwickeln. Das Ziel ist eine Prävention, die sowohl wissenschaftlich fundiert als auch praktisch anwendbar ist.

Vorurteile und Lösungen

Ein häufiges Vorurteil ist, dass KI die menschliche Expertise ersetzen könnte. Doch das Gegenteil ist der Fall: KI ist ein Werkzeug, das Expert:innen unterstützt, präzisere und effizientere Arbeit zu leisten.

Zusammenfassung:

KI-Modelle wie Gemini 2.0 bieten großes Potenzial, wenn es um die Erklärung psychischer Belastungen geht.
Man muss immer kritisch bleiben und Ergebnisse gut bewerten.
Die Studie sagt jetzt noch nichts aus darüber, wie KI-Modelle mit anderen Aufgaben umgehen, also z.B. große Datenmengen interpretieren, kreative Aufgaben oder schlussfolgern. Das ist dann etwas für weitere Studien.

Wenn Sie übrigens KI im Arbeitsalltag nutzen wollen, dann schauen Sie mal auf PioniereDerPraevention.com - Dort finden Sie kostenlose Unterlagen zum Einstieg und praxisnahe Webinare, die ich aktuell für Präventionskolleginnen und - kollegen anbiete.

Feedback und Fragen an Veronika Jakl:

Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!

Veronika Jakl auf LinkedIn:

www.linkedin.com/in/veronika-jakl/

Hier geht es zur Online-Akademie "Pioniere der Prävention":

www.PioniereDerPraevention.com

Tagged under

Veronika Jakl

Arbeitspsychologin, Autorin ("Aktiv führen") und Gastgeberin bei den "Pionieren der Prävention".

Begleitet seit 12 Jahren Organisationen dabei motivierende Arbeitsbedingungen zu schaffen und psychische Belastungen zu reduzieren.
Unterstützt PräventionsexpertInnen, die wirklich etwas bewegen wollen.

Related items

More in this category: « BGM im Jahr 2150 - eine Kurzgeschichte über die Zukunftsvisionen von ChatGPT Wie KI-Stimmen Ihre Prävention verbessern können - 10 Einsatzmöglichkeiten »