Psychologische Tests zur Personalauswahl und Personaldiagnostik liegen im Trend. Mittels standardisierter Verfahren sollen Informationen über Bewerbende evaluiert werden, um die Treffsicherheit bei Stellenbesetzungen zu erhöhen und Fehlbesetzungen zu vermeiden. Speziell der Einsatz von Online-Persönlichkeitstests hat in den letzten Jahren stark an Beliebtheit gewonnen. (Armoneite et al., 2020).
Die Vorteile von Online-Persönlichkeitstests Verfahren liegen auf der Hand: Sie sind einfach zugänglich, digital durchführbar und dank automatisierter Auswertung mit geringem Aufwand verbunden. Zudem liefern sie einheitliche Vergleichswerte von Bewerbenden, was die Herleitung und Begründung von Personalentscheidungen unterstützt und das „Bauchgefühl“ validieren kann. Dies setzt jedoch voraus, dass die Verfahren wissenschaftliche Mindeststandards erfüllen und für den richtigen Zweck eingesetzt werden. In der Realität ist dies oft nicht der Fall.
Auf dem undurchsichtigen und nichtregulierten Markt gibt es eine Fülle an Produkten, die wissenschaftliche Standards nicht erfüllen und mit fragwürdigen Versprechungen verkauft werden. Dies wurde bereits im vorangegangen Blogbeitrag thematisiert. Kurz zusammengefasst: Hossiep et al. (2022) zeigen auf, dass Verfahren, die aus wissenschaftlicher Perspektive längst überholt und wiederholt kritisiert wurden, nach wie vor weit verbreitet sind. Wie ist dies möglich? Anbieter von fragwürdigen Testverfahren machen sich den Umstand zunutze, dass Entscheidungsträger:innen im Personalwesen oft nur über unzureichendes Wissen zur Evaluation von geeigneten Instrumenten verfügen. Durch geschicktes Marketing, pseudowissenschaftlicher Rhetorik und dem Barnumeffekt gelingt es den selbsternannten Experten, Entscheidungsträger:innen von einem Verfahren zu überzeugen. Dies kann fatale Folgen haben, wenn aufgrund unseriöser Verfahren im Einstellungsprozess Fehlentscheidungen getroffen werden oder der Auswahlprozess auf tiefe Akzeptanz bei den Bewerbenden stösst, was sich letztlich auch negativ auf das Unternehmensimage auswirkt.
Die negativen Folgen von Fehlbesetzungen liegen auf der Hand (Sutherland & Wöcke, 2011):
- Zusätzlicher zeitlicher Aufwand für das Management
- Kundenunzufriedenheit
- Absinken der Moral der Mitarbeitenden
- Erhöhte Kosten
Selektionsentscheide gehen also mit einer grossen Verantwortung einher und Entscheidungsträger:innen stehen in der Pflicht, ihre Entscheidungen so objektiv und begründbar wie möglich zu fällen. Dies beginnt bei der Evaluation der im Auswahlprozess eingesetzten Methoden und Verfahren. Die psychologische Diagnostik hält dafür die notwendigen Antworten zur Beurteilung bereit.
Psychometrische Güterkriterien
Das zentrale Mass zur Evaluation von Personalauswahlverfahren und der Persönlichkeitsdiagnostik sind die Güterkriterien eines Instrumentes. Bei der psychologischen Diagnostik geht es im Kern um die Erfassung von konkret messbaren Merkmalen, um dann Rückschlüsse auf nicht direkt beobachtbare, abstrakte Eigenschaften zu ziehen. So werden beispielsweise Intelligenz-Tests eingesetzt, um die kognitiven Fähigkeiten einer Person anhand der Testleistung einzuschätzen. Um zu bestimmen, ob ein solcher Schluss zulässig ist und um die Qualität von psychologischen Testungen beurteilen zu können werden die Objektivität, die Reliabilität und die Validität eines Verfahrens untersucht. Diese Gütekriterien sind die ausschlaggebenden Qualitätsmerkmale eignungsdiagnostischer bzw. psychologischer Messinstrumente.
Anhand dieser Kriterien lässt sich feststellen, ob ein Verfahren auch einhält, was es verspricht. Nur Instrumente, die alle drei Kriterien in ausreichendem Mass erfüllen, können das, was sie zu messen vorgeben, auch zuverlässig abbilden. Ein psychologisches Testverfahren muss zwingend alle drei Kriterien erfüllen, damit dessen Einsatz zu rechtfertigen ist.
Der erste Schritt bei der Evaluation eines Verfahrens ist die Suche nach unabhängigen Informationen über diese Gütekriterien. Dafür kann auf Testrezensionen zurückgegriffen werden, die eine unabhängige Einschätzung ermöglichen und zum Ziel haben, die Öffentlichkeit vor unzureichend validierten diagnostischen Verfahren und der unsachgemäßen Anwendung psychometrischer Tests zu schützen. Dazu eigenen sich unter anderem folgende Plattformen:
https://psyndex.de/tests/testkuratorium/
https://test.sdbb.ch/1583.aspx
Lassen sich keine unabhängigen Rezensionen zu einem Verfahren finden, ist dies ein erstes Anzeichen dafür, dass es sich um ein unseriöses Produkt handeln könnte. Es hilft aber auch, sich etwas vertiefter mit den drei Gütekriterien auseinanderzusetzen, um die Qualität eines Verfahrens besser einschätzen zu können.
Das Gütekriterium, welches am einfachsten zu erfüllen ist und auf dem die anderen aufbauen ist die Objektivität. Sie gibt Auskunft darüber, in welchem Mass das Testergebnis unabhängig von der Testleitung ist. Um eine hohe Objektivität zu erreichen, ist es zentral, sowohl Durchführung und Auswertung als auch Interpretation der Erhebung zu standardisieren. Mögliche Fehlerquellen, die sich negativ auf die Objektivität auswirken können, sind:
- Wenn unterschiedliche Instruktionen bei der Durchführung des Verfahrens gegeben werden
- Wenn das Verfahren fehlerhaft ausgewertet wird
- Wenn die Interpretation der Ergebnisse nicht ausreichend standardisiert erfolgt
Onlinetestungen weisen in der Regel von Natur aus eine hohe Objektivität aus, da die Durchführung für alle zu testenden Personen identisch ist. Sie haben zudem den Vorteil, dass die Auswertung automatisch erfolgt und somit die Fehleranfälligkeit bei der Auswertung minimiert wird. Vorsicht ist bei Verfahren geboten, die sich durch geringe Standardisierung auszeichnen und bei denen die Interpretation der Resultate stark von der subjektiven Meinung der Testleitung abhängen.
Die Reliabilität gibt Auskunft über die Messgenauigkeit (Zuverlässigkeit) eines Verfahrens. Nur wenn ein Verfahren auch tatsächlich präzise und zuverlässig ein Merkmal erfassen kann, eignet es sich für den Einsatz in der Praxis. Möchte man also eine stabile Eigenschaft einer Person erheben, sollte eine wiederholte Messung zu möglichst ähnlichen Ergebnissen führen (Retest-Reliabilität). Kann ein Instrument dies nicht gewährleisten, sollte es folglich auch nicht eingesetzt werden. Es gibt noch weitere Verfahren, die dazu dienen, zu überprüfen, ob ein Verfahren reliabel ist. Einen Überblick finden Sie hier. Die verschiedene Arten der Reliabilitätsanalyse haben gemein, dass die Genauigkeit der Messung typischerweise als Korrelation angegeben wird. In der Forschung gilt ein Wert ab 0.8 als akzeptabel.
Die Validität gibt Auskunft darüber, ob ein Verfahren auch tatsächlich das misst, was es zu messen beansprucht und nichts anderes. Von den drei Gütekriterien ist es das Wichtigste, wobei es Objektivität und Reliabilität voraussetzt. Es ist jedoch nicht unüblich, dass ein Verfahren ein Merkmal zwar reliabel erfasst, aber dennoch nicht valide ist und zur Kategorie „Humbug“ gehört. So bieten beispielsweise Tablets der Graphologie (Schriftanalyse) die Möglichkeit, die Druckstärke oder Geschwindigkeit der Schreibweise messgenau zu erfassen. Zusammenhänge mit der Persönlichkeit der Verfasserin oder des Verfassers bleiben dennoch höchst fragwürdig (Beyerstein 1992).
Um zu bestimmen, ob ein Verfahren auch wirklich seinen Messgegenstand erhebt, gibt es verschiedene Ansätze. Eine schöne Übersicht lässt sich hier finden.
Beispielsweise lässt sich ein neues Verfahren validieren, indem geprüft wird, ob es zuverlässige Vorhersagen über die Zukunft macht (Kriteriumsvalidität). So sollte ein hoher Wert in einem Intelligenztest mit Kriterien wie der Arbeitsleistung, Karriereentwicklung, Gehaltsentwicklung oder Ausbildungsnoten zusammenhängen. Weiter lässt sich ein Verfahren auch validieren, indem es mit Instrumenten verglichen wird, welche dasselbe Konstrukt abbilden. Ein neuer Intelligenztest sollte demnach hoch mit etablierten IQ-Tests korrelieren (Konstruktvalidität) und wenig bis keine Korrelationen zu nicht verwandten Konstrukten wie z.B. Persönlichkeitseigenschaften aufweisen (diskriminante Validität).
Mit Vorsicht sollten Aussagen betreffend die Validität eines Verfahrens betrachtet werden, wenn diese vom Anbieter selbst stammen und nicht von unabhängigen Testrezensionen. Zudem sollte darauf geachtet werden, dass die Validität nicht mit anderen Konstrukten verwechselt wird. Für unseriöse Anbieter ist es nicht unüblich, die Begriffe in einem falschen Kontext zu verwenden. So ist es beispielsweise nicht zulässig, von der Kundenzufriedenheit eines Produkts auf dessen Validität zu schliessen.
Die Auswahl eines wissenschaftlich fundierten Verfahrens bildet erst die Basis für einen qualitativ hochwertigen Auswahlprozess. Ein gut validiertes Verfahren alleine reicht nicht aus, um eine fundierte Personalentscheidung zu fällen. Gerade Persönlichkeitstests sind stets im Lichte ihrer Stärken und Limitationen zu bewerten und sollten nie als alleiniges Selektionsinstrument eingesetzt werden. In vielen Fällen handelt es sich um Selbstbeschreibungen, die anfällig auf Manipulationsversuche oder sozial erwünschtes Antwortverhalten sind. Zudem unterscheiden sich Personen hinsichtlich ihrer Reflexionsfähigkeit. Eine Person, die sich selbst gegenüber kritischer eingestellt ist, wird dies auch im Persönlichkeitsfragebogen zum Ausdruck bringen, während sehr selbstüberzeugte Bewerbende eher zu Übertreibungen neigen. Wir empfehlen den Einsatz von Persönlichkeitstests als Ergänzung in einem Auswahlprozess, wenn die Ergebnisse mindestens in einem strukturierten Interview validiert und Auffälligkeiten vertieft abgefragt werden.
Haben Sie Fragen zu Persönlichkeitstests, Assessment-Center oder Potenzialanalysen? Kontaktieren Sie uns für ein unverbindliches Beratungsgespräch via:
Eric Häusler
M.Sc. Psychologie UZH
Leiter Assessment Percoms AG
eric.haeusler@percoms.ch
+41 71 222 12 12
Quellen:
Armoneit, C., Schuler, H. & Hell, B. (2020). Nutzung, Validität, Praktikabilität und Akzeptanz psychologischer Personalauswahlverfahren in Deutschland 1985, 1993, 2007, 2020. Zeitschrift für Arbeits- und Organisationspsychologie, 64 (2), 67-82. https://doi.org/10.1026/0932-4089/a000311
Beyerstein, D. F. Beyerstein (Hrsg.): The Write Stuff. Evaluations of Graphology – The Study of Handwriting Analysis. Prometheus Books, Buffalo 1992.
Hossiep, R., Weiss, S., Netzer, M. & Hossiep, R. (2022). Personalauswahl: Typen-Tests noch immer weit verbreitet. Wirtschaftspsychologie heute. https://www.wirtschaftspsychologie-heute.de/personalauswahl-typentests-noch-immer-weit-verbreitet/
Sutherland, M., & Wöcke, A. (2011). The symptoms and consequences to selection errors in recruitment decisions. South African Journal of Business Management, 42. https://doi.org/10.4102/sajbm.v42i4.502