Als psychologischer Test oder psychologisches Testverfahren wird ein Instrument bezeichnet, welches psychische Merkmale (z. B. aktuelle Zustände oder überdauernde Eigenschaften/Dispositionen, Interessen, Einstellungen) von Personen, Personengruppen oder Organisationen erfassen soll.[1] Der Einsatz von Testverfahren erfolgt in der Regel zur Beantwortung einer Fragestellung im Rahmen eines diagnostischen Prozesses der Psychologischen Diagnostik. Darüber hinaus ist ein Einsatz zur Aufklärung individueller Unterschiede im Rahmen der Differentiellen Psychologie üblich (hierbei überwiegt der Forschungsaspekt).
Der Einsatz kann zur Aufklärung eines zeitlichen Verlaufes (intraindividuelle Unterschiede, z. B. Therapieverlauf) oder eines Vergleiches zwischen Personen (interindividuelle Unterschiede, z. B. Eignung von Personen für Berufe) erfolgen.
Schmidt-Atzert und Amelang definieren einen psychologischen Test unter Zusammenfassung verschiedener anderer vorliegender Definitionen folgendermaßen:
Die Grundlagendisziplin für psychologische Tests und ihre Anwendung ist die Psychologische Diagnostik als Teilgebiet der Psychologie. Bei der Beschreibung von Tests sind drei Aspekte zu unterscheiden:
Bei der Anwendung von Tests sind weiterhin bedeutsam
Elemente der Tests sind die Items als einzelne Aufgaben oder Fragen, die Personen dargeboten werden und auf die reagiert werden muss. Aus den Bewertungen der Reaktionen (z. B. Antworten auf Fragen) wird zumeist durch Generalisierung über verschiedene Items auf die Ausprägung eines Merkmals geschlossen.
Zahlreiche Verfahren werden als psychometrische Tests bezeichnet, d. h., es erfolgt basierend auf einer Theorie eine Messung. Das über die Items generalisierte Ergebnis (Rohwert) wird im einfachsten Fall durch Summenbildung bestimmter Antworten ermittelt (z. B. Richtige oder Antworten einer bestimmten Tendenz). Unterschiede ergeben sich dann hinsichtlich der Art der Interpretation:
Normorientierte Tests: Um das Ergebnis interpretieren (bewerten) zu können, wird die Vergleichbarkeit mit anderen Ergebnissen hergestellt (Position einer Person in einer Vergleichsgruppe bzw. Vergleichsnorm). Dies geschieht durch Umwandlung in einen Normwert, welcher einen Vergleich mit einer Referenzgruppe erlaubt (z. B. mit der Gesamtbevölkerung, einer Altersgruppe, erfolgreich Studierenden oder einer Diagnosegruppe). Dieser Vergleich trägt zur Beantwortung der Fragestellung bei, weshalb der Test angewendet wurde (Ist die Entwicklung altersgerecht? – Wie sind die Chancen, ein Studium erfolgreich zu absolvieren? – Ist ein Ergebnis auffällig/typisch für eine bestimmte Diagnosegruppe?). Die Entwicklung dieser Normen für einen Test wird Normierung oder Eichung genannt.[3]
Kriteriumsorientierte Tests bestimmen nicht die Position der Person in Relation zu einer Vergleichsnorm, sondern das Erreichen/Verfehlen eines konkreten Kriteriums. Sie müssen ebenfalls inhaltsvalide ein, das Kriterium ergibt sich aber aus der Erreichung bestimmter Ziele (z. B. Lehrziele, Therapieziele). Die Festlegung des zu erreichenden Wertes (Trennwert oder Cut-Off) bzw. die Bedeutsamkeit des Kriteriums bedarf empirischer Kriterien (z. B. Vergleich von Gruppen nach der Zielerreichung hinsichtlich des Erfolges).[4]
Tests unterscheiden sich nach dem Grad der Standardisierung (Vereinheitlichung) der Informationsgewinnung. Bei vollstandardisierten Verfahren sind folgende Elemente vereinheitlicht:
Die Standardisierung, die Anwendung unter vergleichbaren Bedingungen, gilt als Voraussetzung, dass Ergebnisse überhaupt miteinander verglichen werden können. Sie gewährleistet eine ausreichende Objektivität als eins der drei Hauptgütekriterien von Tests.[5]
Sind einige Elemente variabel, spricht man von teil- oder halbstandardisierten Instrumenten (z. B. teilstandardisierte Befragungen, wo Fragenauswahl und Antwortbewertung durch eine Fachperson erfolgen kann oder Fragen frei beantwortet werden und ebenfalls ein Urteiler die Bewertungen vornimmt. Hier wird die Standardisierung durch klare Beurteilungskriterien und Schulung der Beurteiler erreicht).
Darüber hinaus gibt es auch „qualitative Tests“, die Verhalten standardisiert „provozieren“, welches dann aber durch eine Fachperson qualitativ bewertet oder gedeutet wird. Dazu gehören klassisch bewertete Projektive oder Deutungstests (für einige dieser Tests, wie z. B. den Rorschach-Test, hat man auch standardisierte Auswerteverfahren entwickelt).
Gemäß der Definition von Lienert und Raatz muss ein psychologisches Testverfahren die folgenden Kriterien erfüllen: Es muss…
Wissenschaftlich fundierte Tests müssen bestimmte Testgütekriterien erfüllen. Für Tests im Bereich der Eignungsdiagnostik gibt es die DIN-Norm 33430, die allerdings zu den freiwilligen Normen gehört und nicht rechtsverbindlich ist.
In Deutschland existiert mit dem Testkuratorium der Föderation Deutscher Psychologenvereinigungen eine Einrichtung zur Überwachung der Qualität psychologischer Verfahren.[6] Es wurden Qualitätsrichtlinien als Checklisten (TBS-TK)[7] entwickelt, nach denen die Qualität von Tests beurteilt und in Form von Rezensionen publiziert wird.[8]
Missbräuchliche Benutzungen von Tests sind nicht selten. Es gibt im Einsatz befindliche Testverfahren, die nicht ausreichend wissenschaftlich überprüft sind. Tests können für Fragestellungen eingesetzt werden, für die sie nicht entwickelt worden sind. Ergebnisse können ungerechtfertigt verabsolutiert werden. Personen können Tests einsetzen, die über keine oder nicht ausreichende Qualifikation verfügen (siehe dazu Psychomarkt).
Die Zahl der vorhandenen psychologischen Tests allein im deutschen Sprachraum kann auf mehrere Tausend geschätzt werden. Qualität und Stand der Entwicklung kann dabei sehr unterschiedlich sein. Bezüglich der Einteilung von Tests sind verschiedene Systeme üblich, in einigen werden die Kategorien vermischt.
Eine weitere Einteilung kann danach erfolgen, ob Hard Skills/Fachkompetenz (vorwiegend Leistungsmerkmale) oder Soft Skills (soziale Kompetenzen, Neigungen, Interessen, Persönlichkeitsmerkmale im engeren Sinne) erfasst werden.
Man kann jeden Test grundsätzlich in folgenden drei Dimensionen beschreiben und ihn entsprechend klassifizieren:
Multimodale Diagnostik oder multimethodale Diagnostik ist ein Konzept, welches die Dimensionen systematisch variiert, um genauere Informationen zu erhalten.
Die vorhandenen Testklassifikationen vermengen aus Gründen der Vereinfachung diese drei Aspekte.
PSYNDEX, das verbreitetste Recherche- und Dokumentationssystem deutschsprachiger psychologischer Literatur und Tests verwendet die folgende Test-Klassifikation (in Klammern die im Dezember 2018 vorhandene Zahl an Verfahren):[9]
An der angegebenen Quelle finden sich weitere Unterkategorien für die hier genannten Kategorien.
Die Testzentrale des Hogrefe Verlages, die zugleich den kontrollierten Testvertrieb für akademisch qualifizierte Psychologen abwickelt, ordnet Tests nach folgenden Kategorien:[10] (In Klammern wiederum die Zahl verfügbarer Verfahren, im Unterschied zu PSYNDEX beinhaltet dies nur Verfahren, die in einem entsprechenden Verlag anwendungsbereit erschienen sind.)
Bezüglich der Erhebungsmethode sind mindestens zwei Arten zu unterscheiden, die sich mit dem Fortschreiten der Technik entwickelt haben.
Wenn der Diagnostizierte alle Unterlagen auf Papier erhält und dort auch antwortet bzw. Arbeitsblätter ausfüllt, spricht man von Papier und Bleistift-Diagnostik bzw. -Tests (engl. P & P, paper and pencil). Dieser Begriff entstand, als zunehmend für Tests computerisierte Versionen verfügbar wurden und die in Papierform verbleibenden Verfahren eine eigene Bezeichnung benötigten. Viele ältere Testverfahren sind Papier und Bleistift, allerdings werden auch moderne Tests oft noch in einer solchen Version konzipiert und normiert, z. B. wenn sie sich an Klienten richten, die mit dem Computer nicht umgehen können oder praktische Überlegungen im klinischen Alltag nicht für eine Rechnerstützung sprechen. Auch qualitative Tests sind heute oft P & P. Diese Tests gelten allgemein als arbeitsaufwendiger in der Auswertung. Es existieren allerdings oft hybride Lösungen, bei denen der Proband auf Papier arbeitet, die Ergebnisse aber vom Testleiter in ein Programm eingegeben werden, damit die Werte berechnet werden können. Manche Tests können generell nur in Papierform absolviert werden, wie beispielsweise Zeichenaufgaben in der Diagnostik bei Schlaganfalls-Patienten. („Malen Sie bitte ein Haus mit Fenstern, Tür, Schornstein und Dach.“) Auch strukturierte Interviews werden oft als Papier und Bleistift-Tests durchgeführt.
Computerunterstützte Tests liegen vor, wenn der Proband selbstständig am Bildschirm, der Tastatur oder einer eigens entwickelten Eingabeeinheit arbeitet. Diese Tests gelten als weitaus ökonomischer, sind aber nicht für jeden Zweck verwendbar. Eingabe-Einheiten können vereinfachte Tastaturen sein, aber auch mechanische Geräte wie Pedale, Joystick oder große Knöpfe oder Regler. Komplexere Programme, die mehrere Tests computerunterstützt durchführen und auswerten werden Testsysteme genannt. Für computergestützte Tests gibt es zusätzlich zu den grundlegenden Gütekriterien psychodiagnostischer Verfahren noch weitere, speziell für diese Art des Testens; sie sollten verfälschungssicher, selbsterklärend, Hardware-unabhängig und barrierefrei sein sowie Testfairness garantieren.
Ebenfalls als Computerunterstützte Tests bezeichnet man Verfahren, bei denen die Antworten dem Protokoll führenden Testleiter mündlich mitgeteilt werden, der sie darauf hin in ein Registrierungsprogramm eingibt, welches die Auswertung vornimmt. Schließlich können Antwortblätter von Papier-Bleistift-Tests gescannt und per Computer ausgewertet werden, insbesondere wenn die Auswertung sehr aufwändig ist (z. B. MMPI).
Mit der Entwicklung des Internets haben sich weitreichende Möglichkeiten zu Testverfahren ergeben. Diese Verfahren werden teilweise auch als Online Assessment bezeichnet.[12] Zu unterscheiden ist dabei, inwieweit die getestete Person das Ergebnis nach der Durchführung erhält. Die Ergebnisse müssen verständlich aufbereitet sein, weil meist keine psychodiagnostisch geschulte Fachperson die Ergebnisse interpretiert. Anwendungen finden sich im Rahmen der Studienberatung oder anderen Formen der „Selbstselektion“, um Eignung und Neigung für bestimmte Ausbildungen, Berufe oder Karrieren zu erkunden. Zunehmend werden solche Tests bei Bewerbern als Berufliches Profiling eingesetzt, aber auch vielfach für statistische Untersuchungen eingesetzt, ohne dass die getestete Person eine vollständige Auswertung erhält.
Psychologische Tests sind Messinstrumente, die nach wissenschaftlichen Kriterien konzipiert, evaluiert und geeicht werden. Die Entwicklung eines wissenschaftlich fundierten Tests ist aufwendig und erfordert sowohl theoretische Vorarbeiten zur Definition von Gegenstand, zu erfassenden Merkmalen und Items als auch empirische Erprobungen an ausreichend großen und für den zukünftigen Anwendungsbereich repräsentativen Stichproben. Normen eines Tests als Vergleichsmaßstäbe müssen regelmäßig überprüft werden, ob sie noch gültig sind.
Tests können grundsätzlich nach zwei Konzepten entwickelt werden:
Für die Abfolge der Arbeitsschritte gibt es mehrere Möglichkeiten. Einmal kann eine dezidierte Theorie über menschliches Verhalten vorliegen (z. B. Persönlichkeitstheorie oder Intelligenztheorie). Davon ausgehend werden dann Fragen (Items) generiert, die mittels mehr oder weniger aufwendiger statistischer Verfahren auf ihre Güte geprüft werden (Messgenauigkeit, Objektivität und Validität). Man bildet hypothetische Klassen oder Gruppen, die man mit Namen belegt oder ermittelt diese Klassen mittels statistischer Verfahren (z. B. Faktorenanalyse). Diese kann man dann nach Intensität oder Häufigkeit kontinuierlich oder diskret abstufen (z. B. sehr, etwas, wenig). Die resultierenden Messwerte stehen dann für die Ausprägung des Merkmals.
Ein weiteres Verfahren nennt sich externale Konstruktion. Dieses nur auf den zweiten Blick einleuchtende Verfahren funktioniert so: Man betrachtet zwei unterscheidbare soziale Gruppen (z. B. Alkoholabhängige vs. nicht Abhängige). Diesen Gruppen werden inhaltlich breit gefächerte (heterogene) Items vorgelegt. Diese werden beantwortet. Schließlich werden diejenigen Items ausgewählt, die beide Gruppen statistisch abgesichert voneinander trennen. Davon ausgehend wird dann der Test zusammengestellt. Nun kann (mit einer gewissen Irrtumswahrscheinlichkeit) eine korrekte Einordnung in die eine oder andere Gruppe (an anderen Personen) vorgenommen werden. Mitunter werden durch dieses Verfahren Items generiert, die mit dem, was der Test untersuchen soll, inhaltlich wenig gemein haben. Andererseits soll der Test für die Testpersonen auch möglichst „undurchschaubar“ sein. Ein Beispiel wäre das Minnesota Multiphasic Personality Inventory (MMPI, Hathaway und McKinley, 1951), wo einzelne der 566 Fragen nicht auf die Art der Auswertung schließen lassen.
Die induktive Konstruktion ist an sich keiner Theorie verpflichtet. Hier stellt man „blind“ Items zusammen, die inhaltlich zueinander passen. Diese Items sollten möglichst zusammenhängen (korrelieren). Mit Hilfe von weiteren Zusammenhangsüberprüfungen kann dann entschieden werden, ob die so entwickelte Skala valide ist.
Tests müssen für die Anwender ausreichend dokumentiert sein (in der Regel in einem Handbuch). Dieses Handbuch muss nach DIN 33430 die wesentlichen Konstruktionsschritte und Untersuchungen zu den Gütekriterien darstellen, sowie genau Anweisungen für Durchführung, Auswertung und Interpretation der Tests enthalten.
Fundierte psychologische Tests werden mit einer genauen Handlungsanweisung an den Anwender geliefert und können nur aussagekräftig durchgeführt werden, wenn die vorgeschriebenen Instruktionen eingehalten werden. Dies gilt besonders für Tests, die von einem Testleiter interaktiv durchgeführt werden. Für mögliche Besonderheiten bei der Durchführung müssen Anweisungen vorhanden sein, wie dann zu verfahren ist. Die Durchführung von Tests muss deshalb vor dem ersten Einsatz geübt werden und zählt in Deutschland zum Angebot des Psychologiestudiums.
Da quasi alle Tests messfehlerbehaftet sind, Randbedingungen das Ergebnis mit beeinflussen können und nur Wahrscheinlichkeitsaussagen bezüglich der Vorhersage bestimmter Sachverhalte (Vorliegen einer Störung, Studienerfolg u. ä.) möglich sind, ist bei der Interpretation der Ergebnisse eine genaue Kenntnis des Tests und der zugrundeliegenden Theorien und Konzepte notwendig. Dies gilt besonders für die Kommunikation der Befunde an Diagnostizierte und Auftraggeber, damit Testergebnisse nicht übergeneralisiert werden (siehe auch iatrogene Noxe).
Für einige Tests existieren daher Anwenderseminare, deren Besuch empfehlenswert oder sogar obligatorisch ist. Eine umstrittene Frage ist, ob Tests aus den genannten Gründen nur ausgebildeten Psychologen zugänglich sein dürfen. Ein kontrollierter Testvertrieb (Bezug nur für ausgebildete Psychologen durch die Testzentrale unter Nachweis des Diplom-Abschlusses) sollte dies ursprünglich gewährleisten, ließ sich aber rechtlich und organisatorisch[13] nur bedingt durchsetzen. DIN 33430 hat für den Bereich der Eignungsdiagnostik den Anwenderkreis nun ausdrücklich geöffnet, schreibt aber Ausbildungsstandards vor. In Deutschland steht die Ausbildung auch anderen Berufsgruppen offen und wird mit einer Lizenz zertifiziert.[14]
Die Darstellung der folgenden Wiki-Links ist nicht abschließend. Auf diesem Gebiet findet sich auch eine große begriffliche Vielfalt, gleiche Phänomene und Sachverhalte werden schulenspezifisch auch unterschiedlich benannt.