Psykologiska tester inom industrier: Egenskaper, typer och normer

Att bara samla en rad frågor skapar inte ett psykologiskt test. Ett test kan bäst definieras som att mäta ett standardiserat prov av mänskligt beteende. Som sådan måste den uppfylla vissa grundläggande krav. För det första bör provet av beteende vara både tillräckligt stor och representativ nog av den beteendeklass vi mäter för att vi ska kunna generalisera och förutsäga från testresultaten.

För det andra, genom att kräva att testet ska standardiseras, menar vi att serien av frågor eller uppgifter ska administreras enhetligt när ämnen ges testet. Slutligen måste alla psykologiska tester ha förutsättningar för validitet, tillförlitlighet och normer.

Att kasta samman en serie frågor oavsett om de rör psykologiska ämnen, höjer inte dem till nivån på psykologisk testning. Till exempel presenterar många tidskolumner och populära böcker av sällskapsspelet 88 en rad frågor; personen betygsätter svaren och räknar sig som "utmärkt", "bra", "dåligt" eller "hemskt". Det här är inte psykologiska tester; de är bara grupper av frågor.

Självklart har en individ ofta en överväldigande nyfikenhet för att ta reda på någonting i hemlighet, så självtestplanen är väldigt populär. Ämnet av dessa test har vanligtvis bred överklagande. En kolumn kan till exempel be dig bestämma om du är en enastående man genom att svara på några frågor. En person kan ha oskyddad visdom, men det enda sättet han kan utveckla ett test för att mäta sådana egenskaper är att få en rad frågor som har besvarats på ett sätt av framgångsrika män (vem de än är) och på ett väsentligt annat sätt av misslyckade makar.

Testnormer:

Ämnet av testnormer är av stor betydelse och behöver ytterligare förtydligande. Normer bör utvecklas som referenskälla för alla tester som används vid urval. En norm är en referensnorm; det gör det möjligt för en att förstå betydelsen av ett testresultat. Beroende på testet kan en råpoäng rapporteras på olika sätt: Total tid för att slutföra testet, antalet objekt som är korrekta eller antalet försök som är försökta är några av de råa poängen som erhållits vid test.

I själva verket är den råa poängen i sig på ett psykologiskt test vanligen en meningslös figur. Till exempel kan ett poäng på 240 sekunder vara ett litet slag, medan ett annat resultat på 75 sekunder kan vara exceptionellt. Problemet är ytterligare komplicerat när en poäng på 180 sekunder måste jämföras med en poäng på 95 objekt korrekt. Utan användning av en norm skulle sådana jämförelser vara omöjliga. i bästa fall skulle de likna ett försök att jämföra äpplen och persikor.

De två mest använda system av normer är percentiler och standardresultat. Båda åtgärderna indirekt ger information om testresultatet hos individerna relativt en känd population. De visar också den relativa positionen för en person i gruppen till gruppen som helhet.

På ett test för att mäta stenografisk förmåga kan en individs råa poäng vara 105 ord per minut med ett fel vid transkription. Om vi inte hade information om hastighetsområdet baserat på många människor kunde vi inte veta om hastigheten var bra eller dålig. Om detta test har blivit givit till 155 anställda stenografer och denna persons poäng placerat henne i 90: e percentilen skulle vi dock kunna beräkna hennes förmåga att ta stenografi som "exceptionell" eftersom hon överstiger 9 av 10 tjejer i shorthand hastighet.

Om samma person typ med en hastighet av 45 ord per minut, och om denna poäng "motsvarar 20: e percentilen, kunde vi dra slutsatsen att 8 av 10 anställda stenografer är snabbare maskinskrivare. Faktiskt kan shorthandhastighet och typhastighet jämföras. På grundval av tillgängliga normer kan vi göra en direkt jämförelse av den här tjejens prestanda på dessa två tester, och vår slutsats att hon är väldigt bra att ta diktering men dålig i maskinskrivning är motiverad. Oavsett om hon anställs beror på arbetets behov. det är mest sannolikt att hon skulle behöva förbättra sin skrivhastighet innan arbetsplacering skulle vara möjligt.

För vissa arbetstillfällen är hastighet av stor betydelse, men i andra är noggrannhet viktigare. Till exempel kan man söka hastighet snarare än noggrannhet för att adressera cirkulär. Å andra sidan skulle extrema noggrannhet vara nödvändig för att arkivera viktiga papper. Ibland krävs separata normer om hastighet och noggrannhet, liksom normer som bygger på en kombination av de två åtgärderna.

Vid upprättandet av normer bör specifik information vara tillgänglig inte bara om storleken på den uppmätta gruppen, men också om sådana fakta som åldersnivå, om gruppen är anställd, om det är en högskolepopulation och om det består av en normalt oselected sampling.

Till exempel kan en person som testar i 70: e percentilen av en normal befolkning på ett intelligenstest anses vara över genomsnittlig intelligens. Men hans troliga framgång i en grad en college eller forskarskola skulle vara ifrågasättande. Med andra ord är en norm endast meningsfull när de egenskaper hos befolkningen som den är baserad på är kända.

Typ av test:

Psykologiska tester kan kategoriseras i olika grupperingar beroende på det specifika syftet med klassificeringssystemet. Innan vi fortsätter vidare kan det vara värdefullt att överväga några av dessa klassificeringssystem.

Typ av beteende uppmätt:

Förmodligen är det mest använda klassificeringssystemet baserat på den typ av beteende som testen avser att mäta. Således hittar vi tester som är utrustade som intelligens tester, personlighetsprov, ränte tester, vision tester, musik tester, konst tester, mekaniska tester, verbala tester, etc., där varje grupp är ganska beteende specifikt.

Achievement and Aptitude Tests:

Mycket ofta författare kommer att skilja mellan tester av aptitude och test av prestation. Den förra är förmodligen ett mått på en persons potential i ett visst område, medan det senare är ett mått på en persons nuvarande skicklighet eller förmåga vid provningstillfället. Eftersom samma test ofta kan betraktas som både ett prestationstest och ett lämplighetsprov beroende på användningen, är detta klassificeringssystem ofta en otydlig.

Således med många test kan man:

(1) Mäta mängden aktuell skicklighet, och

(2) Använd nuvarande poäng för att förutse framtida prestanda.

Pappers-och-penntest och prestationstester:

Många tester är av pappers-och-penna sorten:

Testet mottar helt enkelt ett testpapper eller ett tryckt häfte som innehåller testfrågorna, och han registrerar sina svar på ett visst skriftligt sätt på det svarblad som vanligtvis tillhandahålls. Många andra tester kräver emellertid inte ett skriftligt svar - snarare involverar de någon form av manipulationsaktivitet såsom hantering av pinnar eller block eller montering av mekaniska föremål. Dessa senare tester kallas prestationstester.

Hastighets- och makttest:

Vissa tester är konstruerade så att varje sak är väldigt lätt - uppgiften är att slutföra så många saker som möjligt på kort tid. När testprestanda baseras huvudsakligen på hur snabbt man arbetar, kallas testet som ett varvtest. Den andra extremen skulle vara ett test där varorna var svåra och personen fick så mycket tid som nödvändigt för att slutföra objekten. I sådana tester baseras en persons poäng uteslutande på hans förmåga att svara på frågorna korrekt, oavsett hur länge det är (inom rimligheten) självklart. Denna typ av test kallas ett makttest.

Individuella och grupptest:

Det finns ett antal test som är utformade för att administreras individuellt; det vill säga de kan inte ges samtidigt till två eller flera personer av en enda examinator. Ett exempel skulle vara Stanford-Binet Intelligence Scale. Mycket ofta används individuella test för klinisk utvärdering. Grupptest är de som kan tas av många personer samtidigt. För industriell provning är grupptester vanligen föredragna eftersom de är mer ekonomiska att administrera.

Språk- och språketest:

Ibland är det viktigt att skilja mellan de tester som kräver kunskaper om ett visst språk (till exempel engelska) för att förstå antingen provinstruktionerna eller testmaterialen själva. Alla sådana tester kallas språkprov, eftersom prestationen på dem beror delvis på testets språkförmåga, oavsett vilken typ av förmåga testet är utformat att mäta.

I vissa fall är det önskvärt eller nödvändigt att undvika språket i ett test. Till exempel, för att testa den mekaniska förmågan hos personer som är analfabeter med hjälp av ett test som har medfört skrivna instruktioner skulle vara ganska olämpliga. För att lösa detta problem har tester byggts på vissa områden som är språkfria test. De behöver ingen språkkunskaper på provets sida. Dessa kallas icke-språkliga tester.

Test jämfört med andra urvalsenheter:

I denna artikel ägs vår uppmärksamhet uteslutande för att undersöka psykologiska tester. Test är dock inte det enda prediktiva verktyget som används av psykologen i en urvalssituation. Andra standardhjälpmedel är rekommendationer, ansökningsblanketter och intervjuer. Omfattande urvalsprogram kommer att använda dessa utöver tester som en del av den totala urvalsprocessen.

En studie i kontrovers:

Kanske inte ett enda test bättre illustrerar de kontroversiella problem som är involverade i industriell testning än gör aktivitetsvektorns analys. En kort genomgång av kontroversen kring denna bedömningsanordning ska tjäna för att illustrera några av dessa svårigheter. Locke och Hulin (1962) gjorde en omfattande översyn av användningen av detta test som en industriell urvalsanordning. De granskade totalt 18 studier, varav 17 var relevanta för värdet av AVA i industrin. Majoriteten av dessa studier var emellertid av den samtidiga giltighetstypen som AVA gavs till nuvarande anställda.

Locke och Hulin rapporterade att det fanns bevis för att det kunde skilja mellan:

1. Chefer och produktionsarbetare

2. Chefer och en blandad arbetstagargrupp

3. Sju olika yrkesgrupper från maskinoperatörer till företagspresidenter

4. Bra och stackars anställda i flera olika yrken

I alla nuvarande anställda studier erhölls validiteter genom att utveckla en nyckel baserad på det provet och sedan tillämpa nyckeln tillbaka till det prov på vilket nyckeln utvecklades-ett förfarande som kallas "back-back" -validering. Det var sällan något försök att genomföra den nödvändiga processen för tvärvalidering på en annan grupp av nuvarande anställda. Locke och Hulin tror att alltför ofta har författarna till AVA-studierna överskridit tillåtna gränser för att diskutera värdet av deras resultat, och lämnar ofta läsaren med intrycket att deras validiteter var indikativa för testets prediktiva kraft.

Endast en studie, enligt Locke och Hulin mening, använde en sann förutsägbar validitetsprocedur där en tidigare utvecklad scoringsnyckel gavs före anställning och sedan kontrolleras senare för validitet. I detta fall erhölls ingen giltighet.

Det verkar som om ett beslut om att AVA har förutsägbart värde måste åtminstone skjutas upp tills ytterligare substantiella bevis finns tillgängliga. I fråga här är emellertid inte bara det verkliga värdet av testet, utan också skillnaden mellan de påståenden som gjorts för dess värde och de faktiska empiriska resultaten. Locke och Hulin är inte ensamma för att ta AVA till uppgift på grundval av felaktig framställning av forskningsresultat. Dunnette och Kirchner (1962) har protesterat starkt på den "färgade" rapporteringen av AVA-data av Meranda och Clarke (1959).

Bennett, i sin granskning av AVA för Euros 'Femte Mental Measurement Yearbook (1959) är också ganska okomplicerad och säger: "Mumbo-jumbo av påstådda sofistikerade statistiska förfaranden är inte ersättning för visad giltighet." Den intresserade läsaren kan njuta av Dunnette och Kirchner-artikeln (1962) och motsvarande svar av Meranda och Clarke i samma Journal of Applied Psychology issue.

Översikt över personlighetstester inom industrin:

Ghiselli och Barthol (1953) granskade 113 studier som handlar om personlighetsinventariernas validitet vid val av anställda. Deras resultat sammanfattas i tabell 4.3. De drar slutsatsen att resultatet av personlighetsinventarierna under vissa omständigheter korreleras bättre med kunskaper i ett större antal jobb än vad som kan ha förväntats. Författarna känner igen både det potentiella värdet av personlighetsprovning i industrin och behovet av en stor ökning och förbättring av forskning och utveckling.