5 Teoretiska studier om industriell testning

Några av de många studier som genomförts kommer att rapporteras ganska fullständigt för att illustrera den systematiska disciplin som krävs vid användning av tester för industriella ändamål. Ingen av dessa studier ska betraktas som att illustrera en idealisk testläge; var och en genomfördes inom de begränsningar som ålagts av den specifika industrisituationen, men försökte i så stor utsträckning som möjligt överensstämma med de strikta forskningsstandarderna.

1. Blumstudie:

En undersökning om användningen av fingerfärdstest för att välja urverkare utfördes av Blum (1940). Det första steget i forskningen krävde en arbetsanalys av de olika typerna av arbete som utförts på fabriken. Detta lyfte fram följande viktiga arbetskrav: fina fingerrörelser, manipulering av pincett och förmågan att fortsätta att utföra delikata och ibland invecklade uppgifter under långa perioder utan någon ökad spänning eller felanpassning.

En översyn av det tillgängliga testmaterialet visade att, med tanke på fabriks krav på en kort testperiod, skulle Johnson O'Connor fingerfärdighet och pincettfärdighetstest troligen vara bäst. Innan testprogrammet påbörjades, undersöktes emellertid de olika tillgängliga kriterierna för framgång och tre åtgärder uppnåddes: anställningstid, lönekvot och ledarens betyg.

Längden av sysselsättningskriteriet var uppdelad i fyra kategorier. Den första var gruppen "mindre än en vecka". Majoriteten av de anställda i denna kategori lämnade eller avskedades inom en vecka på grund av dålig förmåga till jobbet. Ur denna kriteries synvinkel var denna grupp den fattigaste.

Den andra kategorin var gruppen "en vecka till fyra månader". Ledningen trodde att jobbet kunde läsas tillräckligt inom fyra månader. De som inte kunde lära sig den här tiden antingen avskedades eller avgavs. Ur ledningens synvinkel var en sådan anställd ineffektiv; Enligt arbetstagaren kunde han inte tjäna tillräckligt. Under alla omständigheter avbröts anställningsförhållandet.

Den tredje kategorin var gruppen "fyra månader till ett år". Dessa anställda ansågs av ledningen vara måttligt framgångsrik. Den fjärde och sista kategorin var gruppen "ett år eller längre". Dessa anställda ansågs vara mest framgångsrika; Utbildningskostnaderna för dem var lägsta och gruppen hade högsta produktion.

Det andra kriteriet var lönekvoten. Eftersom alla anställda var i styckesats var resultatet en direkt återspegling av produktionen. Den använda siffran var genomsnittet av det veckovisa resultatet över en tremånadersperiod. Den här tiden ansågs tillräckligt lång för att genomsnittsa små toppar eller slacks i affärer och mindre svårigheter i produktionen. Det faktiska kriteriet uttrycktes i form av ett index, med X dollar vinst per vecka lika med en bas av 100.

Det tredje kriteriet var arbetstagarnas betyg av anställda. Varje förman bad om att ge en övergripande betyg på grundval av hans åsikt om arbetstagarens användbarhet och effektivitet. I enlighet med denna bedömning klassificerades varje anställd som utmärkt, bra, genomsnittlig, fattig eller otillfredsställande.

Fem mått av testprestanda fastställdes. Två var baserade på hastighet (total tid som krävs för att göra varje test). En annan åtgärd var bedömningen av ämnets kvalitativa prestanda vid varje test. Eftersom detta lägger till mening med någon objektiv poäng såsom total tid eller färdigställda objekt kommer det att beskrivas i detalj i hopp om att uppmuntra användningen av en sådan mätteknik.

Det kvalitativa betyget är examinatorens övergripande bedömning av testprestandan. Det inkluderar hur bra ämnet följer riktningar, spänning under testet och metoden som används för att slutföra prestanda. En betygsskala av "bra", "medel" och "fattig" användes för följande egenskaper: noggrannhet i valet, grepp på stift, positionering av stift, placering av stift, handskakning, förhållanden för brädan, takt, position och rörelser av arm och kroppshållning.

Det faktum att det finns en märkbar fördelning i kvalitativa prestationsbedömningar illustreras av resultaten i denna undersökning som framgår av Tabell 4.4.

Denna mätning av testprestanda resulterar i en övergripande bedömning av undersökaren av ämnets sätt under testet. De flesta prestationstester och många penna-och-papperstest låter sig enkelt till ett sådant betyg. Dessa betyg är användbara för att överväga en person för att anställa. Den femte åtgärden var en jämförelse mellan den tid som togs för att göra den andra halvan av fingerfärdighetstestet och tiden som togs på första halvleken. Det antogs att skillnaden mellan de totala tiderna på varje halva kan mäta förmågan att förbättra hastigheten och kan därför vara användbar som en indikator på förbättringshastigheten på jobbet.

I denna studie användes 258 patienter. Av detta nummer var 137 testade personer, 84 refererades utan testning och utgjorde en kontrollgrupp och 37 användes i pilotstudien som föregick den stora studien. Denna sista grupp betraktades också som en uppföljningsgrupp. All testning gjordes under gynnsamma miljöförhållanden, det vill säga i ett testrum och alla ämnen visste att de tog ett test som skulle användas av en särskild klockfabrik för sysselsättning.

Uppgifterna analyserades intensivt på tre sätt. Först studerades egenskaperna hos de olika kriterierna liksom deras relationer. För det andra studerades egenskaperna hos de olika indikatorerna och deras relationer. För det tredje analyserades förhållandet mellan framgångskriterierna och testresultaten. Detta var det avgörande steget.

Korrelationerna mellan kriterierna indikerade att var och en mäter en relativt annorlunda aspekt av framgång på jobbet. Till exempel var korrelationen mellan företrädares betyg och lönekvot +0, 13. Korrelationen mellan anställningslängden och ledarnas betyg var + 0, 25. Korrelationen mellan lönekvoten och anställningsperioden var högst + 0, 44.

Fyra av de fem mätningarna av testprestanda-tidsscore och kvalitativ prestanda på båda testen - fastställdes som pålitliga; men en åtgärd, förbättring, fastställdes inte som tillförlitlig. Att jämföra varje korrelation mellan var och en av de fem åtgärderna visade att alla var låga. Åtta var mindre än + 0, 20, och en var bara något högre.

Den enda höga interkorrelationen var mellan kvalitetsbedömning och total tid för pincettfärdighetstestet; detta var +0.71. Kvalitetsbedömningar kan emellertid i allmänhet inte anses vara nära relaterade till hastighet eftersom korrelationen mellan kvalitetsbedömningen på fingerfärdighetstestet och den totala tiden på det testet var endast + 0, 13. Låga korrelationer mellan teståtgärder och låga interkorrelationer bland arbetskriterier är faktiskt mer gynnsamma än höga interkorrelationer. När sådana korrelationer är höga är deras prediktiva värde begränsat eftersom alla kommer att förutsäga samma sak. På samma sätt, om alla arbetskriterier är högt inbördes korrelerade, kommer de alla att mäta samma sak istället för olika aspekter av framgång.

Den totala tidspoängen på finger- och pincettfärdighetstestet hade generellt det högsta förutsägelsevärdet för jobsucceskriterierna. Kvalitetsbetyg på testprestanda var värdefulla för förutsägelse i vissa fall, men förbättring på andra halvåret av fingerfärdighetstestet var inte förutsägande för något av kriterierna.

Några av de specifika resultaten är följande (Blum, 1940):

1. Kvalitetsbetyg vid provning av fingerfärdighet var inte en indikation på längden på anställning. Men de med "genomsnittliga eller under" betyg på pincettfärdighetstestet hittades i de kortare anställningsgrupperna. Sextiofem procent av gruppen som fick sådana betyg var inte längre anställda efter fyra månader, och endast 27 procent av dem som fick "över genomsnitt" betyg lämnade eller avskedades inom denna period. Skillnaden var statistiskt signifikant. När kvalitetsbedömningarna för båda testen kombinerades och fördelades efter anställningstid, fanns inga statistiskt signifikanta skillnader mellan de som betygsatta höga och de som låg låga i testprestanda.

2. Låg korrelation rapporterades mellan kvalitetsbedömningarna på antingen fingerfärdstest och lönekvoterna. Korrelationerna var + 0, 17 ± 0, 11 för fingerfärdighetstestet och lönekvoterna, +0, 15 ± 0, 11 för pincettfärdighetstestet och lönekvoten och + 0, 05 ± 0, 12 för de kombinerade kvalitetsbetyg och lönekvoterna.

3. Kvalitetsbetyg på fingertestet var relaterade till förarens betyg av arbetsprestanda med en beredskapskoefficient på + 0, 50. C-värdet för kvalitetsklassificeringar och förmänens betyg var + 0, 24. En beräkningskoefficient på + 0, 30 erhölls när förmänens betyg var korrelerade med de kombinerade kvalitetsbedömningarna på båda provningarna. (Max C = + 0, 86.)

4. Förbättring på andra halvåret av fingerfärdighetstestet var inte förutsägbar för anställningstidens längd.

5. Förbättring korrelerad med lönekvoten - 0, 06 ± 0, 13. Detta är den enda jämförelsen av hela undersökningen som visade en negativ men otillförlitlig relation mellan testindikatorer och kompetenskriterierna.

6. Av de arbetare som fick "A" -betyg av förmän visade 100 procent förbättring på andra halvåret av fingerfärdighetstestet. Av de arbetare som fick "D" -betyg förbättrades bara 50 procent. Åttiofyra procent av dem som fick "B" betyg förbättrades, och 61 procent av dem som fick "C" betyg förbättrades. Skillnaden i procent mellan de som fick "A" och "D" betyg är inte statistiskt tillförlitlig, möjligen på grund av det begränsade antalet ämnen.

7. Tidspoäng på både fingret och pincettfärdighetstesterna var snabbare i medeltalet när sysselsättningsperioden ökade. Skillnaden för den genomsnittliga tiden på fingerfärdighetstestet mellan "mindre än 7 dag" och "mer än 1 år" -grupperna var statistiskt signifikant. I samma jämförelse på pincettfärdighetstestet var skillnaden D / σ 2, 5. Kombinationen av fingret och pincettets behändighetstid ökade inte skillnadens statistiska tillförlitlighet, och D / σ-skillnaden mellan gruppen "mindre än 7 dagar" och "mer än 1 år" var 2, 3.

8. Korrelationen mellan fingerfärdighetstidspoäng och lönekvot var + 0, 26 ± 0, 10; mellan pincett fingerfärdighetstid poäng och lönekvoten det var +0.32 ± 0.10; och mellan de kombinerade testtiderna och lönekvoten var det + 0, 39 ± 0, 09.

9. "Över genomsnittet" -gruppen enligt förarnas betyg var 5 sekunder snabbare på fingerfärdighetstestet och 9 sekunder snabbare på pincettfärdighetstestet än "medel och under" -gruppen. Skillnaden för de kombinerade testresultaten mellan de två grupperna var 12 sekunder till förmån för dem som fick över genomsnittliga betyg. Dessa skillnader var inte statistiskt tillförlitliga.

10. Det praktiska värdet av de kritiska poängen (tidspoäng på 5 minuter, 30 sekunder eller bättre på pincettfärdighetstestet och 7 minuter, 30 sekunder på fingerfärdighetstestet) som föreslogs i pilotstudien (Candee och Blum, 1937 ) anges tydligt i denna undersökning. Dessa poäng diskriminerar anställda i klockfabriken med en stor grad av exakthet enligt kriteriet för färdighet.

11. En jämförelse enligt anställningsperioden visade att 7 procent av gruppen som "passerade båda testen" lämnade inom en vecka, medan 23 procent av gruppen "nej test" och 24 procent av gruppen arbetare som "misslyckades antingen båda testen "var arbetslösa efter en vecka. Skillnaderna i procentsatserna mellan de första och de sista två var statistiskt signifikanta med kritiska förhållanden av 3, 2 och 3, 4. Den största möjligheten till långvarig anställning hittades i gruppen som "passerade båda testen." Av denna grupp var 72 procent kvar fyra månader eller längre. Denna procentandel skilde sig väsentligt från gruppen för "nej test" (D / σ skillnad på 3.1) "och från gruppen som" misslyckades antingen eller båda testen "(D / σ skillnad på 4+).

12. En jämförelse enligt lönekvoterna visade att den grupp som "passerade båda testen" tjänade mest pengar. Intäkterna för den här gruppen var statistiskt annorlunda än gruppens resultat som "misslyckades med en eller båda testen." Gruppen "nej test" var överlägsen i lönekvoten till gruppen som "misslyckades antingen eller båda testen." Den grupp som " passerade båda testen "var inte signifikant överlägsen gruppen" nej test ".

13. En jämförelse enligt förarnas betyg visade bara en trend. Den grupp som "passerade båda" testen "bedömdes av förmän som" bättre än genomsnittet "i 34 procent av fallen. Gruppen som "misslyckades antingen eller båda testen" bedömdes som "över genomsnittet" i 25 procent av fallen. Denna skillnad var inte statistiskt tillförlitlig. Ingen differentiering mellan gruppen "nej test" och gruppen "bestått båda testen" är möjlig enligt ledarens betyg.

14. En uppföljning av ämnena i pilotstudien stöder resultaten av den aktuella undersökningen att tidsscore på testen är indikatorer på färdighet. Två år före "uppföljningen" valdes 20 arbetare av förmän som överlägsen och 17 som medelmåttiga arbetare i klockfabriken. Dessa grupper var ursprungligen signifikant olika i sina testresultat på både fingertestet och pincettprovet.

Betydande skillnader erhölls senare mellan dessa a priori-grupper i termer av:

(a) Procent utsläpp och

(b) Lönekvot.

Innan vi presenterar en granskning av andra studier är det önskvärt att göra förråd och överväga konsekvenserna av sådan forskning. Ovanstående studie var inte en "ideal" en. På grund av fabriksförhållandena var det omöjligt att använda önskvärda vetenskapliga kontroller. Exempelvis kunde lika stora grupper i de olika kategorierna ha ordnats i ett laboratorium lättare än i fabriken.

Kraven på forskning måste ofta överensstämma med vanliga villkor, men endast vad gäller planering och metodik. Uttalandet håller inte för forsknings slutsatser, eftersom dessa måste rapporteras oberoende av växtförhållanden och måste överensstämma mycket strikt med de erhållna uppgifterna.

Industripsykologen är berättigad att endast genomföra laboratorieundersökningar som en förberedelse för den forskning där industrisituationen nödvändigtvis blir "laboratoriet". Laboratorieslutsatser kan inte generaliseras och tillämpas på industriområdet utan att kontrollera dem på alla möjliga sätt.

Oavsett om problemet gäller test för urval eller annat syfte, måste industripsychologen ofta ändra förfaranden och visa flexibilitet på sätt som kan vara oortodox från vetenskaplig synvinkel. Om han till exempel inte lämnar styva kontroller i vissa fall kan han bli tvungen att ge upp hela problemet. Till industripsykologen är det mindre av de två onda att utföra forskning inom industrin under de bästa förutsättningarna som industrin kan ge.

En ytterligare illustration av denna punkt handlar om önskvärt att ha ett stort antal ämnen för ett experiment. En industriell organisation är emellertid ofta inte i stånd att anställa i stor skala. I det här fallet är det bättre att offra antalet ämnen snarare än hela studien.

Denna princip innebär inte att en form av forskning som eufemistiskt kallas "riktad forskning" bör tolereras. Forskningsrapporter måste överensstämma med slutsatserna på grundval av de erhållna fakta. En industripsykolog som inte rapporterar negativa resultat eftersom detta skulle skapa respektlöshet och kan leda till uppsägning är lika fel som företagsledaren som vill att forskningen ska säkerhetskopiera sina försäljningsidéer och därmed "styr" forskningen och dess resultat.

De diskussioner som diskuterats är viktiga och bör fungera som ett medel för att utvärdera inte bara testforskning utan även andra typer av forskning inom området. För detta ändamål kommer några ytterligare studier om testval att beskrivas.

2. Ghiselli Studie:

I sin studie av test för att välja inspektörspaket, använde Ghiselli (1942) ett batteri av flera test på en grupp av 26 kvinnliga anställda som arbetar som inspektörspakare i en farmaceutisk fråga. Det fanns fem huvuduppgifter i detta jobb: fyllning av behållare, införande av stoppar, undersökning av innehållet med ögon, märkning av behållare och förpackning.

Arbetet, även om det är rutinmässigt, är oerhört viktigt, för närvaro av främmande material eller felaktig märkning kan leda till allvarlig sjukdom eller till och med död för alla som råkade säljas den felaktiga produkten. Kriteriet om arbetseffektivitet var kombinationen av betyg av försköterskan och handledaren.

Arbetsanalysen visade att de viktiga förmågorna som ska mätas i det preliminära batteriet av test var:

1. Behändighet av fingrar, händer och arras

2. Ögonhandskoordination

3. Uppskattning av storlek och form av objekt

4. Förmåga att observera skillnad i detaljer

För detta ändamål administrerades ett batteri med sex test till de anställda. Det visade sig att inspektörspakarnas genomsnittliga prestanda var överlägsen överensstämmelse med det för prover av en vuxenbefolkning i Minnesota Placing and Turning tests och Paper Board Board testet. Även om denna information är användbar, är valet motiverat endast när det finns ett förhållande mellan testprestanda och arbetsprestanda.

Ett sådant förhållande kallas en validitetskoefficient. Minnesota Paper Form Board testet visade sig vara närmare korrelerat med kriteriet än något annat test i batteriet; detta test korrelerade till graden av +0.57. Pegboard-testet korrelerade med kriteriet i utsträckningen av -0, 50, och svängprovet i utsträckningen av -0, 40. De andra testen hade lägre korrelationer med kriteriet.

Denna studie, som den som tidigare rapporterats, har brister. Kriterierna för kompetens var ett betyg av överordnade; men eftersom det tydligen var det enda kriteriet som var tillgängligt, måste det användas eller inga tester kunde ha utvärderats. Alltför ofta i branschen utgörs sådana betyg av det enda tillgängliga kriteriet.

Antalet ämnen, 26, är litet; men när vi kommer ihåg att detta utgör ett stort antal personer som utför samma uppgift, kan det betraktas som ett tillfredsställande prov. Studien visar inga bevis på framgången med sina rekommendationer som antogs för framtida bruk. Sådan information, liksom rekommenderade kritiska poäng, är ofta till hjälp för att utvärdera användningen av test.

3. Högerstudie:

Edwin N. Hay (1943), med hjälp av ett batteri av test, kunde förutsäga 91 procent av de bättre bokhållande maskinoperatörerna och 72 procent av de mindre tillfredsställande operatörerna. Före upprättandet av dessa resultat följdes alla förfaranden som involverades i testforskning och utveckling. Dessa omfattade arbetsanalyser upprättande av tillräckliga arbetskriterier, preliminärt urval av testbatteriet och statistiska undersökningar. Först efter många år var det möjligt att rekommendera det speciella testbatteriet som framgångsrikt för förutsägelse.

Arbetsanalyserna visade att det enastående kravet på maskinbokföring är bimanuell förmåga. En detaljerad analys av tid och rörelsejobb visade att det fanns 5 olika operationer som kunde brytas upp i 18 rörelser. Den genomsnittliga tiden för de fem operatörsvalande ledarkortet, införande av ledarkort, hämtning av tidigare balans, efterkontrollbelopp och returkort-var 6, 8 sekunder.

I de flesta av dessa operationer användes ögonen och båda händerna. Hastighet och noggrannhet var nödvändiga för att det här jobbet skulle kunna bli framgångsrikt. Skillnaden mellan förmågan hos de fattigaste operatörernas bästa och förmågan var större än 2 till 1; det vill säga de bästa operatörerna gjorde mer än dubbelt så mycket som de fattigaste operatörerna gjorde.

De tester som användes omfattade Otis Intelligence-testet, Minnesota Clerical testet, Ziegler-graden av manipuleringstest och andra test av administrativ förmåga, såsom arkivering och namnfinnande. Sammantaget administrerades 22 test. Även om sex av dem var av hand-, arm- och fingerfärdighetssortimentet, visade ingen av dessa sex ett betydande förhållande till kriteriet "utskriftshastighet.

Otis testet Minnesota Clerical Test-Numbers, och Alpha Number-serien korrelerade +0, 50 eller högre med detta kriterium. Den multipla korrelationstekniken visade att Otis-testet och Minnesota Clerical hade en korrelation av + 0-65 med kriteriet. Den högsta multipla korrelationen mellan testbatteriet och kriteriet var +0.71 och inkluderade Otis, Minnesota Numbers, Alpha Number-serien och Fryer Name Finding.

Hös studier är värdefulla ur många synvinklar. Beviset som presenteras i uppföljningen indikerar att testet i detta fall fungerade. Tabell 4.5 visar den stabila förbättringen av den genomsnittliga produktionen av bokförare eftersom valet baserat på test infördes.

4. Sartainstudie:

AQ Sartain (1945) administrerade ett batteri med sju test till en grupp på 47 anställda i inspektionsavdelningen i en flygplansfabrik. Kriteriet fastställdes av instruktörernas betyg i en uppföljningskurs som ges till inspektörer. Instruktörerna var också bekanta med de anställdas prestationer mot sina betyg utvaldar säkert denna kunskap.

Testbatteriet inkluderade MacQuarrie, Otis, Cardall Test of Practical Judgment, Minnesota Paper Form Board, Industrial Classification Training Test, Bennett Test of Mechanical Comprehension och O'Rourke Test of Mechanical Aptitude. Den multipla korrelationen av hela batteriet med kriteriet var +0, 787.

Men tre av testen - MacQuarrie, Cardall och Minnesota Paper Form Board - gav resultat lika bra, den multipla korrelationen var +0.780. Eftersom skillnaden mellan dessa två korrelationer är försumbar, skulle det vara tillrådligt att använda dessa tre test, snarare än alla sju.

5. Shuman Study:

John T. Shuman (1945) administrerade ett testtest till en grupp anställda och sökande för olika jobb vid Lycoming Division of Aviation Corporation. Testerna omfattade Otis, Minnesota Paper Form Board, Bennett Test of Mechanical Comprehension, O'Rourke Test of Mechanical Aptitude, och Minnesota Yrkesprov för Clerical Workers.

De anställda testade bland annat inspektörer, motortestare, maskinoperatörer, chefer och arbetsgivare. Shuman rapporterar att den genomsnittliga förbättringen av att välja utmärkta arbetare var 18 procent med Bennett-testet, 15 procent med Otis och 13 procent med Minnesota Paper Form Board. De kritiska poängen som möjliggjorde denna förbättring innebar eliminering av en av fyra testade personer.

Bennett-testet jämfört med kriteriet (betyg) visade sig vara starkt korrelerat med jobbet av jobtsättare, korrelationen var +0.73. Minnesota Paper Form Board korrelerade +0.59 med samma jobb. Otis-testet hade den högsta korrelationen med jobbet hos motortestaren, +0.57. Shuman fann att testen i hans batteri korrelerade bättre med jobb som kräver färdigheter som att arbeta med precisionsdelar på maskiner eller prova flygmotorer, snarare än rent manuella färdigheter.

Han trodde att tester kan vara mer användbara för att tilldela anställda till arbetsgruppsnivåer än specifika jobb. Ett oavsiktligt funderande, men en som förtjänar att nämna, är det faktum att ett test var tvungen att tappas på grund av missnöje av ämnesdelarna. Detta var O'Rourke Test of Mechanical Ability, vilket var för långt och visat sig vara nästan värdelöst med kvinnliga sökande, varav många inte ens försökte ta det. Detta understryker att ett testbatteri måste mottagas positivt av sökande om något värde ska fästas vid resultaten.

Sammanfattning av exempel:

Många andra studier har varit lika effektiva som de få som beskrivits ovan. Men ytterligare exempel skulle bara belabour punkten. Användningen av psykologiska tester inom industrin kräver forskning och utveckling mot bakgrund av det specifika problemet och den specifika växten. Det faktum att detta arbete har gjorts tidigare gör det inte onödigt. Snarare betyder det att chanserna för framgång förbättras varje gång. Det viktigaste är att testresultaten måste korreleras med arbetssucces de kan aldrig tas för givet.