Egenskaper för ett bra test

Denna artikel lyfter fram de fyra viktiga egenskaperna hos ett bra test. Egenskaperna är: 1. Tillförlitlighet 2. Giltighet 3. Objektivitet 4. Användbarhet.

Karakteristisk # 1. Tillförlitlighet:

Ordboken som betyder tillförlitlighet är konsistens, beroende eller förtroende. Så vid mätbarhet är den konsistens som ett test ger samma resultat för att mäta vad det än mäter. En testpoäng kallas tillförlitlig när vi har anledning att tro att poängen är stabil och tillförlitlig. Stabilitet och förtroende-värdighet beror på hur mycket poängen är ett index för tidsäkerhet "är felfritt fel. Därför kan tillförlitlighet definieras som graden av konsistens mellan två mätningar av samma sak.

Till exempel administrerade vi ett prestationstest på Group-A och fann ett medelvärde på 55. Återigen efter 3 dagar administrerade vi samma test på Group-A och fann ett medelvärde på 55. Det indikerar att mätinstrumentet (Prestationstest) ger ett stabilt eller pålitligt resultat. Å andra sidan om testet i den andra mätningen ger ett medelvärde på ca 77 så kan vi säga att testresultaten inte är konsekventa.

I ord av Gronlund och Linn (1995) betecknar tillförlitlighet måttets konsekvens, det vill säga hur konsekventa testresultat eller andra utvärderingsresultat är från en mätning till en annan. "

CV Good (1973) har definierat tillförlitlighet som "värdighet med vilken en mätanordning mäter någonting; graden av vilken ett test eller annat utvärderingsinstrument mäter konsekvent vad det än faktiskt mäter. "

Enligt Ebel och Frisbie (1991) betyder begreppet tillförlitlighet den konsekvens som en uppsättning testresultat mäter vad de mäter. "

Teoretiskt definieras tillförlitlighet som förhållandet mellan den sanna poängen och observerad poängvariant.

Enligt Davis (1946) definieras graden av relativa precisioner av mätning av en uppsättning testpoäng som tillförlitlighet. "

Sålunda svarar pålideligheten på följande frågor:

Gronlund och Linn (1995)

Hur liknande är testresultatet om det förlorade administreras två gånger?

Hur lika är testresultaten om två ekvivalenta former av test ges?

I vilken utsträckning poängen av varje uppsats testas. Olika när det görs av olika lärare?

Det är inte alltid möjligt att få helt konsekventa resultat. Eftersom det finns flera faktorer som fysisk hälsa, minne, gissning, trötthet, glömmer etc. som kan påverka resultaten från en mätning till en annan. Dessa externa variabler kan ge några fel på våra testresultat. Detta fel kallas som mätfel. Så medan vi bestämmer tillförlitligheten för ett test måste vi ta hänsyn till hur mycket fel som är närvarande vid mätningen.

Typ av tillförlitlighet:

1. Tillförlitlighet avser konsistens av resultaten som erhållits med ett instrument men inte själva instrumentet

2. Tillförlitlighet avser en viss tolkning av testresultat. Till exempel kan ett testresultat som är pålitligt under en tidsperiod inte vara tillförlitligt från ett test till ett annat likvärdigt test. Så att tillförlitligheten inte kan behandlas som allmänna egenskaper.

3. Tillförlitlighet är ett statistiskt koncept för att bestämma tillförlitligheten vi administrerar ett test till en grupp en gång eller mer än en gång. Därefter bestäms konsistensen i form av skift i det relativa läget för en person i gruppen eller den variation som förväntas i en individs poäng. Förskjutning av en persons relativa position är relaterad med hjälp av en korrelationskoefficient som kallas 'Reliability Coefficient' och variationen rapporteras med 'Standardmätningsfel'. Båda dessa processer är statistiska.

4. Tillförlitlighet är nödvändig men inte ett tillräckligt villkor för giltighet. Ett test som inte är tillförlitligt kan inte vara giltigt. Men det är inte så att ett test med hög tillförlitlighet kommer att ha hög giltighet. Eftersom ett mycket konsekvent test kan mäta något annat än det vi avser att mäta.

Metoder för bestämning av tillförlitlighet:

För de flesta utbildningsprövningar ger pålitlighetskoefficienten det mest avslöjande statistiska kvalitetsindex som normalt är tillgängligt. Uppskattningar av testets tillförlitlighet ger väsentlig information för att bedöma deras tekniska kvalitet och motivera ansträngningar för att förbättra dem. Konsistensen av ett testresultat uttrycks antingen i form av skift av en persons relativa position i gruppen eller i termer av variation i en persons poäng.

På grundval av denna uppskattning av tillförlitlighet faller i två generella klassificeringar:

(jag) Relativ tillförlitlighet eller tillförlitlighetskoefficient:

I denna metod anges pålitligheten i termer av korrelationskoefficient känd som tillförlitningskoefficient. Därför bestämmer vi förskjutningen av relativ position för en persons poäng med korrelationskoefficienten.

(ii) Absolut tillförlitlighet eller standardmätningsfel:

I denna metod anges tillförlitligheten med avseende på standardmätningsfelet. Det anger hur mycket variationen av en individs poäng är.

Metoder för att bestämma relativ pålitlighet eller tillförlitlighetskoefficient:

För att bestämma pålitlighetskoefficienten måste vi erhålla två uppsättningar mätningar i samma tillstånd och sedan jämföra de två uppsättningarna. Men det är bara ett teoretiskt tillstånd, eftersom det är omöjligt för oss att få två mätningar på exakt två identiska förhållanden. Så att flera metoder har utvecklats för att bestämma relativ tillförlitlighet.

De är som följer:

(i) Samma testform kan administreras två gånger till samma grupp av individer.

(Ii) Två separata men likvärdiga former av testet kan administreras till samma individer.

(iii) Testresultaten av ett enda test är uppdelade i två separata uppsättningar och poängen av två uppsättningar är korrelerade.

Metoderna är likartade eftersom alla innebär att korrelera två uppsättningar data, erhållna antingen från samma utvärderingsinstrument eller från likvärdiga former av samma förfarande. Denna tillförlitlighetskoefficient måste tolkas med avseende på de typer av konsistens som undersöks.

Olika typer av konsistens bestäms med olika metoder. Dessa är följande:

1. Konsistens över en tidsperiod.

2. Konsistens över olika instrumentformer.

3. Konsistens inom själva instrumentet

Det finns fyra metoder för att bestämma tillförlitlighetskoefficienten, såsom:

(a) Test-Retest-metod.

(b) Ekvivalenta former / Parallella former.

(c) Split-halvan metod.

(D) Rational Equivalence / Kuder-Richardson-metoden.

(a) Test-Retest Metod:

Detta är den enklaste metoden för att bestämma testens tillförlitlighet. För att bestämma tillförlitligheten i denna metod ges testet och upprepas i samma grupp. Då erhålls korrelationen mellan den första uppsättningen poäng och andra uppsättning poäng.

En hög koefficient för korrelation indikerar hög stabilitet av testresultat. I ord av Gronlund rapporteras stabilitetsåtgärder i 80-talet och 90-talet normalt för standardiserade tester vid olika tillfällen inom samma år. Men denna metod lider av några allvarliga nackdelar. Först och främst vad ska intervallet mellan två förvaltningar vara.

Om det administreras inom ett kort intervall, säg en dag eller två, kommer eleven att återkalla sina första svar och spendera sin tid på nytt material. Det kommer att tendera att öka sin poäng i andra administrationer. Om intervallet är för långt, säg ett år, kommer mognadseffekten att påverka de nyaste poängen och det kommer att tendera att öka de nyaste poängen.

I båda fallen tenderar det att sänka tillförlitligheten. Så vad ska tidsgapet mellan två förvaltningar beror till stor del på användningen och tolkningen av testresultatet. På grund av dess svårigheter att kontrollera tillstånd som påverkar poängen av retest reducerar användningen av test-retest-metoden vid uppskattning av tillförlitningskoefficient.

(b) Likvärdiga former / parallella former:

Tillförlitligheten av testresultat kan beräknas med motsvarande former. Det är också annars känt som alternativa former eller parallella former. När två ekvivalenta former av test kan konstrueras kan korrelationen mellan de två tas som mätningar av testets självkorrelation.

I denna process administreras två parallella former av test till samma grupp av elever i kort tidsintervall, då poängen av båda testen är korrelerade. Denna korrelation ger jämlikhetsindexet. Vanligtvis i form av standardiserade psykologiska och prestationstester finns motsvarande former tillgängliga.

Båda de tester som valts för administrering bör vara parallella när det gäller innehåll, svårighet, format och längd. När tidsgap mellan administrationerna av två former av test tillhandahålls, ger testresultatets koefficient ett mått på tillförlitlighet och ekvivalens.

Men den stora nackdelen med denna metod är att få två parallella former av test. När testen inte är exakt lika med avseende på innehåll, svårigheter, längd och jämförelse mellan de poäng som erhållits från dessa test kan det leda till felaktiga beslut.

(c) Split-Half Method:

Det finns också metoder där pålitlighet kan bestämmas genom en enda administrering av ett enda test. En sådan metod är split-half-metoden. I denna metod administreras ett test till en grupp elever på vanligt sätt. Därefter delas testet i två ekvivalenta värden och korrelation för dessa halvtester hittas.

Det gemensamma förfarandet för uppdelning av testet är att ta alla udda nummererade punkter, dvs 1, 3, 5 etc. i en halv och alla jämntalade poster, dvs 2, 4, 6, 8 etc. i den andra halvan. halvorna korreleras med användning av Spearman-Brown-formeln.

Till exempel genom att korrelera båda halvorna fann vi en koefficient på 0, 70.

Med hjälp av formel (5.1) kan vi få tillförlitlighetskoefficienten på fullt test som:

Tillförlitningskoefficienten 0, 82 när korrelationskoefficienten mellan halvtestet är 0, 70. Det anger i vilken utsträckning provet av testämnen är ett tillförlitligt prov av innehållet som mäts-intern konsistens.

Gronlund (1995) anser att "split half reliabilities tenderar att vara högre än motsvarande formförluster, eftersom den delade halvan metoden är baserad på administrationen av en enda testform." Denna metod över-kommer problemet med likformiga metoder infördes på grund av skillnader från form till form, uppmärksamhet, arbetshastighet, ansträngning, trötthet och testinnehåll etc.

(d) Rationell ekvivalent / Kuder Richardson metod:

Rationell ekvivalens är en annan metod för att bestämma tillförlitligheten med hjälp av den formel som utvecklats av Kuder och Richardson. Liksom split-half-metoden ger denna metod också en mått av intern konsistens. Det kräver inte heller administrering av två likvärdiga testformer, eller det krävs att man delar upp testen i två lika stora halvor. Tillförlitlighetskoefficienten bestäms med användning av Kuder-Richardson formel-20 som läser så här.

Denna metod ger information om i vilken grad objekten i testet mäter liknande egenskaper. Även om enkelheten att tillämpa denna metod har gjort den bred spridning fortfarande, har den vissa begränsningar.

1. Kuder-Richardson-metoden och halvhalvmetoden är inte lämpliga för hastighetsprov.

2. Både Kuder-Richardson och split half-metoden mäter inte konsekvensen av elevens svar från dag till dag.

3. Kuder-Richardson-metoden är besvärlig att beräkna om det inte redan finns information om hur många passager som passerar.

Metoder för bestämning av absolut tillförlitlighet eller standardmätningsfel:

Om vi ​​ska administrera ett test igen och igen ska vi hitta en viss variation i poängen. Eftersom den erhållna poängen är ett index av examens sanna poäng plus: mätfel. HE Garrett (1985) har definierat en sann poäng som "en åtgärd som skulle erhållas genom att medelvärdet av ett oändligt stort antal mätningar av en given individ på liknande test under liknande förhållanden uppnås. En sann poäng kan inte självklart bestämmas experimentellt " .

Om testresultatet innehåller en stor felkomponent är dess tillförlitlighet låg och om den innehåller lite av fel är dess tillförlitlighet hög. Således kan den grad, i vilken en sann poäng överstiger, fel i de erhållna poängen anges med tillförlitningskoefficient.

Denna relation mellan sann poäng, erhållen poäng och felet kan uttryckas matematiskt enligt följande:

Vi kan ta reda på standardmätningsfel (SE) när tillförlitlighetskoefficienten och standardavvikelsen för fördelningen ges.

Formeln (Garrett-1985) för att beräkna standardmätningsfel är följande:

Till exempel i en grupp på 200 gymnasieskolor är pålitlighetskoefficienten för ett prestationstest i matematik 0, 70, medelvärde = 65 och o = 20. Lipu uppnår en poäng på 60. Vad är SE av denna poäng.

Genom att ange värdet i formel (5.3):

Så den sanna poängen av Lipu är 60 ± 10, 95 dvs 70, 50 till 49, 05.

Ingen erhållen poäng berättar vad det sanna värdet är, men kunskapen om SE indikerar skillnaden mellan erhållen poäng och sann poäng. När SE är liten indikerar det att det sanna värdet är närmare det erhållna värdet och det indikerar också huruvida skillnaden mellan poäng av två individer är verklig skillnad eller skillnad på grund av mätfel.

Faktorer som påverkar tillförlitligheten:

Det finns ett antal faktorer som påverkar pålitlighetsåtgärderna. Så att när vi tolkar och använder poängen måste vi vara försiktiga och manipulera dessa faktorer genom provberedning och administration.

De viktigaste faktorerna som påverkar testets tillförlitlighet, poäng kan kategoriseras i tre rubriker:

1. Faktorer relaterade till test.

2. Faktorer relaterade till testning.

3. Faktorer relaterade till testproceduren.

1. Faktorer relaterade till test:

(a) Testets längd:

Spearman Brown formel anger ju längre testet är desto högre blir pålitligheten. Eftersom ett längre test kommer att ge ett adekvat urval av beteendet. En annan orsak är att gissningsfaktorn är benägen att neutraliseras i ett längre test.

Till exempel om vi ska ge en beräkning för att mäta studenternas numeriska förmåga. De som har beräknat korrekt är perfekta i numerisk förmåga, de som misslyckades är fullständiga misslyckanden. Om beräkningen är svår, då kommer de flesta eleverna att misslyckas. Om det är enkelt så kommer de flesta eleverna att beräkna det korrekt. Så att den enda poängen ger aldrig ett tillförlitligt resultat.

b) Testets innehåll:

Enligt Guilford ökar homogeniteten av testinnehållet även testresultatets tillförlitlighet. Ett test av 50 objekt på vedisk civilisation kommer att ge mer tillförlitliga poäng än ett test på 50 artiklar på indisk historia. Enligt Ebel (1991) är ämnet i vissa kurser, som matematik och främmande språk, mer organiserat med större inbördes beroende av fakta, principers förmågor och prestationer än i ämnesmateriallitteraturen eller historien. " Så denna innehållshomogenitet är också en faktor som resulterar i hög tillförlitlighet.

c) Ämnenets egenskaper:

Svårighetsgraden och tydligheten i uttryck av en testartikel påverkar också testresultatets tillförlitlighet. Om testobjekt är för lätt eller svårt för gruppmedlemmarna tenderar det att ge resultat av låg tillförlitlighet. Eftersom båda testerna har en begränsad spridning av poäng.

(d) Spridning av poäng:

Enligt Gronlund och Minn (1995) "övriga saker lika stora, desto större är spridningen av poängen, ju högre är beräkningen av tillförlitligheten att vara." När han spridit poäng är stora är det större chans att en individ ska stanna i samma relativ position i en grupp från en testning till en annan. Vi kan säga att mätfel påverkar mindre till individens relativa position när spridningen av poäng är stor.

Till exempel i grupp A har eleverna säkrat betyg från 30 till 80 och i grupp B-studenter har säkrat betyg från 65 till 75. Om vi ​​ska administrera testen andra gången i Grupp A kan testresultatet av individer variera med flera punkter, med mycket liten skiftning i gruppmedlemmens relativa position. Det beror på att spridningen av poäng i grupp A är stor.

Å andra sidan är poängen i Grupp B mer benägna att flytta positionerna vid en andra administrering av testet. Eftersom spridningen av poäng bara är 10 poäng från högsta poäng till lägsta poäng, så kan förändringar av få poäng ge radikala förändringar i relativ position för individer. Ju större spridningen mer är tillförlitligheten.

2. Faktorer relaterade till testning:

Variabilitet i prestation, testkunskap hos individerna och motivation av eleverna påverkar också testresultatets tillförlitlighet.

Följande är några av de viktiga faktorerna med testet som påverkar testets tillförlitlighet:

(a) Gruppens heterogenitet:

När gruppen är en homogen grupp är spridningen av testresultatet sannolikt mindre och när gruppen testas är en heterogen grupp är spridningen av poäng sannolikt att vara mer. Därför är pålitlighetskoefficienten för en heterogen grupp mer än homogen grupp.

(b) Elevernas testkunskap:

Erfarenhet av provtagning påverkar också testresultatets tillförlitlighet. Övning av eleverna i att ta avancerade test ökar testets tillförlitlighet. Men när i en grupp inte alla studenter har samma nivå av testvishet, leder det till större mätfel.

c) Motivation av studenterna:

När studenterna inte är motiverade att ta provet, kommer de inte att representera sin bästa prestation. Detta fördröjer testresultatet.

3. Faktorer relaterade till testproceduren:

Eftersom de testrelaterade faktorerna och testrelaterade faktorer påverkar testresultatets tillförlitlighet påverkar även de faktorer som är relaterade till testproceduren testresultatet. Om testanvändarna kan kontrollera dessa faktorer kan de öka testresultatets konsistens.

(a) Tidsgräns för provet:

Enligt Ebel och Frisbie (1991) kommer "poäng från ett test som ges under höghastighetsförhållanden vanligtvis att visa en högre interna konsistenssäkerhetskoefficient än vad som skulle erhållas för poäng från samma test ges till samma grupp under mer generösa tidsgränser." Således när eleverna får mer tid att ta provet kan de göra mer gissning, vilket kan öka testresultatet. Därför kan vi öka provförsörjningen genom att påskynda ett test.

b) fuskmöjligheter till studenterna

Fusk av eleverna under testadministrationen leder till mätfel. Vissa studenter kan ge korrekt svar genom att kopiera det från fuskark eller lyssna från andra studenter utan att veta rätt svar. Detta kommer att leda till en högre poäng för de studenterna än de faktiskt förtjänar. Detta kommer att göra det observerade resultatet av cheaters högre än deras sanna poäng.

Hur högre bör pålitlighet vara?

Uppenbarligen är utvärderingsanordningar aldrig helt tillförlitliga. Hur opålitligt ett test kan vara och fortfarande är användbart beror främst på finheten av diskriminering som önskas från testresultatet. (Remmers 1967) Graden av tillförlitlighetskoefficient beror på testets art, storleken och variabiliteten hos gruppen, syftet för vilket testet administrerades och metoden som användes för uppskattning av tillförlitlighet. Ett test med låg tillförlitlighet kan ha högre validitet och kan sålunda användas. Men i ord från Remmers (1967) "De flesta standardiserade test som publicerats för skolanvändning har pålitlighetskoefficienter på minst 0, 80 i befolkningen som de är utformade för.

När man väljer ett standardiserat test för tolkning av resultaten, är det inte tillräckligt att bara titta på det numeriska värdet av pålitlighetskalkylen, man måste också ta hänsyn till hur den uppskattningen uppnåddes. Gronlund (1976) har påpekat betydelsen av metoder för att bedöma tillförlitligheten.

Enligt honom "ger halva metoden de största numeriska värdena till tillförlitlighetskoefficienten. Likvärdig form metod och test retest tenderar att ge lägre numeriskt värde till pålitlighetskoefficienten. Typiskt ger dessa två metoder medel till stor tillförlitningskoefficient. Ekvivalenta former metod ger vanligen minsta pålitlighetskoefficient för ett givet test. "

Därför kan det sägas att läraren ska söka ett standardiserat test vars tillförlitlighet är så hög som möjligt. Men han måste tolka denna tillförlitlighetskoefficient i ljuset av de grupper av elever som den bygger på, denna grupps variabilitet och metoder för att bedöma tillförlitligheten.

Karakteristisk # 2. Giltighet:

"Vid val eller konstruktion av ett utvärderingsinstrument är den viktigaste frågan; I vilken utsträckning kommer resultaten att tjäna de särskilda användningarna som de är avsedda för? Detta är kärnan i validitet. " -GRONLUND

Giltighet är det viktigaste kännetecknet för ett utvärderingsprogram, förutom om ett test är giltigt betjänar det ingen användbar funktion. Psykologer, pedagoger, vägledare använder testresultat för en rad olika ändamål. Självklart kan inget syfte uppnås, även delvis, om testen inte har en tillräckligt hög grad av giltighet. Giltighet: sannolikhet av ett test. Det betyder i vilken utsträckning testet mäter det, som testmakaren avser att mäta.

Den innehåller två aspekter:

Vad mäts och hur konsekvent det mäts. Det är inte ett testkarakteristik, men det refererar till betydelsen av testresultat och hur vi använder poängen för att fatta beslut. Följande definitioner ges av experter ger en klar bild av giltigheten.

Gronlund och Linn (1995) - "Giltighet avser lämpligheten av tolkningen från testresultat och andra utvärderingsresultat med avseende på en viss användning."

Ebel och Frisbie (1991) - "Termen validitet, när den tillämpas på en uppsättning testresultat, refererar till konsistensen (noggrannhet) med vilken poängen mäter en särskild kognitiv förmåga av intresse."

CV Good (1973) -I ordboken för utbildning definieras validitet som "omfattning som ett test eller annat mätinstrument uppfyller syftet med vilket det används."

Anne Anastasi (1969) skriver "Giltigheten av ett test gäller vad testet mäter och hur bra det gör det."

Enligt Davis (1964) är giltigheten omfattningen av vilken rangordning av poängen av examiner för vilka ett test är lämpligt är detsamma som rangordning av samma examiner i egenskapen eller egenskapen som testet används för att mäta . Den här egenskapen eller egenskapen kallas kriteriet. Eftersom ett test kan användas för många olika ändamål följer att det kan ha många validiteter som motsvarar varje kriterium. "

Freeman (1962) definierar, "ett giltighetsindex visar i vilken grad ett test mäter vad det avser att mäta, jämfört med accepterade kriterier."

Lindquist (1942) har sagt, "Testets giltighet kan definieras som den noggrannhet som den mäter det som den är avsedd att mäta, eller i vilken grad den närmar sig ofelbarhet vid mätning av vad den menar att mäta."

Av ovanstående definitioner är det uppenbart att validiteten av en utvärderingsanordning är graden av vilken den mäter vad den är avsedd att mäta. Giltighet är alltid oroad över den specifika användningen av resultaten och sundheten i vår föreslagna tolkning.

Det är inte heller nödvändigt att ett test som är pålitligt kan vara giltigt. Antag exempelvis att en klocka är inställd framåt tio minuter. Om klockan är en bra tid, kommer den tid det berättar oss att vara pålitlig. Eftersom det ger ett konstant resultat. Men det kommer inte att vara giltigt som bedömt av "Standard tid". Detta indikerar "konceptet att tillförlitlighet är ett nödvändigt men inte ett tillräckligt villkor för validitet."

Giltighetens art:

1. Giltighet avser lämpligheten av testresultaten men inte själva instrumentet.

2. Giltighet existerar inte helt eller utan, men det handlar om grad.

3. Testerna är inte giltiga för alla ändamål. Giltighet är alltid specifik för särskild tolkning. Exempelvis kan resultatet av ett ordförrådstest vara mycket giltigt för att testa vokabulär men kan inte vara så mycket giltigt för att testa kompositionens förmåga hos studenten.

4. Giltighet är inte av olika slag. Det är ett enhetligt koncept. Det bygger på olika typer av bevis.

Faktorer som påverkar giltighet:

Liksom tillförlitlighet finns det också flera faktorer som påverkar testresultatets giltighet. Det finns några faktorer som vi är alert på och kan enkelt undvika. Men det finns några faktorer om vilka vi är okunniga och det gör testresultaten ogiltiga, för deras avsedda användning.

Några av dessa faktorer är som följer:

1. Faktorer i testet:

(i) Oklara instruktioner till studenterna för att svara på provet.

ii) Svårighetsgrad i läsordförrådet och meningsstrukturen.

(iii) För enkla eller för svåra testpunkter.

(iv) Otydliga uttalanden i testobjekten.

(v) Otillräckliga testpunkter för att mäta ett visst utfall.

(Vi) Otillräcklig tid för att ta provet.

(vii) Testets längd är för kort.

(viii) Testartiklar som inte arrangeras i svårighetsgrad.

(ix) Identifierbart mönster av svar.

Faktorer i testadministration och poäng:

(i) Otillbörligt stöd till enskilda studenter, som ber om hjälp,

(ii) Fusk av eleverna under testning.

(iii) Otillförlitlig poängering av uppsats typ svar.

(iv) Otillräcklig tid för att slutföra testet.

(v) Biverkande fysiskt och psykiskt tillstånd vid provningstidpunkten.

Faktorer relaterade till Testee:

(i) Testa ängslan hos eleverna.

(ii) Elefs fysiska och psykologiska tillstånd,

(iii) Svaruppsättning - en konsekvent tendens att följa ett visst mönster när man svarar på föremålen.

Karakteristisk # 3. Objektivitet:

Objektivitet är en viktig egenskap för ett bra test. Det påverkar både validitet och tillförlitlighet av testresultat. Objektiviteten hos ett mätinstrument låter i vilken grad olika personer som poängterar svaret kvittot kommer från samma resultat. CV Good (1973) definierar objektivitet vid testning är "i vilken utsträckning instrumentet är fri från personligt fel (personlig förspänning), det är subjektiviteten hos målaren".

Gronlund och Linn (1995) säger att "testets objektivitet refererar till i vilken grad lika kompetenta poäng får samma resultat. Så ett test anses vara objektivt när det gör att man eliminerar målarens personliga åsikt och fördomar. I detta sammanhang finns det två aspekter av objektivitet som bör hållas i åtanke vid konstruktion av ett test. "

(i) Objektivitet i poäng.

(ii) Objektivitet i tolkning av testämnen genom testet.

(i) Målning av poäng:

Målning av poäng betyder samma person eller olika personer som poängterar testet när som helst kommer fram till samma resultat utan riskfel. Ett test som är objektivt måste nödvändigtvis vara så formulerat att det endast kan ges korrekt svar. Med andra ord bör den personliga bedömningen hos den person som skriver svarskriptet inte vara en faktor som påverkar testresultatet. Så att resultatet av ett test kan erhållas på ett enkelt och exakt sätt om poängförfarandet är objektivt. Scoreproceduren bör vara sådan att det inte borde finnas tvivel om huruvida en vara är rätt eller fel eller delvis rätt eller delvis felaktig.

(ii) Testresultatets objektivitet:

Med objekt objektivitet menas att objektet måste kräva ett bestämt enkelt svar. Välkonstruerade testämnen borde leda sig till en och en tolkning av studenter som känner till materialet. Det betyder att testen ska vara fri från tvetydighet. Ett visst testobjekt borde innebära samma sak för alla studenter som provtagaren avser att fråga. Dual meaning sentences, föremål som har mer än ett korrekt svar bör inte ingå i testet eftersom det gör testet subjektivt.

Karakteristisk # 4. Användbarhet:

Användbarhet är en annan viktig egenskap hos mätinstrument. Eftersom praktiska överväganden av utvärderingsinstrument inte kan försummas. Testet måste ha praktisk värde från tid, ekonomi och administrativ synvinkel. Detta kan benämnas användbarhet.

Så när du bygger eller väljer ett test måste följande praktiska aspekter beaktas:

(i) Enkel administrering:

Det innebär att testet ska vara enkelt att administrera så att de allmänna klassrumslärarna kan använda den. Därför bör enkla och tydliga riktningar ges. Testet bör innehålla mycket få delprov. Tidpunkten för testet bör inte vara för svårt.

(ii) Tid som krävs för administrering:

Lämplig tidsgräns för provtagningen bör tillhandahållas. Om för att ge tillräckligt med tid för provet ska vi göra testet kortare än testets tillförlitlighet kommer att minskas. Gronlund och Linn (1995) menar att "någonstans mellan 20 och 60 minuters testtid för varje enskild poäng som erhållits med ett publicerat test är troligen en ganska bra guide".

iii) Tolknings- och tillämpningsförmåga:

En annan viktig aspekt av testresultat är tolkning av testresultat och tillämpning av testresultat. Om resultaten tolkas felaktigt är den skadlig å andra sidan om den inte tillämpas, då är den värdelös.

(iv) Tillgänglighet av likvärdiga former:

Ekvivalenta former tester hjälper till att verifiera de tvivelaktiga testresultaten. Det bidrar också till att eliminera minnesfaktorn när man testar elever på samma lärdomsområde. Därför bör motsvarande former av samma test med avseende på innehåll, svårighetsgrad och andra egenskaper vara tillgängliga.

(v) Kostnad för testning:

Ett test bör vara ekonomiskt från förberedelse, administration och poängsynpunkt.