Provstorlek: Problem och matematik

Efter att ha läst den här artikeln kommer du att lära dig om problem och matematik av provstorlek.

Problemet med provstorlek:

Vi ska nu överväga ett av de svåraste problemen med provtagningen, det vill säga problemet med provstorlek. "Vad borde vara provets tillräckliga storlek i förhållande till befolkningens storlek?" "Hur stor borde vara ett prov?" Är frågor som ofta ställs av forskarstuderande. Xo avgörande svar på denna fråga kan ges.

Detta beror på att frågan om storlek endast kan besvaras när vi är provtagningselement för befolkningen på ett sådant sätt att varje element har samma chans att ingå i provet, det vill säga när vi antar sannolikhetsutformningen för provtagningen.

Endast sannolikhetsdesign gör det möjligt att formulera representativa provtagningsplaner. Det gör det möjligt att formulera representativa provtagningsplaner.

Därför frågan "hur stort provet ska vara för att vara representativt för befolkningen med en bestämd storlek?" Förutsätter sannolikhetsprovtagningsförfarandet. Att misslyckas med detta förfarande, representativitet av provet, hur stort det än bara kan vara en fråga om hopp och förmodning.

De allmänna missuppfattningarna med avseende på provets storlek är att storleken på universet från vilket provet dras bestämmer antalet fall som behövs för att ge ett tillräckligt eller representativt urval av det universum.

Vi kommer att göra det bra att notera direkt att betoning bör läggas på antalet fall i universum men på deras antal i provet.

Matematiken i provstorlek:

Den grundläggande praktiska frågan "Hur bestämmer du provstorleken som ger den önskade graden av precision som forskaren ställt för en given studie?" Provtagningsproblemet är givetvis detsamma i alla studier, det vill säga att uppskatta eller förutsäga någonting om befolkningen på grundval av kunskap om något om provet.

Forskaren måste veta vilken typ av statistik på provet kommer att tjäna syftet, t.ex. procentsatser, medelvärden, standardavvikelse etc. för en sådan uppskattning. Detta är viktigt eftersom olika typer av statistik är användbara beroende på de önskade graderna av precision i provavkastningar som i sin tur tillhandahålls av olika provstorlekar.

Medeltal och procentsatser är den mer allmänt önskade statistiken. Vi kommer därför att behandla specifikt frågan om provstorlekar som motsvarar de önskade graderna av precision i förhållande till medelvärden och procentsatser.

Eftersom provet som ritats av forskaren bara är ett av de många möjliga proven i universum som han kanske har hänt att välja, behöver han veta hur mycket beroende han kan placera på provet som representant för "universum" som han vill veta något eller med hänvisning till vilket han vill generalisera.

Han behöver veta hur stor provet ska vara för att ge honom en tillfredsställande precision. Denna beräkning är möjlig genom att använda matematik sedan i slumpmässig provtagning (sannolikhetsprovtagningsdesign) där varje objekt i universum har en specificerbar sannolikhet för inkludering i provet, precisionen av förutsägelse eller uppskattning är relaterad till kvadratroten av antalet poster i provet.

Innan man fortsätter med beräkningen av provets nödvändiga storlek för en given studie är det i praktiken nödvändigt att säkerställa vissa preliminära uppgifter om befolkningen eller universum.

Om forskaren avser att använda provet för att göra en uppskattning av den genomsnittliga åtgärden av särskild egenskap i universum, måste han ha en preliminär uppskattning av standardavvikelsen (dispersion) i fördelningen av värdena för objekt i universum med respekt till den givna egenskapen.

Forskaren som känner till värdena (spridningen) med avseende på en särskild egenskap i universum kan få en preliminär uppskattning av standardavvikelsen genom att dividera detta intervall med 6, eftersom standardavvikelsen för det (ändliga) universum kan för alla praktiska ändamål anses vara omkring 1/6 av hela sortimentet av variation.

Med andra ord kan spridningsområdet för en fördelning tas till att omfatta 6 standardavvikelseenheter. Den preliminära informationen om universum kan fås genom en pilotstudie, resultat från tidigare undersökningar, rapporter utgivna av statistikbyråer, räkning av experter på området etc.

Forskaren måste, innan man fortsätter att beräkna provets storlek, bestämma den förväntade nivån på beräkningarna. Denna förväntan baseras i huvudsak på syftet med studien.

Med andra ord måste forskaren bestämma:

(a) Hur mycket fel i beräkningen som ska härledas ur provet (jämfört med det verkliga värdet, dvs värdet av "universet") kan tolereras (kallad felmarginal eller noggrannhet) och

(b) Hur mycket försäkran kan man säga att uppskattningen kommer att falla inom denna felmarginal (kallad, konfidensnivå eller sannolikhet).

Det är dock lämpligt att betrakta dessa mer i detalj, för närvarande:

(a) Felmarginal eller noggrannhet:

Den grundläggande frågan här är: "Hur mycket är den procentandel eller det genomsnitt som ska säkras från studien av provet som kan variera från det sanna medlet (av befolkningen) och kan fortfarande tolereras?" Forskaren kan tolerera 5% fel eller kanske kräver noggrannhet inom en gräns på 2%.

Det beror helt på hur exakt eller exakt han vill veta vissa fakta. Låt oss anta att forskaren vill veta i förväg vilken av de två kandidaterna som bestrider valet kommer att vinna sätet. Om röstningen kommer att vara nära kan forskaren ha råd att tolerera endast ett mindre fel om han ska vara praktiskt säker.

Han kan till exempel ställa in det tillåtna felet på mindre än 2%. Å andra sidan, om valet verkar vara ensidigt och ganska förspänt till förmån för en viss kandidat, kan forskaren kunna förutsäga resultaten även med ett mycket större fel i uppskattningen.

Om provundersökningen råkade avslöja att 60% av rösterna skulle gå till förmån för en kandidat, kunde ett fel så högt som 9% tolereras. I det här fallet skulle det verkliga värdet fortfarande vara 51%, det vill säga 1% över 50% som är den kritiska punkten, även om provposten hade dragit det mest olyckliga provet avvikande 9% från det verkliga värdet.

Således skulle både det uppskattade värdet på 60% och det verkliga värdet på 51% ligga över den kritiska punkten (dvs 50%) och förutsägelsen skulle vara tillförlitlig.

(b) Sannolikhet eller konfidensnivå:

Förutom noggrannheten måste forskaren också bestämma hur mycket självförtroende han vill ha i prognosuppskattningarna vara så nära den sanna uppskattningen att den ligger inom gränserna för tolerans eller noggrannhet som fastställs av Han för studien.

I vissa situationer kan han vara mycket säker på att hans uppskattningar (baserat på urvalet) ligger inom 51% av det verkliga värdet, medan han i vissa andra situationer kan vara nöjd med lite mindre grad av försäkran.

I samhällsvetenskaplig forskning är två grader av sannolikhet eller förtroende mycket välkända och används ofta.

En av dessa är 0, 95 nivå av sannolikhet, dvs det kommer att finnas 95 chanser utav 100 att provuppskattningen inte överstiger gränserna för tolerans eller felmarginal, och den andra nivån är 0.99-nivån, sannolikheten, det vill säga det Det är sannolikt att i 99 chanser utav 100 kommer provets uppskattning inte att överstiga felmarginalen.

Nivån på förtroendet kan till och med ställas till 0, 999, det vill säga att prospektberäkningen inte avviker från det sanna värdet (av universum) utöver toleransgränserna i 999 chanser av 1000. För vissa ändamål kan forskaren sträva efter låga och Ställ in sannolikhetsnivån vid 0, 67 (dvs 2 av 3).

Chanserna att ett visst prov som tagits för en studie kommer att ge en uppskattning av universum som ligger inom felmarginalen beror på variationen i de prover som kan dras från universum. Om de värden som säkras från proverna tenderar att avvika avsevärt från det verkliga värdet, är chanserna för ett givet provvärde som ligger inom de tillåtna gränsvärdena fattiga.

Standardfelet är åtgärden som berättar för oss vad chanserna för ett prov som ligger inom de tillåtna gränserna är. Det är ett mått på variation i provtagningsberäkning som kan förväntas i slumpmässig provtagning. Slumpmässiga prover tenderar att följa sannolikhetslagen och proverna uppskattar tenderar att klara kring det sanna värdet av universum.

Dessa uppskattningar kan representeras av en klockformad eller normal kurva. Mittpunkten för denna kurva representerar det verkliga värdet (av universum) och den maximala variationen eller avvikelsen för en slumpmässig provestimering från detta verkliga värde är cirka tre gånger standardfelet.

Standardfelet är således ungefär 1/6 av hela spektrumet av slumpmässig provtagningsvariation. För alla praktiska ändamål är standardfelet emellertid 1/4 av variationen, eftersom de extrema variationerna sker sällan.

Sannolikhetstabeller visar att 95 av 100 provuppskattningar kan förväntas falla inom gränsen +2 och -2 standardfel. Detta innebär att om vi har satt vår nivå av förtroende eller sannolikhet vid 0, 95, kommer vårt problem att göra ett slumpmässigt prov med ett standardfel som är cirka ½ (halv) av vår felmarginal.

För en högre sannolikhet skulle vi behöva rita ett prov med ett standardfel, det vill säga en ännu mindre del av felmarginalen.

Det bör noteras att standardfelet blir mindre (högre precision) eftersom proven blir större. För att fördubbla precisionen måste provstorleken multipliceras med 4, dvs ökad fyra gånger; att diskanta det måste provstorleken multipliceras med 9; att fyrdubbla det, med 16 och så vidare.

Detta innebär bara att precisionen ökar som kvadratroten av antalet fall i provet. Statistiker har utarbetat tabeller som visar sannolikheten för att uppskattningar av prover kommer att ligga inom de olika standardfelgränserna.

Dessa gränser anges i allmänhet som + (plus) och - (minus). Sådana tabeller visar t ex att 95% av de slumpmässiga provuppskattningarna ligger inom gränsen på +1.96 och -1.96 standardfel, cirka 68% av uppskattningarna faller inom gränserna för + 1 och -1 standardfel och 99% av uppskattningarna faller inom intervallet +2, 57 och -2, 57 standardfel, och så vidare.

Med full hänsyn till (1) felmarginalen och (2) sannolikheten eller konfidensnivån kan forskaren fortsätta med beräkningen av en önskad provstorlek. Mildred Parten har gett följande formel för beräkning av provstorleken när statistiken som ska beräknas är procentandelen. Detta är uppenbarligen en införlivad variation av en standardfelformel.

Storleken på provet = PC (100-PC) Z 2 / T 2

I ovanstående formel betyder PC preliminär uppskattning av procentsatsen (från universum).

Z betyder antalet standardfelheter som hittas (från den normala sannolikhetstabellen) för att motsvara den erforderliga sannolikhetsnivån.

T betyder felmarginalen som kan tolereras (5% eller 2%).

Parten har gett följande formel för att beräkna provstorleken för att förutsäga eller uppskatta universets medelvärde med avseende på en specificerad egenskap vid en viss grad av förtroende och riktade till en given marginal eller fel eller toleransgräns.

Provstorlek = (5 + Z / T) 2

Där 8 står för den preliminära uppskattningen av universell standardavvikelse.

Z står för antalet standardfelheter som motsvarar den erforderliga sannolikheten eller konfidensnivån.

Låt oss ta ett konkret exempel och utarbeta provstorleken. Antag att vi önskar uppskatta den genomsnittliga årliga inkomsten för familjer som bor i en viss "medelklass" lokalisering av en stad.

Låt oss säga att vi har ställt vår felmarginal på Rs.100 / -, dvs vi kommer att tolerera provuppskattningen inom plus eller minus 100 från den sanna genomsnittet av befolkningen med avseende på inkomst. Antag att vi har satt sannolikheten eller konfidensnivåen till 0, 95.

Antag också att vi, från en undersökning som genomfördes några år tillbaka, uppskattar standardavvikelsen för befolkningens årliga inkomst (lokalitet) till Rs.500 / -. Värdet på Z, dvs standardfelheterna som motsvarar sannolikheten för 0, 95 är 1, 96.

Att ersätta dessa värden i formeln ovan har vi

Storlek på enkel = (500 × 1, 96 / 100) 2

= (9, 8) 2

= 95

Detta innebär att ett slumpmässigt urval av 95 fall (familjer, som är provenheterna) borde ge oss en uppskattning av medelvärdet av det givna "universet" inom den inställda felmarginalen och på önskad nivå av förtroende eller sannolikhet, av Rs. 100 / - och 0, 95.

Om vi ​​skärmar felmarginalen och ställer den till Rs. 50 / - Antalet fall i provet, det vill säga den storlek som krävs för provet är fyra gånger så stor (dvs. 380) som den storlek som krävs för den tidigare felmarginalen (Rs 100 / -).

Om en annan ort kännetecknas av större homogenitet vad gäller inkomst och antagandet, sålunda att standardavvikelsen i inkomsttermer är endast 100, kommer provets storlek för ovanstående felmarginal att vara mycket lägre.

Med andra ord illustrerar användningen av formeln lektionen, desto större homogenitet minskar det prov som krävs och större noggrannhet eftersträvas, desto större är den provstorlek som behövs.

Den upprepade användningen av sådana termer som felmarginalen och konfidensnivå och andra numeriska uttryck för sannolikheter och provstorlekar kan ha en tendens att skapa intrycket att en provstorlek beräknad med en formel kommer att garantera önskad precision.

Man bör dock komma ihåg att de relationer som visas i de sannolika statistiska tabellerna representerar normala förväntningar i en ideell slumpmässig provtagning. Men så mycket som den faktiska provtagningen är sällan ideal, kan de relationer som uttrycks i tabeller inte förväntas hålla.

Den allmänna svårigheten och sällsyntheten hos idealprovtagning bör förstå skeptiskt till resultat som exakt motsvarar förväntningarna.

Detta innebär emellertid inte att forskaren inte ska använda eller föredra exakt samplingsstorlek beräknad på grundval av sannolikhetsformeln. Faktum är att det är just det han ska göra för att det är hans bästa satsning. Han borde dock inte insistera på den exakta storleken om praktiska överväganden gör det olämpligt.

En väsentligen annorlunda inställning till problemet med att bestämma den önskade provstorleken är "stabilitetstestet." Detta består i att samla in data för relativt små delprov och hålla en löpande rekord om fördelningen av avkastningen.

När efter en punkt, ändrar tillsatsen av fler delprov inte resultaten avsevärt, kan forskaren anta att det totala provet som hittills har blivit tillräckligt storleksvis. Men det här förfarandet kan väl betraktas som slöseri med tid eftersom det faktiskt uppgår till en forskare som deltar i en rad separata undersökningar som sprids över en lång tid.

Det har hävdats att detta förfarande är oekonomiskt genom att fler scheman samlas in än vad som faktiskt behövs, eftersom den avsmalnande ut mot punkten av approximativ stabilitet inte kan lokaliseras med någon viss säkerhet tills kurvan har bibehållit sin nivå en stund.

Men detta verkar inte vara en allvarlig begränsning jämfört med konservativ praxis av många ansedda studier som samlar mer än det nödvändiga / minsta antalet objekt som ett prov.

Den största fördelen med denna typ av stabilitetstest är att istället för att bero på beräkningar baserade på preliminär information ökar man helt enkelt den totala provstorlekenheten som det observeras vara tillräcklig. Den empiriska kontrollen av att titta på avkastningen och stoppa när de stabiliseras verkar lätt och övertygande.

Den främsta faran för detta förfarande ligger i det faktum att de på varandra följande delproverna inte kommer att sprida sig över universum. Resultaten kan stabilisera trots att de inte representerar befolkningen.

I själva verket är ju mindre representativa delprovet, desto mer sannolikt är tillsatsen av fler fall att ge samma resultat och kasta upp utseendet på stabilisering. Om inte delprovet är ett tvärsnitt av universum kommer det inte att finnas ett överkänsligt prov på vilket man observerar den närmande stabiliseringen.

Det grundläggande kravet i detta förfarande är att ett växande representativt prov måste finnas tillgängligt för observation. Utgifterna och svårigheten att samla successiva delprover som är spridda över universum är de främsta anledningarna till att detta inte kommer att vara representativt.

Det empiriska stabilitetsprovet kan emellertid vara mycket effektivt, när delproven är korrekt ritade och samlade. Metoden är mest lämplig för intervjuundersökningar som täcker relativt små områden eller samhälle som en stad eller en stad eftersom det då inte är så svårt eller dyrt att göra varje delprov till ett slumpmässigt urval av befolkningen.

En mer förfinad form av empirisk kontroll jämfört med stabilitetstestet är en relativt nyutvecklad utveckling som kallas sekventiell analys. Det allmänna förfarandet involverade här är att fortsätta att lägga till provet och samtidigt fortsätta testa provet för betydelse tills det minsta provet ackumuleras som kommer att ge den erforderliga nivåens betydelse.