Åtgärder för dispersion

Efter att ha läst den här artikeln kommer du att lära dig om de olika måtten av dispersion som används i social forskning.

I social forskning vill vi ofta veta omfattningen av homogenitet och heterogenitet bland de svarande med avseende på en given egenskap. Varje uppsättning sociala data har värden som kan karakterisera heterogenitet. Satsen av sociala data karakteriseras typiskt av värdena heterogenitet.

Faktum är att den utsträckning som de är heterogena eller varierar mellan varandra är av grundläggande betydelse i statistiken. Åtgärder av central tendens beskriver en viktig egenskap hos en uppsättning data, men de säger inte någonting om denna andra grundläggande egenskap.

Därför behöver vi sätt att mäta heterogenitet - i vilken utsträckning data sprids. Åtgärderna som ger denna beskrivning kallas åtgärder för dispersion eller variation. Följande tre fördelningar som visas i figur 18.4 kommer att illustrera vikten av att mäta dispersionen av statistiska data.

Fördelning av medelvärden för prov av olika storlekar :

Det kan ses att det aritmetiska medelvärdet av alla tre kurvorna i ovanstående figur är detsamma, men fördelningen av värden som avbildas av kurvan A visar mindre variation (dispersion) än den som avbildas av kurvan B, medan kurvan B har mindre variation jämfört med det som visas av kurvan C.

Om vi ​​bara betraktar måttet på den centrala tendensen för fördelningar kommer vi att sakna en viktig skillnad bland de tre kurvorna. För att få en bättre förståelse för datamönstret måste vi också få måttet av dess dispersion eller variation, vi vänder oss nu till att överväga olika mått av dispersion.

Räckvidd:

Intervallet definieras som skillnaden mellan de högsta och lägsta värdena: Matematiskt,

R (Räckvidd) = Mn - M L

där Mn och Ml står för högsta och lägsta värdet. Således för datasatsen: 10, 22, 20, 14 och 14 skulle intervallet vara skillnaden mellan 22 och 10, dvs 12. Om grupperade data tar vi intervallet som skillnaden mellan de yttersta punkterna klasser. Om mittpunkten för det lägsta intervallet är 150 och det högsta är 850, kommer intervallet att vara 700.

Den enda fördelen med intervallet, vilket mått på dispersion sällan används, är att det enkelt kan beräknas och lätt förstås. Trots denna fördel är det i allmänhet inte ett mycket användbart mått på dispersion; sin huvudsakliga nackdel är att den inte säger någonting om spridningen av värden som är mellanliggande mellan de två ytterligheterna.

Halv-kvart-kvartsområde eller kvartilavvikelse:

Ett annat mått på dispersion är halvintervallet, allmänt känt som Quartile Deviation. Quartiles är de punkter som delar upp arrayen eller serien av värden i fyra lika delar som vardera innehåller 25 procent av föremålen i distributionen. Kvartilerna är då de högsta värdena i var och en av dessa fyra delar. Interkvartilintervallet är skillnaden mellan värdena på första och tredje kvartilen.

Därför, där och Q 1 och Q 3 står för första och tredje kvartiler, är halverinterkvartilintervallet eller kvartilavvikelsen given med formel = Q3-Q1 / 2

Beräkning av kvartilavvikelse:

Kvartilavvikelse är ett absolut mått på dispersion. Om kvartilavvikelse ska användas för att jämföra dispersionerna av serier är det nödvändigt att omvandla den absoluta mätningen till en kvartilavvikelseskoefficient.

Medelavvikelse :

Räckvidd och kvartilavvik lider av allvarliga nackdelar, dvs de beräknas genom att endast ta hänsyn till två värden i en serie. Således är dessa två dispersionsåtgärder inte baserade på alla observationer i serien. Som ett resultat ignoreras seriens komposition fullständigt. För att undvika denna defekt kan dispersionen beräknas med beaktande av alla observationer i serien i förhållande till ett centralt värde.

Metoden för beräkning av dispersion kallas metoden för medelvärdesavvikelser (medelavvikelse). Som namnet tydligt antyder är det det aritmetiska genomsnittet av avvikelserna hos olika objekt från ett mått på central tendens.

Som vi vet är summan av avvikelser från ett centralt värde alltid noll. Detta föreslår att för att få en genomsnittlig avvikelse (om medelvärdet eller något av de centrala värdena), måste vi på något eller annat sätt bli av med några negativa tecken. Detta görs genom att ignorera tecken och ta det absoluta värdet av skillnaderna.

I vårt hypotetiska exempel är medelvärdet av nummer 12, 14, 15, 16 och 18 15. Detta innebär att skillnaden på 15 från var och en av dessa nummer, ignorerar tecknen hela tiden och sedan lägger till resultaten kommer vi att få den totala avvikelse.

Delar det med 5 får vi:

= 1, 6 (där | d | står för summan av absoluta avvikelser).

Vi kan därför säga att medeltalet skiljer sig från medelvärdet med 1, 6.

Beräkning av genomsnittlig avvikelse i oupphörligt datum (enskilda observationer):

Beräkning av medelavvikelse i kontinuerlig serie:

Genomsnittlig avvikelse koefficient :

För att jämföra den genomsnittliga avvikelsen i serie beräknas medelvärdesavvikelsen eller relativ medelavvikelse. Detta erhålls genom att dela medelavvikelsen av den mätningen av den centrala tendensen från vilken avvikelser beräknades. Således,

Medelvärde. Avvikelse / X

Användning av denna formel till föregående exempel har vi,

Medelvärdekoefficient = 148/400 = 0, 37

Standardavvikelse :

Den mest användbara och ofta använda måttet av dispersion är standardavvikelsen eller roten-medel-kvadratens avvikelse kring medelvärdet. Standardavvikelsen definieras som kvadratroten av det aritmetiska medelvärdet av kvadraten av avvikelserna om medelvärdet. symbol~~POS=TRUNC

σ = √Σd 2 / N

där σ (grekiska bokstaven Sigma) står för standardavvikelsen, Σd 2 för summan av kvadraten av avvikelserna uppmätta från medelvärdet och N för antal objekt.

Beräkning av standardavvikelse i serie av enskilda observationer:

Kortklippad metod:

Beräkning av standardavvikelse i diskret serie :

I en diskret serie beräknas avvikelser från ett antaget medelvärde först och multipliceras med respektive frekvens av föremål. Avvikelserna är kvadrade och multiplicerade med respektive frekvenser av objekten. Dessa produkter summeras och divideras med summan av frekvenserna. Standardavvikelsen beräknas med följande formel:

Följande illustration skulle förklara formeln:

Beräkning av standardavvikelse i en kontinuerlig serie :

I en kontinuerlig serie representeras klassintervallerna av sina mittpunkter. Normalt är klassintervallen lika stora och sålunda avvikelser från det antagna genomsnittet uttrycks i klassintervallenheter. Alternativt uppnås stegavvikelser genom att dividera avvikelserna med storleken av klassintervallet.

Formeln för beräkning av standardavvikelsen är således skrivet som under:

där jag står för den gemensamma faktorn eller omfattningen av klassintervallet.

Följande exempel skulle illustrera denna formel:

Variationskoefficient:

Standardavvikelsen representerar mått på absolut dispersion. Det är också nödvändigt att mäta den relativa dispersionen av två eller flera fördelningar. När standardavvikelsen är relaterad till dess medelvärde, mäter den relativ dispersion. Karl Pearson har utarbetat en enkel åtgärd av relativ dispersion som i allmänhet kallas variationskoefficienten.

Variationskoefficienten för problemet i tabell 18.47 är: