Korrelation i statistiken

Efter att ha läst den här artikeln kommer du att lära dig om: - 1. Definitioner av korrelation 2. Typer av korrelation 3. Koefficient.

Definitioner av korrelation:

Collins Dictionary of Statistics:

"Ömsesidigt beroende mellan två eller flera slumpmässiga variabler. Om två variabler är sådana att, när man ändras, gör den andra det på ett besläktat sätt, sägs de vara korrelerade. "

Ordbok för utbildning, CV Bra:

"Korrelation är tendensen för motsvarande observationer i två eller flera serier för att variera ihop från medelvärdena i deras respektive serier som ska ha liknande relativa positioner."

AM Tuttle:

"Korrelation är en analys av medvariationen mellan två eller flera variabler."

Caraxton och Cowden:

"När förhållandet är kvalitativt är det ungefärliga statistiska verktyget för att upptäcka och mäta förhållandet och uttrycka det i en kort formel kallad korrelation." På utbildningsområdet har pedagoger och psykologer för olika praktiska ändamål försökt att känna till omfattningen av förhållandet mellan förmågor i olika skolämnen.

Genom korrelationsmetoden kan vi studera de olika problemen som involverar förhållandet mellan elevernas förmågor, såsom aritmetik och läsförståelse, mellan betyg på ett test av intelligens och kursmedelvärden, mellan barnens höjd och vikt etc.

Därför definieras statistisk korrelation som en grad till vilken de parade poängen av två eller flera uppsättningar av åtgärder tenderar att variera tillsammans. Mätningen av graden av sammankoppling uttrycks som en korrelationskoefficient. I pedagogisk och psykologisk forskning är samförhållandeanalysen väldigt viktig.

Följande är de några stora fälten där den används allmänt:

(a) Det används för att testa i vilken utsträckning dataen överensstämmer med hypotesen.

(b) Förutsägande en variabel på grundval av annan relaterad variabel (er)

(c) Att identifiera extern variabel (er) och att isolera deras effekt i ett experiment.

(d) Det används för att bestämma testresultatets tillförlitlighet och giltighet.

(e) Att beräkna ytterligare statistik baserat på korrelationskoefficienten.

Typer av korrelation:

För att få en tydlig förståelse för begreppet korrelation måste vi diskutera olika typer av korrelationer.

I en bivariatfördelning kan relationerna kategoriseras i olika typer:

(a) Positiv korrelation

(b) Negativ korrelation

(c) Nollavtal eller inget förhållande

(d) Linjär korrelation

(e) Icke-linjär eller kurvlinjär korrelation.

(a) Positiv korrelation:

När ökningen eller minskningen i en variabel ger motsvarande ökning eller minskning i den andra variabeln, sägs förhållandet vara positiv korrelation. När varje enhet ökar eller minskar i en variabel följs av proportionell ökning eller minskning i den andra variabeln, är förhållandet Perfekt Positiv Korrelation.

Ett positivt förhållande varierar mellan 0 och +1. När det är +1 är korrelationen perfekt positiv korrelation.

Antag att 100 studenter har exakt samma stående i två test - de elever som först scorar i ett testresultat först i den andra, rankar den som rankar andra i det första testet också andra i det andra testet. Denna en till en korrespondens gäller hela listan.

Så förhållandet är perfekt, eftersom det relativa läget för varje ämne är exakt detsamma i ett test som i det andra och koefficienten för korrelation är + 1, 00.

Det kan illustreras med hjälp av följande exempel:

Exempel:

I ovanstående tabell A värderas först först i test-1 och även i test-2. Och likaså B sekund, C tredje, D fjärde och E femte i båda testen. Här observeras att ökningen av betyg för en student i ett ämne motsvarar den proportionella ökningen av betyg i ett annat ämne. Sådan korrelation kallas perfekt positiv korrelation.

Om ökningen av en elevs betyg i 1: a testet motsvarar ökningen av poäng i det andra testet, men inte proportionellt, är det en positiv korrelation, vi kan illustrera det med hjälp av följande diagram:

(b) Negativ korrelation:

När en hög grad av ett drag eller en variabel är associerad med en låg grad av en annan kallas negativ korrelation. Om ökningen i en variabel resulterar i minskning av andra variabla och vice versa, sägs förhållandet vara negativ korrelation. Den negativa korrelationen kan sträcka sig från 0 till -1.

När varje ökningstakt i en variabel sänker proportionell enhet i den andra variabeln kallas förhållandet perfekt negativ korrelation och korrelationskoefficienten indikeras med -1. Vi kan förklara detta med hjälp av följande exempel.

Antag att i en test har 5 studenter A, B, C, D och E säkrat, 80, 75, 70, 65 och 60 poäng. I det andra testet har de säkrat, respektive 40, 45, 50, 55 och 60.

I det ovanstående exemplet har student A som säkrat högsta betyg i Test-1 säkrat lägsta poäng i Test-2. Studenten B som står andra i Test-1-rankningar bredvid botten (4: e) i Test-2. Här står varje elev så långt från listan överst i Test-1 som längst ner i listan i Test-2.

Så korrespondensen mellan prestation i test-1 och test-2 är regelbunden och bestämd men förhållandet är omvänd eftersom ökningen av en individs markeringar i ett ämne motsvarar minskningen av betyg i en annan. Detta förhållande är en perfekt negativ korrelation.

Den kan illustreras med hjälp av följande diagram:

(c) Nollavtal eller ingen korrelation:

När det inte finns något systematiskt förhållande mellan två uppsättningar av poäng eller variabler i så fall är det känt som nollavtal eller ingen korrelation. Det betyder att i nollkorrelation finns korrespondens mellan de poäng som gruppmedlemmarna gör på de två uppsättningarna av poäng. Ändringen i en variabel är inte på något sätt associerad med ändringen av annan variabel.

Till exempel är skostorleken och månadsinkomsten för personer, individens höjd och deras intelligens etc. inte alls relaterade. Eftersom nollkorrelation indikerar inget konsekvent förhållande, så uttrycks det med en koefficient på .00. Vi kan också förklara detta koncept med hjälp av ett diagram som visas i figur 12.3.

(d) Linjär korrelation:

När förhållandet mellan två variabler är proportionellt och det kan beskrivas med en rak linje kallas den linjär korrelationen. Antag att det finns fem personer, säger A, B, C, D och E. Den månadslön för dessa personer är Rs. 4000, Rs. 5000, Rs. 6000, Rs. 7000 och Rs. 8000 respektive.

Så deras årliga inkomst blir 12 gånger av sin månadslön. Om vi ​​plottar en graf som visar månadslönen på X-axeln och årsinkomsten i Y-axeln kommer resultatet att vara en raklinjediagram som i fig 12.4-1, 2. Detta förhållande kallas som en linjär korrelation .

(e) Kurvlinjär korrelation:

När förhållandet mellan variablerna inte är proportionellt i hela serien och det kan beskrivas med en kurvlinje kallas kurvan linjär korrelation. Det är också känt som olinjär korrelation. Till exempel först med ökningen av variabel 'A' ökar den andra variabeln 'B' upp till en viss punkt, därefter med en ökning av variabel-A minskar variabel-B.

Om denna korrelation mellan variabel-A och variabel-B plottas till diagram blir resultatet en krökt linje (fig 12.4-3, 4).

Korrelationskoefficient:

Den statistiska metoden i vilken relationen uttrycks i kvantitativ skala kallas korrelationskoefficienten. Det är ett numeriskt index som berättar i vilken utsträckning de två variablerna är relaterade och i vilken utsträckning variationerna i en variabel förändras med variationerna i den andra.

"Korrelationskoefficienten är ett rent antal, varierande vanligtvis från +1 till 0 till 1, som anger graden av förhållande som finns mellan två (eller flera) serier av observationer" - CV Bra.

Korrelationskoefficienten betecknas på två sätt. I Karl Pearsons Produkt-moment uttrycks det som "r". I Spearmans Rank-skillnadskorrelation uttrycks det som 'p' (rho). En positiv korrelation indikerar att stor mängd av en variabel brukar följa med stora mängder av den andra. Så en perfekt positiv korrelation uttrycks av en koefficient på 1, 00.

Således varierar en positiv korrelation från 9, 00 till + 1, 00. En negativ korrelation indikerar liten mängd av den ena variabel tenderar att åtfölja stor mängd av den andra. Det är en hög grad av ett drag kan vara associerad med låg grad av en annan.

En perfekt negativ korrelation uttrycks av en koefficient på - 1, 00. Således varierar en negativ korrelation från noll till-1, 00. När de två variablerna inte alls är relaterade uttrycks koefficienten som noll.

Tolkning av korrelationskoefficienten:

Det r-värde vi får som bara indikerar att utgången är ett förhållande. Men det indikerar inte om det är betydande eller inte. Därför testar vi betydelsen av r vid .05 och .01 konfidensnivå med avseende på deras grader av frihet eller "df". I ett bivariat förhållande räknas df som (N-2).

Till exempel, om r = 0.55 och N = 50 för att tolka r måste vi komma in i tabellen -C. Här df = (N-2) = (50-2) = 48. Inmatning i tabellen visade vi att vid df = 50 (närmare df 48) är värdet vid .05-nivå .273 och vid .01 nivån är .354.

Vårt r-värde 0, 55 är större än båda dessa värden. Därför är r signifikant både vid .05 nivå och .01 nivå. Så om r-värdet är större än värdet av en signifikant nivå kommer det att vara signifikant och om det är mindre än värdet av signifikant nivå blir det obetydligt.

Egenskaper hos r:

1. Om ett konstant tal läggs till i en eller båda variablerna kvarstår koefficienten för korrelation oförändrad.

2. Om ett konstant tal subtraheras från en eller båda variablerna, kvarstår koefficienten för korrelation oförändrad.

3. Om ett konstant tal multipliceras med en eller båda variablerna, kvarstår koefficienten för korrelation oförändrad.

4. Om både variablerna och en är dividerad med ett konstant tal förblir koefficienten för korrelation oförändrad.

Användning av korrelationskoefficient (r):

1. För att få reda på graden av relation eller interberoende mellan två variabler används r.

2. För att förutsäga den beroende variabeln från den oberoende variabeln r används.

3. För att bestämma tillförlitligheten av ett testresultat används r.

4. För att bestämma giltigheten av testresultat r används.

5. För att fatta beslut i pedagogisk och yrkesvägledning används r.

6. För att beräkna annan statistik som faktoranalys krävs regressionsprognos och multipelkorrelation etc. r.

Beräkning av korrelationskoefficient:

Det finns två metoder för att beräkna korrelationskoefficienten från en bivariatfördelning.

1. Spearmans Rank Differens Metod:

Korrelationskoefficienten är värdefull för utbildning och psykologi som ett mått på förhållandet mellan testresultat och andra prestationsåtgärder. Men i många situationer har vi inga poäng. Vi måste arbeta med data där skillnader i ett givet attribut kan uttryckas endast av ledningar eller genom att klassificera en individ i flera beskrivande kategorier.

Således kan skillnader mellan individer i många drag uttryckas genom att rangordna ämnena i ordning för meriter när sådana skillnader inte kan mätas direkt. Genom rankning menar vi placeringen av individerna i enlighet med meriter.

Till exempel kan personer rankas i ordning för merit för ärlighet, atletisk förmåga, försäljningsarbete eller social anpassning när det är omöjligt att mäta dessa komplexa beteenden.

Vid beräkning av korrelationen mellan två uppsättningar led, har särskilda metoder tagits fram. När vi bara har några få poäng (n är för liten) med två uppsättningar, är det lämpligt att rangordna dessa poäng och beräkna korrelationskoefficienten (ρ) av Pearsons Rank Difference Method.

Antaganden av ρ:

Uppgifterna är dåligt snedställda eller är för små.

När kvantitativ mätning inte är möjlig.

Uppgifterna är fria eller oberoende av vissa egenskaper hos befolkningsfördelningen

Uppgifterna är i ordinär skala.

Beräkning av ρ:

Exempel 1:

Ta reda på samverkan av korrelation mellan två uppsättningar av poäng med hjälp av rangdifferensmetoden.

Nedanstående är poängen för 5 studenter i historia och geografi:

Lösning:

Steg 1

Placera den 1: a uppsättningen poäng, från rank 1 till högsta poäng och skriv orden i kolumnen R 1 ( kolumn 4).

Steg 2

Placera den andra uppsättningen poäng - från Rank-1 till högsta poäng och skriv orden i kolumn 2 (kolumn 5)

Steg 3

Ta reda på D genom att dra av R 2 från R 1 dvs (R 1 - R 2 ) i kol. 6.

Steg-4

Ta reda på D 2 genom att kvadrera D (kol-7). Beräkna sedan Σ D 2 och lägg till värdena i kol. 7.

Steg-5

Sätt formuläret och få resultatet

Så korrelationskoefficienten mellan poängen Historia och Geografi är 0, 43.

Beräkning av p när data är i rader.

Exempel:

Bestäm i vilken utsträckning deras domar var överens.

I en musiktävling har två domare rankat 8 studenter enligt nedan:

Lösning:

Steg 1:

Eftersom poängen är i nivåer, så ta reda på D genom att dra av domare-2-ledd från domare-1.

Steg 2:

Ta reda på D 2 och ΣD 2 .

Steg 3:

Sätt värdet i formel och få resultatet.

Så poängen med överenskommelse mellan domarna är 0.90. Computing p för bundna rader

Exempel:

Beräkna korrelationskoefficienten mellan poängen av de två uppsättningarna i Rankskillnadsmetoden.

Nedan ges poängen av 8 studenter på två parallella tester:

Lösning:

Steg 1:

Ranka poängen i Test-1. I Test-1 E står först, C står 2: a, A och F får samma poäng. Det är bestämt att dessa två elever ska fylla 3: e och 4: e rangen. Så rangordnar vi båda av dem 3 + 4/2 = 3, 5. Nästa B står 5: e. D och G erhöll samma poäng. Så deras rangordnar blir

och H kommer rankas 8: e.

Steg 2:

På samma sätt som vi har rankat poängen i Test-1, ranka poängen i Test-2.

Steg 3:

Beräkna D avdrag R2 från R 1

Steg-4:

Beräkna D 2 och ta reda på Σ D 2

Steg-5:

Sätt formuläret och få resultatet

Så korrelationskoefficienten mellan poängen av två test är 0, 87.

Meriter av Rank Difference metod:

1. Det ger ett snabbt och bekvämt sätt att estimera korrelation när N är liten.

2. När data är i ordinär skala vid den tiden använder vi rangskillnadsmetod för att bedöma korrelation.

Demerits of Rank Difference Method:

1. Rangskillnadsmetod tar hänsyn till positionerna i serien. Det ger ingen ersättning för luckor mellan intilliggande poäng. Till exempel är poäng på tre elever 90, 89 och 70 i ett test. De skulle rankas 1, 2 och 3 även om skillnaden mellan 90 och 89 är mycket mindre än skillnaden mellan 89 och 70.

2. Noggrannhet kan gå förlorad när man översätter poäng till rang, särskilt när det finns ett antal band.

3. Det är svårt att beräkna p från data när N är stor, säger mer än 30.

2. Karl Pearsons Produkt Moment Metod:

En annan effektiv metod för att uppskatta korrelationskoefficienten är utvecklad av Karl Pearson, som är populärt känd som korrelationsproduktmomentskorrelation. Det kallas Produkt moment eftersom "summan av avvikelser från medelvärdet (upphöjt till viss kraft) och dividerat med N kallas ett ögonblick. När motsvarande avvikelser i V och y multipliceras tillsammans, summeras och divideras med N

termen produktmoment används. "

Symboliskt är korrelationsproduktets momentkoefficient betecknad som "r".

Korrelationskoefficienten i produktmomentet är:

Förutsättningar för korrelation mellan produkt och ögonblick:

1. Normal fördelning:

De variabler från vilka vi vill beräkna korrelationen måste normalt distribueras. Antagandet kan läggas från slumpmässig provtagning.

2. Linjäritet i korrelation:

Produktmomentkorrelationen kan visas i rak linje som är känd som linjär korrelation.

3. Kontinuerlig serie:

Mätning av variabler ska vara i kontinuerlig skala.

Beräkning av produktkorrelation:

Produktens momentkoefficient för korrelation kan beräknas i två olika situationer:

(a) När data är ogrupperade

(b) När data grupperas

(a) Beräkning av r från ogrupperad data:

Beräkning av korrelationskoefficienten i ogrupperade data görs vanligtvis på två sätt:

(i) När avvikelser tas från medel

(ii) Beräkning från Raw poäng eller Original poäng.

(i) Beräkna korrelation mellan produktmoment när avvikelser tas från organen.

Formeln som används för att beräkna r från ogrupperad data när avvikelser tas från medelvärdena för de två fördelningarna X och Y läser så här:

Exempel:

Beräkna korrelationskoefficienten för poängen av 12 studenter i ett test av engelska och MIL i produktmomentmetod.

Lösning:

Steg 1

Hitta medelvärdet av poäng i engelska (X) och medelvärdet av poäng i MIL (Y). Här M x = 62, 5, Mj = 30, 4.

Steg 2

Hitta avvikelsen (x) för varje poäng på engelska testet (Tabell-12.6, kol-4) och avvikelse (y) för varje poäng i MIL-testet (Tabell 12.6, kolumn 5)

Steg 3

Kvadraten av alla xs och alla ys och ta reda på x 2 och y 2 . Lägg till x 2 s i kol. 6 och y 2 s i kol. 7 och ta reda på Σx 2 och Σy 2 .

Steg-4

Multiplicera avvikelserna för X-variabeln (kolumn 4) med avvikelser av Y-variabel (kolumn 5) med hänsyn tagen till algebraiska tecken för att få xy (kol. 8). Lägg sedan till värdena i kol. 8 och få Σxy.

Steg-5

Sätt värdet i formeln och få resultatet.

Så korrelationen mellan poängen i engelska och poängen i MIL av de 12 studenterna är 0, 78.

(ii) Beräkning av korrelationsproduktets momentkorrelation från ursprungliga poäng eller råresultat:

Utan att beräkna avvikelserna kan vi också beräkna r från råa poäng eller direkt från originalresultat.

I det här fallet tillämpar vi följande formel:

Exempel:

Beräkna korrelationskoefficienten för följande två uppsättningar poäng erhållna från ett test av matematik och vetenskap av 10 studenter i produktmomentmetod:

Lösning:

Steg 1

Kvadrera alla X s och Y s

Steg 2

Hitta produkten av X och Y genom att multiplicera varje X med motsvarande Y.

Steg 3

Lägg till X s (kol. 1), Y s (kol. 2), X 2 (kol 3), Y 2 (kol. 4) och XY (kol. 5) för att få ΣX, ΣY, ΣX 2 ΣY 2 respektive ΣXY.

Steg-4

Sätt dessa värden i formeln och få resultatet.

Så korrelationskoefficienten mellan de två uppsättningarna av poäng är 0, 92.

(b) Beräkning av r från grupperade data:

Metoden som vi har diskuterat i ovanstående avsnitt kan användas när N är liten. Men när N är stor är beräkning r i ovanstående metod mödosam och tidskrävande. Vi kan övervinna svårigheten genom att ordna data i form av ett diagram eller diagram som kallas "scatter diagram" eller "scatter gram". Det är också känt som tvåvägs frekvensfördelning eller bivariat frekvensfördelning. Låt oss överväga hur man förbereder ett scatterdiagram.

Så här förbereder du ett scatterdiagram:

Till exempel uppnådde 50 elever på 9: e klassen i en högstadium följande poäng på ett gruppintelligensprov (X) och algebra-test (Y).

Låt oss konstruera ett scatterdiagram för dessa poäng.

Låt oss ta klassintervallet av intelligensprov längs vänstra marginalen, från topp till botten av diagrammet (bild 12.5) och klassintervaller av algebra-test längst upp i diagrammet från vänster till höger.

Antag att vi vill plotta poängen för den 1: a studenten i diagrammet. Den 1: a studenten har en intelligensresultat på 48 och algebraisk poäng på 173. Här måste vi sätta ett tal i cellen som motsvarar klassintervallen, 45-49 i intelligens och 170-179 i algebra-test.

På samma sätt måste vi lägga tal för alla 50 elever i enlighet med de två poängen, intelligenstestet och algebra-testet. Sedan räknas tallrikarna för varje cell och översätts till numret. Därefter kommer numren på varje rad att läggas till och frekvensen för varje klassintervall av intelligenstest (X-variabel) fx kommer att hittas.

Till exempel i fig 12.5 är fx för 1: a raden 1, 2: a rad 6, 3: e rad 7 och lika 8: e rad 2. På samma sätt kommer cellantalet för varje kolumn att läggas till och frekvens för varje klassintervall av algebra test (Y variabel) f y kommer att bestämmas.

Till exempel är fy för 1: a kolumnen 3, 2: a kolumnen 1, 3: e kolumnen 2 och likaså 10: e kolumnen 2. När alla tallrikarna har listats läggs frekvensen i varje cell och matas in på diagrammet. Scatterdiagrammet är då en korrelationstabell.

Beräkning av 'r' från korrelationstabell:

När N är stor eller till och med måttlig i storlek är det enkelt att beräkna r genom att gruppera data i en bivariat frekvensfördelning och beräkna r genom att ta avvikelser från antaget medel istället för det verkliga medelvärdet.

Formeln för beräkning från grupperade data i antagen genomsnittlig metod läser så här:

Låt oss beräkna r xy från korrelationstabellen som finns från scatterdiagrammet.

När korrelationstabellen är upprättad kan vi ta reda på r genom att använda formel:

Steg 1

Lägg till frekvenserna för varje kolumn med algebra poäng och få f y . Lägg sedan till frekvenserna för varje rad av intelligenstest och få f x .

Steg 2

Antag ett medelvärde för intelligens testresultatet (som vi har diskuterat i beräkningsmedel i antagad medelvärde) och dra en dubbel rad i den kolumnen för att göra den distinkt.

På samma sätt antar ett medelvärde för algebra testresultat och dra en dubbel rad i den raden för att göra den distinkt. I detta nuvarande problem för intelligens testas mittpunkten för CI 40-44 dvs 42 och för algebra-testet är mittpunkten för CI 140-149, dvs 144, 5, antagna som antagna medel. Nu kan vi ta x 'och y' från den här punkten som anges i fig.

Steg 3

Multiplicera x'x med fx och ta reda på fx ' och på samma sätt multiplicera y 'med fy och ta reda på fy'.

Steg-4

Multiplicera kolumnen fx 'med x' och få fx ' 2 och fy' rad med y 'och få fy' 2 .

Steg-5

Nästa uppgift är att ta reda på fx'y ". Multiplicera kolumnens x 'med y'en i raden av en särskild cell, vilket ger tillräcklig vikt för de algebraiska tecknen. Skriv produkten till det övre hörnet av cellen i en konsol.

Multiplicera sedan cellfrekvensen med produkten och få värdet av fx'y 'för den cellen och skriv den till cellens nedre vänstra hörn.

Frekvensen av cell 20-24 och 180-189 är exempelvis 1. Där x 'är -4 och y' är +4 är produkten av x 'och y' -16. Genom att multiplicera produkten -16 med cellfrekvens 1 får vi fx'y '= -16 för den cellen.

På samma sätt kan vi beräkna fx'y 'för alla celler. Lägga till värdena på celler radvis kan vi få värdena för fx'y-kolumnen. Genom att lägga till dessa värden får vi Σfx'y ". För att kontrollera korrektheten lägg till värdena för fx'y 'kolumnvis för att få fx'y' rad och lägga till dessa värden kan vi också få Σfx'y '(se tabell -12.8)

Steg-6

Lägg till värdet fx ', fx' 2, fy 'och fy' 2 och få Σfx ', Σfx' 2, Σfy 'respektive Σfy' 2 '.

Steg-7

Sätt värdena i formeln och få resultatet.