Textversion des Videos

Transkript Statistik Video 37: Rangkorrelation Übung

Hallo, schön, dass ihr alle wieder zuguckt.   Wir sind heute der Übung zu den Rangkorrelationskoeffizienten. Wir haben ja im letzten Video schon gemerkt, dass wir und mit 2 Stück davon beschäftigen, dem Rangkorrelationskoeffizienten nach Spearman und dem nach Candell und natürlich wollen wir heute in der Übung auch beide einmal berechnen.   Ich hab mir hier ein Beispiel überlegt, wo wir hier 7 Sportler einmal Kugelstoßen lassen, einmal Speerwerfen lassen, wir gucken uns dann jeweils die Weiten von beiden an und berechnen die Rangkorrelationskoeffizienten davon. Wir haben hier also unsere 7 Sportler a bis g und die haben jeweils einmal Kugelstoßen gemacht und einmal Speerwerfen und wir haben also für jedes 7 Ergebnisse. Was brauchen wir als Erstes, wenn wir jetzt einen Rangkorrelationskoeffizienten herausrechnen wollen, natürlich die Ränge. Das heißt, wir müssen jetzt hier aus unseren Daten erst einmal Ränge bilden. Das machen wir doch Direktmal. Und ich würde sagen, wir bilden die Ränge absteigend, das heißt, dass der größte Wert den höchsten Rang kriegt, also der größte Wert bekommt den Rang 1 zugewiesen und der niedrigste Wert bekommt dann den Rang 7 zugewiesen. Ok, fangen wir einfach mal an mit unserem Merkmal X, der Weite im Kugelstoßen und gucken, wer am weitesten gekommen ist. Unser höchster Wert ist hier die 20, das heißt, unser Sportler d bekommt den Rang 1 zugewiesen, für unser Merkmal X. Ok, die nächstgrößte Weite ist hier die 19, das heißt, derjenige bekommt den Rang 2 zugewiesen. So, dann gucken wir weiter, dann haben wir hier die 17, das ist unser Rang 3 und dann der nächsthöhere Rang, die nächst größte Weite, ist 13 Meter, die aber gleich 3-mal auftaucht. Nun haben wir ja schon beim letzten Mal gesagt, es gibt mehrere Möglichkeiten, wie wir mit Bindungen umgehen, entweder bekommen alle den gleichen Rang, und zwar den nächsten, oder wir mitteln über die Ränge, das können wir machen wie wir wollen, ich hab gesagt, ich verteile einfach bei jedem den nächsten Rang, das heißt jetzt würden alle Rank 4 bekommen von mir. Alle 3 Sportler die 13 Meter weit gestoßen haben und dafür überspringen wir jetzt aber quasi die Ränge 5 und 6, weil wir die ja in den 4en mit vergeben haben und der letzte bekommt dann den Rang 7. Jetzt machen wir das Gleiche natürlich für Y, gucken, wer am weitesten den Speer geworfen hat, gucken uns die ganzen Ergebnisse an und sehen aha: 55 Meter ist unsere größte Weite, bekommt also den Rang 1. Dann gucken wir weiter, dann haben wir 2-mal 53 Meter, an die Beiden vergeben wir jetzt also den Rang 2. Jetzt überspringen wir den Rang 3, den wir hier im Prinzip schon mit vergeben haben, gucken uns an, aha, 46, nächstgrößte Weite, ist auch 2-mal da, da wir die 3 überspringen, vergeben wir jetzt also 2-mal den Rang 4 und dann haben wir die 40, also unseren nächsthöheren Rang ist dann Rang 6 und die 37 ist Rang 7. Jetzt haben wir also alle Ränge aufgestellt für X und für Y, würde sich jetzt natürlich auch anbieten die zu sortieren. Das können wir im Prinzip auch noch mal machen.   Ich mach das jetzt einfach mal vertikal, dann fällt es vielleicht leichter, das noch auseinanderzuhalten. Also mache ich hier mal Rang X, hier Rang Y und hier vorne schreiben wir hin, welcher Sportler diesen Rang erreicht hat. Ok, also unseren Rang 1 in unserem Merkmal X ist hier unser Sportler d, können wir also hier eintragen, und der hat bei Y den Rang 7. Unser Rang 2, das ist unser Sportler e, der bei Y den Rang 1 hat. So, unser Rang 3 bei X ist hier unser Sportler b, und der hat bei Y einen geteilten Rang 2. Unser Rang 4, den haben wir ja bei X 3-mal vergeben, können wir also gleich 3-mal aufschreiben, und jetzt ist es im Prinzip egal, in welcher Reihenfolge wir unsere Sportler aufschreiben, wir müssen das halt nur klar zuordnen, damit wir auch den richtigen Rang Y zuordnen. Wir fangen einfach mal links an, sagen ok, wir fangen an mit Sportler a, der bei Y auch den Rang 4 bekommt, oder bekommen hat, dann machen wir weiter mit f, der auch bei Y ebenfalls den Rang 4 hat und schließlich g der bei Y den Rang 6 hat. So, einer fehlt noch, wir haben jetzt hier bei X im Prinzip 4,5,6 schon vergeben, fehlt also noch unser letzter Rang, der 7. Rang, das ist bei uns der Sportler c, der bei Y den geteilten 2. Rang bekommt. So, nun haben wir also hier die Ränge schön sortiert, wollen jetzt mal den Rangkorrelationskoeffizienten nach Spearman berechnen. Wir erinnern uns, nach Spearman dürfen wir bei Bindungen nicht den gleichen Rang vergeben, sondern müssen Mitteln. Das heißt, was wir jetzt noch machen müssen, um den Rangkorrelationskoeffizienten nach Spearman zu berechnen, ist hier unsere Bindungen zu mitteln, und hier auch. Das heißt bei X haben wir eine Bindung von insgesamt 3 Rängen und bei Y haben wir 2-mal Bindungen von jeweils 2 Rängen. Das müssen wir jetzt also Mitteln. Hier haben wir ja im Prinzip die Ränge 4,5 und 6 vergeben und über die 3 wollen wir jetzt Mitteln und jeder bekommt dann den mittleren Rang zugewiesen. Das heißt, wenn wir jetzt sagen ok, wir haben Ränge 4 und 5 und 6 und mitteln da drüber, also teilen durch 3, haben wir den mittleren Rang 5. Den wir jetzt hier jeweils zuweisen. Bei Y müssen wir das natürlich genauso machen, nehmen wir hier mal die 2en, das ist ja im Prinzip Rang 2 und Rang 3, also 2+3 sind 5 geteilt durch 2, damit wir Mitteln, bekommt also jeder den durchschnittlichen Rang, den mittleren Rang 2,5. Und bei den beiden 4en ist das genauso, wir haben ja hier im Prinzip Rang 4 und Rang 5 vergeben, zusammen ergibt das 9, geteilt durch 2 ist also der mittlere Rang 4,5, den jeder bekommt. Gut, jetzt haben wir wirklich alle Voraussetzungen erfüllt, um unseren Rangkorrelationskoeffizienten nach Spearman zu berechnen, mit der alten Formel, die wir schon im letzten Video kennengelernt haben und damit ist das eigentlich auch kein Problem. Gut, ich hab das jetzt also mal wieder etwas übersichtlicher aufgeschrieben, hier noch mal zur Erinnerung die Formel für den Rangkorrelationskoeffizienten nach Spearman, wir haben also 1-6×die Summe über alle i von di2, wobei di ja wie wir wissen Rang X - Rang Y ist, also die Differenz der beiden Ränge, geteilt durch n×(n2-1). Ok, was brauchen wir jetzt also noch? Natürlich, di und di2. Also di ist in unserem Fall Rang X - Rang Y, also 1-7, also -6. Für unseren 2ten Rang haben wir 2-1, also 1. So gehen wir jetzt durch die ganzen Ränge durch, 3-2,5=0,5. 5-4,5 ebenfalls 0,5. Noch mal 5-4,5, natürlich 0,5. 5-6 ist -1 und 7-2,5 ist 4,5. Ok, wenn wir das haben, können wir auch im Prinzip unser di2 ausrechnen, also einfach hier unsere Einträge quadrieren, -62 ergibt 36, 11=1, 0,52=0,25, -12 ergibt natürlich 1 und 4,52 ergibt 20,25. Gut, wenn wir das haben, haben wir im Prinzip jetzt alle Voraussetzungen erfüllt, ihr müsst jetzt noch die Summe davon ausrechnen, 36+1 sind 37 +3×0,25 macht 37,75+1 sind 38,75+20,25 ergibt in der Summe also 59. Können wir jetzt einfach hier einsetzen. Unser rs ist also 1-6× unsere Summe, haben wir ja schon ausgerechnet, 6×59÷n, n ist in unserem Fall 7× 72 ergibt 49-1. Also 6×59÷7×48, -1 davor. Und wenn wir das jetzt in den Taschenrechner eingeben haben wir ein rs von ungefähr -0,05, also ziemlich klein. Das heißt unser Rangkorrelationskoeffizienten sagt uns hier aus, ja, die Abhängigkeit ist jetzt nicht so richtig groß. Sehen wir hier auch, wir haben hier unsere Sportler d, der beim Kugelstoßen der Beste ist aber beim Speerwerfen der Schlechteste und auch hier bei unserem Sportler c, der zwar beim Kugelstoßen der Schlechteste ist, aber beim Speerwerfen einer der Besten, also da scheint die Abhängigkeit nicht so richtig groß zu sein. Gut, wo wir schon mal das schöne Beispiel haben, nehmen wir auch gleich das gleiche Beispiel um den Rangkorrelationskoeffizienten nach Candell zu berechnen. Gut, wenn wir jetzt also den Rangkorrelationskoeffizienten nach Candell berechnen wollen, müssen wir uns erst einmal fragen, was machen wir bei Bindungen. Ich hab jetzt hier einfach die Ränge von grade übernommen, das heißt wir haben hier wieder die mittleren Ränge, die wir für Spearman berechnen mussten. Frage: stört uns das? Müssen wir jetzt irgendwas anders machen, weil wir Bindungen haben? Nein, dem Rangkorrelationskoeffizienten nach Candell ist es völlig egal wie wir mit Bindungen umgehen, solange wir es einheitlich machen. Das heißt wir könnten überall den gleichen Rang vergeben, also wir könnten hier weiter machen mit 1,2,3, hier überall eine 4 vergeben und hier dann einfach auch mit der 5 weiter machen, statt mit der 7, wir müssten also die vergebenen Ränge noch nicht mal überspringen. Das heißt, wir können das jetzt einfach so lassen. Ok, wir haben jetzt hier also unsere Ränge, Ränge X, Ränge Y und wollen die ja vergleichen. Bei Candell wird ja immer verglichen, und zwar, ob die Bewertung untereinander gleich ist. Das heißt, wir nehmen jetzt hier unseren ersten Sportler, unseren Sportler d, der ja bei X den Rang 1 hat und vergleichen den jetzt mit der kompletten Reihe. Das heißt, nach X ist er immer besser als alle nachkommenden, das heißt d ist besser als e, d ist besser als b, d ist besser als a, weil wir das ja der Reihe nach sortiert haben. Was wir jetzt vergleichen ist, ob das Urteil bei Y auch übereinstimmt, das heißt ob Y auch sagt, ok d ist besser als e oder d ist besser als b. Wenn beide Rangreihen übereinstimmen machen wir ein +, wenn beide nicht übereinstimmen machen wir ein - und sobald wir in einer Rangreihe eine Bindung haben, machen wir einfach eine 0 hin und ignorieren das dann. Überprüfen wir das also. Wir können hier sagen ok, im X ist d immer besser als e und als b und als a und als f also der beste Wert steht vorne, das heißt, wir müssen nur noch bei Y gucken. Und bei Y haben wir hier den schlechtesten Rang vorne, das heißt nach Y ist d schlechter als e,  ist also eine Uneinigkeit, sie stimmen nicht überein. Nach X ist d besser als e, nach Y ist d schlechter als e, stimmen nicht überein. Bei dem Vergleich d und b genauso, nach X ist unser Sportler d besser als unser Sportler b, nach Y ist er schlechter. Also wieder eine Uneinigkeit, wieder ein -. Dann geht es so weiter. Nach X ist d besser als a, nach Y ist er schlechter, also ein -. Nach x ist d besser als f, nach Y ist er schlechter, wieder ein -. Und so zieht sich das durch, dadurch, dass unser Sportler d bei dem einen der Beste ist, bei dem anderen der Schlechteste, haben wir eine komplette Reihe voller Uneinigkeiten, voller nicht Übereinstimmungen. Wir machen jetzt also weiter, mit d haben wir jetzt alle verglichen, jetzt vergleichen wir also alle, die wir noch nicht mit e verglichen haben mit e. Also gucken wir, nach unserem Rang X ist e besser als b, unsere Rangreihe Y stimmt uns da zu. Also machen wir hier ein +. So, nach unserer Rangreihe X ist e auch besser als a, Y sagt das gleiche, also auch hier ein +. Und so zieh sich das durch, dadurch das wir im X das nächstbeste haben, den nächstbesten Rang die 2 ohne Bindung, können wir sagen, ok, hier ist e immer besser als alle danach kommenden, weil wir das halt sortiert haben und keine Bindung bei der 2 haben und in Y haben wir hier auch den besten Rang, die 1, können also sagen ok, e wird immer in beiden Rangreihen besser sein als die nächsten Werte,  können also eine komplette Reihe voller + machen. Gut, jetzt haben wir also e mit allen verglichen, wollen wir noch b mit allen vergleichen. Laut unserer Rangreihe X ist b besser als a und laut unserer Rangreihe Y sagt die auch, ok b ist besser als a, hat einen niedrigeren Rang, also können wir hier schon mal ein + machen. Vergleichen wir jetzt also b mit f, nach unserer Rangreihe X ist b besser als f, nach unserer Rangreihe Y ist b auch besser als f, also wieder eine Übereinstimmung. B und g, b ist in unserer Rangreihe X besser als g und in unserer Rangreihe Y auch, also wieder eine Übereinstimmung. Jetzt also der letzte Vergleich, b und c. B ist in unserer Rangreihe X besser als c und in unserer Rangreihe Y, oh da haben wir jetzt eine Bindung. Das heißt unser Rang von b ist der Gleiche wir unser Rang von c. Wir haben gelernt, sobald wir das in einer Rangreihe haben, eine Bindung, machen wir kein +, kein -, sondern eine 0. Es ist also weder eine Übereinstimmung noch eine nicht Übereinstimmung. Ok, jetzt haben wir also b mit allen verglichen, vergleichen wir a mit allen. Wir sehen hier also, a, f und g haben hier unsere Bindung, und sobald wir das in einer Rangreihe haben, machen wir eine 0 dahinter. Also der Vergleich a und f liefert eine 0 und der Vergleich a und g liefert auch eine 0. Haben wir also noch einen Vergleich übrig, laut Rangreihe X ist unser a besser als unser c. Laut Rangreihe Y ist unser a aber schlechter als unser c, das heißt, wir haben wieder eine nicht Übereinstimmung. Gut das war a, machen wir das Gleiche mit f, also f und g haben wir wieder eine Bindung, können wieder eine 0 dahin schreiben und vergleichen noch f und c, das ist laut Rangreihe X, ist f besser als c, laut Rangreihe Y ist f schlechter als c, also wieder eine nicht Übereinstimmung. So, unser letzter Vergleich, g und c, g ist in der ersten Rangreihe besser und in der zweiten schlechter, also wieder ein -. Ok, das hat ganz schön lang gedauert, aber dafür haben wir jetzt auch unsere Ergebnisse, die wir jetzt nur noch auszählen müssen. Wir haben also 1,2,3,4,5,6,7,8 Übereinstimmungen, also 8-mal haben wir ein +, dann haben wir 1,2,3,4,5,6,7,8,9-mal ein - und 4-mal eine 0. So, ok. Wir wissen jetzt ja, unsere Anzahl der +, Anzahl der Übereinstimmungen, entspricht unserem p, und das entspricht unserem q und wenn wir das jetzt haben, können wir unseren Rangkorrelationskoeffizienten nach Candell ausrechnen. Gut, dann wollen wir jetzt also mal den Rangkorrelationskoeffizienten nach Candell ausrechnen. Ich hab euch hier noch mal die Formel hin geschrieben, Tau, Stern wegen den Bindungen, also immer wenn Bindungen haben, müssen wir die auch mit Berücksichtigen. Das ist p-q, also Anzahl der Übereinstimmungen - Anzahl der Nichtübereinstimmungen ÷ \sqrt(n×n-1÷2), das war ja die Anzahl der Vergleiche, die wir insgesamt gemacht haben, -Tau(x)×\sqrt(n×n-1÷2)-Tau(y). So, Tau(x) war also 1/2× die Summe von i=1k, k ist die Anzahl der Ränge die wir vergeben haben, gi×gi-1, wobei gi jeweils die Anzahl ist, wie oft wir einen bestimmten Rang vergeben haben. Das heißt wenn wir einen Rang nur einmal vergeben haben, haben wir hier 1×0, er fällt also nicht ins Gewicht. Als erstes wollen wir jetzt also Tau(x) und Tau(y) berechnen. Ich hab hier nochmal die Ränge aufgeschrieben und dann können wir also unser Tau(x) berechnen. Das ist also 1÷2 die Summe, und wir haben ja hier gesehen, dass das hier genau immer dann 0 wird, wenn wir einen Rang nur einmal vergeben haben. Das heißt  hier werden sowieso nur alle Ränge mit Bindungen überhaupt berücksichtigt. So. wir haben bei unserer Rangreihe X nur einen Rang der eine Bindung aufweist, nämlich hier unser Rang 5, das heißt gi×gi-1, die Anzahl, wie oft wir diesen Rang vergeben haben, das heißt wir werden jetzt nicht 5 eintragen, sondern 3. Wir haben diesen Rang 3-mal vergeben. Das interessiert uns nicht, welcher Rang das ist, ob das jetzt 1, 7 oder 49 ist, das ist völlig egal, es ist nur interessant, wir oft dieser Rang vergeben wurde, also haben wir gi3×gi-1×2, also 1/2×(3×2)=3. Das Gleiche machen wir jetzt auch bei Tau(y), die Formel ist natürlich die Gleiche, das heißt wir haben 1/2×, gucken wir uns die Rangreihe von Y an, hier haben wir 2 Ränge mehrfach vergeben, 2,5 und 4,5, das heißt wir haben gi×gi-1, also 2×1, für unseren Rang 2,5 und das gleiche auch für unsere Ränge 4,5 +2×1. Das heißt 2×1 ist jeweils 2, zusammen 4, die Hälfte davon ist 2. Ok, wir haben Tau(x), wir haben Tau(y), wir haben p, wir haben q, n haben wir sowieso und damit können wir unser Tau, also unseren Korrelationskoeffizienten nach Candell berechnen. Also im Zähler p-q, 8-9÷\sqrt(n×n-1/2). N ist 7, wir haben 7 Sportler, von denen wir unsere Ergebnisse haben, n-1 ist dann also 6, 7×6 ist 42÷2 ist also 21-Tau(x), haben wir hier stehen, -3, das Ganze ×21-2, also n×n-1/2-Tau(y), was wir hier stehen haben. So, wir gucken uns erst einmal an, was das Vorzeichen ergeben wird. Wir haben hier 8-9, also steht -1 im Zähler, das heißt wir werden ein negatives Vorzeichen haben, weil unsere Wurzeln hier ja nur positiv sein können. Also wir haben -1÷\sqrt(18)×\sqrt(19). Und wenn wir das jetzt in den Taschenrechner eingeben, oder auch im Kopf ausrechnen, so wir das können, ich kann das nicht, ist unser Ergebnis ungefähr -0,05. Also, ungefähr so groß wie unser Ergebnis nach Spearman. Das sollte auch so sein, da beide Verfahren auch eigentlich zum richtigen Ergebnis führen sollten oder zumindest zu ähnlichen Ergebnissen und auch hier sehen wir natürlich, ok, wir haben einen Zusammenhang, eine Abhängigkeit zwischen beiden Merkmalen, aber sie ist nahe 0, also eigentlich kaum existent.   Gut, das war die Übung zu den Rangkorrelationskoeffizienten nach Spearman und nach Candell, ich hoffe ihr habt das so weit verstanden und könnt jetzt auch in Zukunft mit anderen Beispielen damit rechnen. Ich bedanke mich fürs zuschauen, freue mich aufs nächste Mal und sage tschüss!

Informationen zum Video
3 Kommentare
  1. Default

    Hallo,

    ich hätte gedacht, die Formel für den Rangkorrelationskoeffizienten nach Spearman darf in dieser Form nicht benutzt werden, wenn Bindungen bestehen, und man dann eine andere Formel dafür benutzen muss?

    Von Luitpold, vor mehr als 2 Jahren
  2. Default

    Endlich kapiert! Danke

    Von Martinschalk, vor fast 3 Jahren
  3. Default

    Sehr gut erklärt, vielen Dank!!!

    Von Janin Gürüz, vor etwa 4 Jahren