Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 36: Rangkorrelation

Hallo, schön, dass ihr alle wieder zuguckt. Wir sind heute bei unserem Video zur Rangkorrelation. Wie ich ja schon bereits bei dem Video zur Maßkorrelation erwähnt habe, gibt es zwei unterschiedliche Rangkorrelationen, die wir uns angucken wollen. Wir behandeln heute die Rangkorrelation nach Spearman und die Rangkorrelation nach Kendall.

So, was sind die Voraussetzungen für eine Rangkorrelation? Nun ja, wir brauchen ordinale Daten. Das ist ja genau das, was es von der Maßkorrelation abgrenzt. Wenn wir nur ordinal skalierte Daten haben, dann müssen wir eine Rangkorrelation machen, wenn wir die Korrelation berechnen wollen, weil wir eben nicht genug haben, um eine Maßkorrelation zu machen. Wir haben keine metrischen Daten, können also keine empirische Kovarianz ausrechnen, können auch keine Varianz ausrechen, können also unseren Maßkorrelationskoeffizienten nicht berechnen. Also, ordinale Daten brauchen wir, aus denen wir dann eine Rangreihe bilden.

Der Herr Spearman hat jetzt eine sehr kluge Formel aufgestellt, unser rs, also unser Rangkorrelationskoeffizient nach Spearman, ist also 1-(6×∑ über alle di2), was das ist, erkläre ich noch, /(n×(n2-1)). Also, unser di2 ist hier. Unser di ist also der Rang, rg(x)-rg(y). Was haben wir uns jetzt darunter vorzustellen? Na, sagen wir mal, wir haben Statistikstudenten, die haben jeweils eine Schulnote bekommen, in Statistik 1 oder in Statistik 2. Wir erinnern uns, Schulnoten sind ordinale Daten. So, und daraus bilden wir jetzt Rangreihen. Und unser Student 1, sagen wir, er heißt Anton, Anton ist in Statistik 1 der Beste, bekommt also den Rang 1 für Merkmal x, und in Statistik 2 war er jetzt aber nur der Drittbeste, bekommt also Rang 3 für unser Merkmal y. So, unser di wäre dann also, rg(x), 1, weil er ja der Beste war, -rg(y), 3, weil er da nur der Drittbeste war. Das wäre unser di. So berechnen wir das. Und daraus hat dann halt Herr Spearman nach langem Überlegen diese Formel entwickelt, die auch einen sehr guten Rangkorrelationskoeffizienten liefert.

Damit das Ganze ein bisschen klarer wird, machen wir mal ein kurzes Beispiel. Gut, wir nehmen also das Beispiel von gerade. Wir nehmen die Noten von Statistik 1 und Statistik 2 und wir haben 4 Studenten. So, Student 1 hat in Statistik 1 eine 4 und in Statistik 2 eine 5 geschrieben. Student 2 hat in beiden Klausuren eine 2 geschrieben. Student 3 hat in beiden Klausuren eine 1 geschrieben. Und Student 4 hat in Statistik 1 eine 5 und in Statistik 2 eine 3 geschrieben. Okay, wir haben jetzt also unsere 1. Voraussetzung erfüllt, wir haben ordinale Daten und unsere 2. Voraussetzung, wir müssen Rangreihen bilden. Also machen wir hier Rang x und hier Rang y. So, wir müssen das jetzt also einmal definieren und wir sagen jetzt, der Beste kriegt Rang 1, der Schlechteste Rang 4. Also, der Beste für Merkmal x, der, der die 1 geschrieben hat, ist Student 3, bekommt also Rang 1. Student 2 hat die 2 geschrieben, war also der Zweitbeste, bekommt Rang 3. Student 1 hat die 4 geschrieben, war also der Drittbeste von diesen 4 Studenten, bekommt also Rang 3. Und unser Student 4 war der Schlechteste in Statistik 1, bekommt also den 4. Rang. Das Gleiche machen wir jetzt auch für y. So, unser Student 3 war auch in Statistik 2 der Beste, bekommt also auch hier den Rang 1. Unser Student 2 war auch in Statistik 2 der Beste, bekommt also auch hier den Rang 2. Unser Student 4 war in Statistik 2 der Drittbeste, bekommt also hier den Rang 3. Und unser Student 1 war der Schlechteste, bekommt also den Rang 4.

Gut, jetzt haben wir das. Jetzt können wir also unsere di's berechnen. Wir erinnern uns, di war rg(x)-rg(y). Also, 3-4=-1, 2-2=0, 1-1=0 und 4-3=1. Jetzt können wir auch unsere di2 ausrechnen, die wir hier brauchen. Also, -12=1, 02=0 und 12=1. Und jetzt können wir auch schon unseren Rangkorrelationskoeffizienten nach Spearman berechnen. Unser rs ist also 1-(6×∑di2), ∑di2, 1+1=2, also (6×2)/(n×(n2-1)), also 4×(16-1), 16=42. So, und das macht 1-12/60 oder auch 0,8. Unser Rangkorrelationskoeffizient nach Spearman ist also 0,8, das heißt es besteht ein hoher linearer Zusammenhang zwischen der Note in Statistik 1 und Statistik 2. Gut, das war der Rangkorrelationskoeffizient nach Spearman, machen wir also weiter mit dem Rangkorrelationskoeffizienten nach Kendall.

Der Rangkorrelationskoeffizient nach Kendall sieht etwas anders aus, hat auch einen anderen Ansatz. Also zuerst mal Kendall, das ist dieses Tao (τ), so wird das abgekürzt =(P-Q)/((n×(n-1))/2). Okay, was bedeutet das? P ist die Anzahl der Übereinstimmung bei unseren Vergleichen. Bei Kendall macht man immer Paarvergleiche, das heißt, ich vergleiche die Einschätzung oder den Rang x und den Rang y, beziehungsweise die Einschätzung. Also, wenn ich jetzt sage, bei Rang x ist a besser als b, dann gucke ich, kommt die Rangreihe y zu dem gleichen oder zu dem gegenteiligen Ergebnis. Also ist das auch a besser als b oder ist das b besser als a? Und hier würden wir sehen, nach der Rangreihe x ist a besser als b, nach der Rangreihe y ist b besser als a. Das heißt, das wäre eine Nichtübereinstimmung. Und hier haben wir halt P, die Anzahl der Übereinstimmungen –Q, die Anzahl der Nichtübereinstimmungen geteilt durch (n×(n-1))/2, das ist die Anzahl aller Paarvergleiche. Wenn wir das jetzt hier mal machen, n=3, 3 Bewerber haben wir, ×2/2, also insgesamt 3 Paarvergleiche. Gucken wir uns das an.

Also wir sagen jetzt, wir wollen die Einschätzungen vergleichen, Rangreihe x. Und Rangreihe x ist a besser als b. Gucken wir uns das für Rangreihe y an. Da haben wir ja schon gesagt, b ist besser als a, ist also eine Nichtübereinstimmung. Machen wir also ein Minuszeichen da hin. Jetzt vergleichen wir a und c. Wir vergleichen wirklich alle Möglichkeiten miteinander, alle möglichen Paarvergleiche gehen wir durch, a und c.  Laut Rangreihe x ist a besser als c. Wie sieht das bei Rangreihe y aus? Bei Rangreihe y ist a auch besser als c, ist also eine Übereinstimmung. Machen wir also ein Plus hin. So, jetzt haben wir also alle möglichen Vergleiche mit a angestellt. Welcher Vergleich fehlt noch? Der Vergleich b und c. Okay, laut Rangreihe x ist b besser als c. Das Gleiche sehen wir auch bei y, da ist auch b besser als c, ist also wiederum eine Übereinstimmung. So, wir haben also unser τ nach Kendall von Übereinstimmung, 2, 2×+, - Nichtübereinstimmung geteilt durch Anzahl aller Paarvergleiche, geteilt durch Anzahl aller Bewertungen, /3. Kommen wir also auf 2-1=1/3=1/3. Okay, unser τ, was können wir darüber sagen? In welchen Bereichen liegt unser τ? Na ja, unser τ liegt immer zwischen 1 und -1. -1 genau dann, wenn es nur Nichtübereinstimmungen gibt, 1 genau dann, wenn die Rangreihen perfekt übereinstimmen.

Normalerweise macht man das so, dass man die Daten schon nach einer Rangreihe sortiert, sodass man zum Beispiel wie hier sagt, wenn ich von links nach rechts vergleiche, ist nach meiner Rangreihe x das Linke immer besser als das Rechte. Das heißt, da kann man sich dann schon mal den Aufwand sparen und muss sich also nur noch die 2. Rangreihe angucken. Das ist die Grundidee von dem τ nach Kendall. Jetzt müssen wir uns noch einmal angucken, was passiert, wenn wir sogenannte Bindungen haben. Das heißt, wenn unsere ordinalen Daten so verteilt sind, dass wir 2 verschiedenen Daten den gleichen Rang zuordnen wollen. Das gucken wir uns jetzt an.

Wenn wir bei Kendall Bindungen haben, das heißt, wenn unsere Daten so sind, dass wir eigentlich 2 Daten den gleichen Rang zuordnen müssen, gibt es mehrere Möglichkeiten. Die Möglichkeit wäre ja zum Beispiel, wenn wir zweimal den Rang 1 verteilen müssen, das auch zu tun. Also dann sieht unsere Rangreihe halt so aus: zweimal den Rang 1. Und sagen, okay, jetzt haben wir im Prinzip Rang 1 und 2 vergeben, jetzt machen wir mit Rang 3 weiter. So, und machen dann hier hinten ganz normal weiter. Eine weitere Möglichkeit ist, zweimal den Rang 1 zu vergeben, und dann zu sagen, okay, das war beides Rang 1, ich mache jetzt mit Rang 2 weiter. So, überspringen also nicht wie hier quasi den imaginär vergebenen Rang, sondern machen ganz normal weiter. Dann gibt's noch die Möglichkeit, wir könnten ja, wenn wir einen Rang zweimal vergeben, nicht zweimal den reinen Rang vergeben, sondern wir könnten auch mitteln. Das heißt, wir könnten sagen, wir machen Rang 1,5 und Rang 1,5 und machen dann, von mir aus, bei 3 weiter. So, und bei Kendall ist das Schöne, bei Kendall ist es egal, wie wir das machen. Das heißt, wir können uns eine Möglichkeit aussuchen, Hauptsache wir bleiben dabei.

Ich habe es mir angewöhnt, immer wenn ich gleiche Ränge zu vergeben habe, nicht zu mitteln, aber dann die imaginär vergebenen Ränge quasi zu überspringen, also diese 1. Möglichkeit zu nehmen. So, wenn wir jetzt also Bindungen haben, wenn wir so eine Rangreihe haben, dann sieht das Ganze etwas anders aus, unsere Formel nach Kendall. Wir haben dann ja weiterhin Übereinstimmung-Nichtübereinstimmung, aber die beiden müssen nicht mehr zusammenaddiert die Anzahl der Vergleiche geben, sondern es gibt ja noch Sachen, wo es weder eine Übereinstimmung noch eine Nichtübereinstimmung gibt, weil man einfach in einer Rangreihe keinen Vergleich machen konnte, weil eben eine Bindung vorgeherrscht hat. Also haben wir jetzt (Übereinstimmung-Nichtübereinstimmung)/(\sqrt(Anzahl der Vergleiche-τx)× \sqrt(Anzahl der Vergleiche-τy)).

Was sind jetzt τx und τy? Da werden im Prinzip diese Bindungen raus gerechnet. Man nimmt also die Anzahl der Vergleiche, die man hier hat, und rechnet jeweils für Rangreihe x und für Rangreihe y die Bindungen raus, um halt wieder auf einen guten Nenner zu kommen. Weil vorher hatten wir (Anzahl der Übereinstimmungen-Anzahl der Nichtübereinstimmungen)/Anzahl der Vergleiche. Und das wollen wir hier im Prinzip jetzt mit diesem τx und τy auch erreichen, indem wir die Bindungen raus rechnen, also hier wieder auf einen Nenner kommen, der so groß ist, wie insgesamt unsere Übereinstimmungen und Nichtübereinstimmungen. Unser τx ist definiert als ½×∑gi×(gi-1). gi ist die Häufigkeit, wie oft der i-te Rang vergeben wurde. Das heißt, wenn wir uns jetzt diese Rangreihe angucken, g1 wäre also 2, weil der Rang 1 zweimal vergeben würde. Wir würden jetzt also rechnen: 2×(2-1), also 2×1. Und da sehen wir schon, wenn wir jetzt hier unser g2 uns angucken oder g3 in diesem Fall, unser Rang 3. Wie oft wurde der vergeben? Einmal. Okay, wir rechnen also 1×(1-1), also 1×0, das heißt, hier würde 0 rauskommen. Das heißt, immer wenn keine Bindung vorherrscht, wenn also ein Rang nur 1-mal vergeben wird, dann taucht er auch in diesem τx nicht auf, beziehungsweise wird halt dann heraus gekürzt. Und bei y ist es natürlich genau das Gleiche auch, wie oft hier die Ränge vergeben wurden. Gut, das war jetzt alles noch ein bisschen konfus und komplex, wir machen ein schnelles Beispiel dazu, dann sollte es klar werden.

Okay, schauen wir uns diese 2 Rangreihen an. Nehmen wir das Beispiel von gerade, wir haben 4 Bewerber und die wurden jetzt bewertet, sagen wir von Manager Mayer und von Manager Müller. Und Manager Mayer stellt halt diese Rangreihe auf und Manager Müller diese Rangreihe. Und wir machen wieder unsere Paarvergleiche. Okay, wir überprüfen also, wir haben das ja wieder nach unserer Rangreihe x sortiert. So, nach Rangreihe x ist a besser als b. Nach Rangreihe y ist aber a schlechter als b, also kommt da ein Minus hin. So, das Gleiche bei a und c, wir vergleichen a und c. Nach Rangreihe x ist a besser als c, nach Rangreihe y ist a schlechter als c, also wieder eine Nichtübereinstimmung. Bei a und d wieder das Gleiche, nach Rangreihe x ist a besser, nach Rangreihe y ist a schlechter, also wieder eine Nichtübereinstimmung. So, damit haben wir alle möglichen Vergleiche mit a gemacht. Machen wir also alle möglichen Vergleiche mit b. Wir vergleichen b und c. So, nach Rangreihe x kann man die gar nicht vergleichen, weil sie den gleichen Rang haben. Also wir haben weder eine Übereinstimmung noch eine Nichtübereinstimmung. Und immer dann machen wir hier so einen Kringel hin oder eine 0, um halt zu sagen, okay, kein Vergleich möglich. Das machen wir immer, wenn in mindestens einer Rangreihe eine Bindung vorliegt. Okay, vergleichen wir b und d. Nach Rangreihe x ist b besser als d, nach Rangreihe y sind sie aber identisch. Aha, machen wir also wieder einen Kringel, weil hier wieder eine Bindung vorliegt. So, und jetzt vergleichen wir noch c und d. Nach Rangreihe x ist c besser als d, nach Rangreihe y ist c schlechter als d, also haben wir wieder eine Nichtübereinstimmung. Also haben wir insgesamt ein Q von 4, Q=4, und P=0. Wir können jetzt also das ausrechnen.

Was wir dazu brauchen? Na ja, wir brauchen τx und τy. Können wir jetzt mal schnell ausrechnen. Unser τx=½×∑gi×(gi-1). So, jetzt wissen wir ja, immer wenn ein Rang nur einmal auftaucht, ist hier eine 0, das heißt, wir müssen im Prinzip nur die Ränge betrachten, die auch wirklich eine Bindung haben. Wäre hier also Rang 2, taucht zweimal auf, gi, g2 ist also 2. Das Ganze multiplizieren wir mit 2-1, also mit 1. Wir bekommen also ein τx von 1. Und ein τy, auch da haben wir nur eine Bindung, unser h1, h1 wäre also 2, 2×1 wäre dann wieder 2, also haben wir auch hier ½×(2×1), also 1. So, alle Ränge, die nur einmal auftauchen, können wir ja ignorieren, weil wir dann hier hätten 1×(1-1), also 1×0, und das würde 0 ergeben, würde also in der Summe keinen Einfluss haben. Gut, wir haben τx, τy, brauchen wir noch (n×(n-1))/2. Wir haben ja, n=4, 4×(n-1), 4×3=12/2=6. Also haben wir (n×(n-1))/2=6.

Gut, jetzt können wir also unser τ ausrechnen, unser τ mit Bindung. So, im Zähler Anzahl der Übereinstimmungen-Anzahl der Nichtübereinstimmungen, (0-4)/Vergleiche, also hier \sqrt(6-1)×\sqrt(6-1). Hier, das ist unser τx, das ist unser τy, ist also -4/(\sqrt5×\sqrt5). Hier können wir das ja ausmultiplizieren, haben wir also eine 5 im Nenner, haben also -4/5, also haben wir ein τ von -0,8. Es besteht also ein großer negativer linearer Zusammenhang zwischen den Bewerbungen, also zwischen den Einschätzungen unserer beiden Managern Müller und Mayer.

Gut, das war auch schon das Video zur Rangkorrelation. Ich hoffe, ihr habt das Meiste verstanden. Wir machen natürlich im nächsten Video noch eine Übung dazu, und dann sollte es auch klar werden. Ich bedanke mich wie immer fürs Zuschauen, freue mich, dass ihr dabei wart und sage, bis zum nächsten Mal, tschüss!

Informationen zum Video
3 Kommentare
  1. Default

    Bei einer Aufgabe in der die PUNKTZAHLEN von zwei Klausuren verschiedener Schüler gegeben wurden, sollten wir ein geeignetes Korrelationsmaß wählen. Da Punktzahlen metrisch skaliert sind hab ich den Bravais/Pearson gewählt. Ging wunderbar, hab auch das richtige Ergebnis raus (0.001 mehr als in der Lösung).. Im Lösungsblatt steht allerdings: "GEEIGNETES MAß SPEARMAN, da ein linearer Zusammenhang zwischen den Punktzahlen der beiden Klausuren nicht erwartet werden kann, dagegen eher ein monotoner." Verstehe nicht wieso ein linearer Zusammenhang nicht erwartet werden kann.. hat hier vielleich jemand dazu eine erklärung? Danke :)

    Von Ostarke030, vor etwa 3 Jahren
  2. Default

    So richtig mathematisch gibt es da glaube ich keine Grenzen.
    Aber wenn gilt "-1 stark negativer Zusammenhang",
    "0 gar kein Zusammenhang" und "1 starker Zusammenhang" dann kann man sich grob an 0,5 orientieren (größer [0,51..1,00]=>stark, kleiner [0..0,49]=>schwach).

    Von Deleted User 36276, vor mehr als 4 Jahren
  3. Img 8363

    was bedeutet denn "hoher linearer zusammenhang"? wo fängt "hoch" an und wo endet "niedrig"? bitte setze das noch in eine relation :)

    Von Steph Znuk, vor fast 5 Jahren