Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 42: Korrelationsmatrix

Guten Tag. Schön, dass ihr alle wieder da seid. Wir beschäftigen uns heute mit etwas Neuem, der Korrelationsmatrix. Wir hatten ja in den letzten Videos uns schon mit Korrelation beschäftigt, mit Maßkorrelation, mit Rangkorrelation auch in unterschiedlichen Ausführungen. Und heute gucken wir uns noch einmal die Korrelationsmatrix an. Was ist die Korrelationsmatrix? Zuerst einmal ist sie natürlich eine Matrix, wo verschiedene Korrelationskoeffizienten drinstehen, und zwar paarweise. Das heißt, wir müssen uns das so vorstellen: Wir haben mehrdimensionale Daten, d. h. wir haben n Merkmalsträger und in jedem dieser n Merkmalsträger werden k Merkmale erhoben. Diese Merkmale stehen jetzt also, wenn wir uns eine Matrix vorstellen, die so aussieht, stehen hier unsere k Merkmale und hier auch. Und jeder dieser Einträge in der Matrix, z. B. wenn wir uns das so ansehen, wäre hier ein Knotenpunkt, dann würde da der Korrelationskoeffizient stehen, der aus Merkmal 1 und aus Merkmal k berechnet wird. Was uns eigentlich interessiert ist, wenn wir k Merkmale haben, die natürlich jeweils an jedem Merkmalsträger erhoben werden, interessieren uns die paarweisen Zusammenhänge. Und das können natürlich sehr viele sein. Wenn wir z. B. 5 Merkmale haben, dann haben wir insgesamt 10 unterschiedliche Paarvergleiche. Und um diese gut und übersichtlich darzustellen, wollen wir sie in so einer Matrix aufschreiben, um dann auf einen Blick zu  sehen, wo die großen linearen Zusammenhänge sind, wo kaum Zusammenhänge da sind und das wollen wir dann auf einen Blick sehen. Gucken wir uns jetzt also einmal an, wie so eine Korrelationsmatrix denn in der Theorie aufgebaut ist. Die empirische Korrelationsmatrix sieht im Grundgerüst so aus: Sie wird bezeichnet mit R und hier drin stehen dann die Einträge, also die Maßkorrelationskoeffizienten r. r11 bedeutet also: der Maßkorrelationskoeffizient nach Bravais-Person des 1. Merkmals verglichen mit dem 1. Merkmal. r1k bedeutet also dann: der Korrelationskoeffizient des 1. Merkmals und des k. Merkmals. rkk ist dann also der Korrelationskoeffizient des k.  und des k. Merkmals. Was können wir allgemein über die Eigenschaften dieser Matrix sagen? Zunächst einmal können sie an der Diagonalen hier gespiegelt werden. Also die Beiträge links unten sind die gleichen, wie die Beiträge rechts oben. Ist ja logisch, denn unser Korrelationskoeffizient des k. Merkmals und des 1. Merkmals ist der gleiche, als wenn wir den Korrelationskoeffizienten des 1. Merkmals und des k. Merkmals bilden. Also die Reihenfolge ist im Prinzip egal. Wenn wir den Korrelationskoeffizienten von Merkmal 1 und 2 vergleichen, ist es egal, ob wir unser r12 bilden oder r21. Das macht keinen Unterschied. Diese ganze Matrix ist also an der Diagonalen zu spiegeln. Was können wir noch sagen? Die Einträge auf der Diagonalen sind alle 1. Das heißt, wir haben einen perfekten Zusammenhang nach unserem Korrelationskoeffizienten. Woran liegt das? Das liegt natürlich daran, dass wir auf der Diagonalen immer dieselben Merkmale miteinander vergleichen oder über dieselben beiden Merkmale unseren Korellationskoeffizient bilden. Also wenn wir unseren Korellationskoeffizient bilden, und als Merkmale Merkmal 1 und noch mal Merkmal 1 hineingeben, dann ist ja logisch, dass ein perfekter Zusammenhang heraussteht, denn die Einträge sind ja immer gleich. Also ein Korrelationskoeffizient über zweimal das identische Merkmal muss 1 ergeben. Unsere Einträge auf der Diagonalen hier sind also alle 1. Soviel zur Theorie und zum theoretischen Grundgerüst. Kommen wir jetzt zu einem Beispiel, um das Ganze noch einmal ein bisschen klarer zu machen. Gucken wir uns jetzt das Beispiel an. Wir stellen uns einmal vor, wir sind Coach eines Basketballteams und haben verschiedene Studenten geladen und wollen jetzt diese untersuchen, wie gut sie denn für unser Basketballteam geeignet sind. Wir erheben 5 Merkmale: das Gewicht in kg, die Größe messen wir in Metern mit 2 Nachkommastellen, die Schuhgröße, da nehmen wir jetzt einmal das amerikanische, das US-System, die Spannweite, auch nicht so unwichtig für einen Basketballspieler und die Schulabschlussnote. Wir haben auch noch Stipendien zu vergeben, also ist die Schulabschlussnote auch nicht so uninteressant. Dann erheben wir also diese ganzen Daten, gucken uns das an, suchen vielleicht noch die geeigneten Kandidaten aus. Und dann, nachdem wir das gemacht haben, vernichten wir vielleicht die Daten nicht, sondern geben sie einem befreundeten Statistikprofessor weiter. Und der möchte jetzt einmal die Zusammenhänge herausfinden bei den Studenten, also bei den Basketballspielern, zwischen Gewicht und Größe, zwischen Größe und Schuhgröße, Schuhgröße und Spannweite, also im Prinzip alle Paarvergleiche, die Zusammenhänge zwischen allen unterschiedlichen Merkmalen machen. Das würde er dann machen. Er hat dann also 10 Paarvergleiche, die er anzustellen hat und damit er jetzt nicht eine Reihe hat von 10 unterschiedlichen Zahlen alle untereinander, möchte er das Ganze in eine schöne Matrixform bringen und da bietet sich natürlich die Korrelationsmatrix an. Was wir jetzt also tun, ist, alle paarweisen Korrelationskoeffizienten zu berechnen. Ich habe ja schon gesagt, das sind 10 Stück. Wir müssen jetzt erst einmal überlegen, was für einen Korrelationskoeffizienten nehmen wir. Wir wissen ja, zur Auswahl stehen 2: Maßkorrelationskoeffizient, Rangkorrelationskoeffizient. Maßkorrelationskoeffizient Voraussetzung ist, dass alle Daten metrisch sind. Gucken wir uns das an. Gewicht in kg - kg ist eine metrische Maßeinheit. Also Gewicht ist metrisch, unser Merkmal V ist metrisch. W - Größe in Metern, auch Meter, die Größe ist ein metrisches Merkmal, ist also metrisch skaliert, auch kein Problem. X die Schuhgröße nach amerikanischem System. Ja, ist, soweit ich weiß, auch metrisch skaliert. Also man darf Differenzen machen, man darf sagen: Das ist doppelt so groß wie das. Die Spannweite in Zentimetern ist ja im Prinzip das Gleiche, wie bei den Metern. Ist ja auch eine Länge, ist auch metrisch. Und Z die Schulabschlussnote. Das ist ja so ein beliebtes Beispiel. Gerade die Schulnoten werden sehr oft wie metrische Daten behandelt, eigentlich sind sie aber nur ordinal skaliert. Das heißt, unser Z ist nicht metrisch skaliert. Wir dürfen also keinen Maßkorrelationskoeffizienten nehmen. Also nehmen wir einen Rangkorrelationskoeffizienten. Es ist jetzt im Prinzip auch egal, welchen wir nehmen. Aber wir nehmen irgendeinen. Wenn wir das jetzt ausrechnen würden, wie gesagt 10 Paarvergleiche, ich habe jetzt keine Daten, aber wir gucken uns einmal an, wie so etwas ungefähr aussehen könnte. Unsere Korrelationsmatrix könnte also ungefähr so aussehen: Wir sehen also die Diagonale hat überall 1, denn wenn wir nach dem Zusammenhang von Gewicht und Gewicht suchen, muss natürlich eine 1 dabei herauskommen, ein perfekter Zusammenhang. Wir sehen, wir können hier an der Diagonalen spiegeln. Also im Prinzip würde es reichen, den ganzen oberen Block wegzulassen und nur diese Ergebnisse hier zu zeigen. Daraus könnten wir die ganze Matrix erstellen oder auch einfach nur damit arbeiten. Gucken wir uns die Matrix einmal im Detail an. Wir können sagen: Der Zusammenhang von Körpergewicht und Körpergröße also V und W ist bei 0,9. Also es scheint ein großer Zusammenhang zwischen Körpergewicht und Körpergröße zu geben. Wohingegen der Zusammenhang zwischen dem Körpergewicht und der Abschlussnote nicht sonderlich groß ausgeprägt zu sein scheint mit 0,2. All das können wir jetzt auch noch einmal bei den anderen untersuchen. Das ist ja auch nur ein fiktives Beispiel, wie so etwas aussehen könnte. Das war auch schon mein Video zur Korrelationsmatrix. Ich bedanke mich für das Zuschauen und sage bis zum nächsten Mal. Ab dem nächsten Video wird es nämlich besonders wichtig. Dann fangen wir, wie schon gesagt, mit dem großen Block der Wahrscheinlichkeitsrechnung an, starten dann erst einmal ein bisschen lockerer mit der Kombinatorik. Aber auch das ist für viele schon eine große Hürde. Also: Bleibt am Ball. Vielen Dank für das Zuschauen. Bis zum nächsten Mal. Tschüss.

Informationen zum Video
3 Kommentare
  1. Default

    Danke, hat mir sehr geholfen.
    P.S.: Da hab ich die Aussagekraft einer Abiturnote ja gleich ganz geschmälert - war aber keine Absicht,-)

    Von Hise, vor fast 4 Jahren
  2. Default

    Kann man im Prinzip machen wie man möchte, man sollte allerdings einiges beachten:

    Je nachdem welchen Korrelationskoeffizienten man benutzt, bekommt man andere Ergebnisse (die in der Tendenz natürlich gleich sind). Benutzt man für jeden Paarvergleich den selben Korrelationskoeffizienten, erhält man also die größte Vergleichbarkeit.

    Da sich die einzelnen Koeffizienten aber nicht allzu sehr unterscheiden sollten, kann man auch unterschiedlich Koeffizienten in derselben Matrix verwenden.

    Hoffe ich konnte helfen

    P.S. Die Abiturnote ist ordinal skaliert, nicht nominal...

    Von Statistik Jona, vor fast 4 Jahren
  3. Default

    Hallo, habe eine Frage zur Auswahl des Korrelationskoeffizienten: Wenn ein nominal skaliertes Merkmal darunter ist (wie im Beispiel die Abiturnote), muss man dann alle Merkmale nach einer Rangkorrelation berechnen oder nur die jeweiligen Paarvergleiche mit dem Merkmal Abiturnote? Also kann ich in der Ermittlung der einzelnen r verschiedene Korrelationskoeffizienten anwenden?

    Von Hise, vor fast 4 Jahren