Korrelation 11:11 min

Textversion des Videos

Transkript Korrelation

Hallo! Es gibt einen wichtigen Begriff der beschreibenden Statistik, und der heißt Produkt-Moment-Korrelation oder einfach Korrelation. Gebildet wird er folgendermaßen: Man teilt die Kovarianz durch das Produkt aus Standardabweichung der x-Werte × Standardabweichung der y-Werte. Die Korrelation hat das Symbol r. Und hier habe ich das noch einmal ausführlicher hingeschrieben: Das hier ist die Kovarianz, das haben wir schon gemacht, das kennst du, die wird jetzt durch sx×sy geteilt und dann hat man die Korrelation. So, wie kann man jetzt diesen Begriff verstehen? Es gibt 3 Möglichkeiten, eine zeige ich in diesem Film hier. Man kann es so irgendwie gefühlsmäßig intuitiv verstehen, und zwar wenn man sich Folgendes vorstellt: Wir haben ja die Kovarianz kurz behandelt. Wir haben gesehen, wenn die Werte ungefähr so liegen, dann ist die Kovarianz positiv, wenn die Messwerte in diesem Streudiagramm ungefähr so liegen, dann ist die Kovarianz negativ, und wenn sie irgendwo liegen, dann ist die Kovarianz 0. Diese Kovarianz ist abhängig von den Messwerten selber, von der Größe dieser Messwerte, d. h. wir bekommen eine ganz andere Kovarianz, wenn wir z. B. hier eine Entfernung messen in m auf der x-Achse, oder wenn wir die in cm messen. In cm haben wir größere Werte und dann steigt die Kovarianz auch. Und das ist für die Nähe zu Regressionsgeraden eigentlich irrelevant. Nicht nur eigentlich, sondern tatsächlich. Deshalb teilt man durch die Standardabweichungen der Messwerte selber. Das ist einfach so eine Erklärung, sodass man sich vielleicht irgendwie mit diesem Begriff arrangieren kann, wenn man ihn denn nicht in Gänze und komplett mathematisch durchdringen möchte. Andere Möglichkeit ist, man schaut sich einfach mal viele Streudiagramme an und berechnet die Korrelation und bekommt dann durch Erfahrung ein Gefühl dafür, wie Streudiagramme aussehen müssen, damit sie genau welche Korrelation haben. Dritte Möglichkeit ist (da mach ich vielleicht noch etwas dazu), man kann sich das ein bisschen mit den Quadraten und so vorstellen. Das, was man hier eigentlich rechnet, das sind Rechtecke, so kann man sich das vorstellen, da sind Quadrate und da wird ein arithmetisches Mittel der Quadratflächen und ein mittleres Quadrat errechnet und so, so kann man sich das auch vorstellen, dann hat man eine anschauliche Vorstellung dazu. Wenn du jetzt Student/in der Human- oder Sozialwissenschaften bist, dann reicht es vielleicht, dass du so ungefähr nachvollziehen kannst, dass hier etwas über die Nähe zur Regressionsgeraden gesagt wird, also der Nähe der Messwerte zur Regressionsgeraden, und dass das hier irgendwie Sinn macht und es ist wichtig, dass du das anwenden kannst. Obwohl ich nicht sage, dass Verstehen nicht auch gut sei, dann kann nicht schaden. Es gibt ein paar Eigenschaften und diese Eigenschaften sind auch der Grund dafür, warum es diese Korrelationen überhaupt gibt. Die sind nämlich sehr praktisch alle und deshalb hat sich dieser Begriff durchgesetzt. Es gibt ja mehrere Maße dafür, wie nah Messwerte an irgendwelchen Regressionsgeraden liegen. Eine freundliche Eigenschaft der Korrelation ist, das sie immer zwischen -1 und +1 liegt. Auf den mathematischen Beweis dazu verzichte ich hier an dieser Stelle. Ist aber beim Rechnen eben sehr praktisch, dass man solche Werte bekommt. Wenn die Messwerte so liegen wie hier in grün, exakt auf so einer Geraden liegen, dann ist die Korrelation -1. Wenn die Werte exakt auf so einer Geraden liegen, die also eine positive Steigung hat, dann ist die Korrelation exakt =1. Ja, und wenn sie überall liegen, dann ist die Korrelation =0, dann ist ja auch die Kovarianz 0, wenn wir dann die Kovarianz (die 0 ist) durch etwas teilen, was größer als 0 ist, dann kommt da sowieso wieder 0 heraus. Es gibt eine weitere Eigenschaft, und zwar kann man die erkennen, wenn man das Ganze etwas anders hinschreibt, und zwar so: (das ist jetzt auch einfach die Korrelation, ich habe ein bisschen was vertauscht hier) wir können uns daran erinnern, dass wir mal eine z-Transformation gemacht haben. Wir haben nicht die Messwerte selber betrachtet, sondern wir haben die transformiert, wir haben die geändert, und zwar haben wir die Differenz von Mittelwert und Messwert betrachtet (in der und der Richtung) und haben diese Differenz durch die Standardabweichung geteilt. Also, das machen wir hier auch bei der Korrelation. Wir haben die Differenz von Messwert und arithmetisches Mittel hier auch und teilen jeweils durch die Standardabweichung. Und das ist also die z-Transformation, d. h. das, was hier steht, sind letzten Endes die z-transformierten Werte. Das bedeutet, dass man einfach die Produkte der z-transformierten Werte nehmen kann, diese Produkte alle addieren, dann durch n-1 teilen und dann hat man auch die Korrelation. Wieder eine sehr praktische Eigenschaft, macht auch das Vergleichen verschiedener Messreihen sehr praktisch, wenn man so etwas hier zur Verfügung hat. Dann habe ich hier ein schönes langes Wort: Die Korrelation ist lineartransformationsinvariant. Also, was bedeutet das? Wir haben irgendwelche Messwerte, xi z. B. Wir können diese xi mit einer Zahl multiplizieren, sagen wir mal b. Also alle Messwerte werden mit einer Zahl b multipliziert, könnte man machen. Die Zahl b soll > 0 sein, sonst funktioniert es nicht. Wir können zu allen Messwerten auch noch ein a addieren, irgendeine Zahl. Und das, was hier steht, das ist eine Lineartransformation des Messwertes. Linear deshalb, du kennst das von linearen Funktionen, die haben immer eine Gleichung, die da lautet: m×x+b z. B. oder m×x+n. Hier ist es ein bisschen umgedreht, aber das ist halt linear, wenn man solche Rechnungen macht. Und wenn man eben eine solche Rechnung macht, dann bleibt die Korrelation gleich. Wenn man jeden Messwert so hier verarbeitet, dann haben wir hinterher die gleiche Korrelation wie vorher und das ist eigentlich auch das, was wir erwarten. Wenn wir eine Nähe zu einer Regressionsgeraden beschreiben wollen, dann muss ja die Nähe erhalten bleiben, auch wenn die Messwerte jetzt quasi auseinandergezogen werden oder zusammengedrückt werden durch dieses b hier. Und dann werden die ganzen Messwerte weiter nach oben oder nach unten gehen, bzw. wenn sie auf der x-Achse verschoben werden, dann werden sie so verschoben. Wenn alle gleich verschoben werden, dann bleibt die Nähe zur Regressionsgeraden erhalten und das erwarten wir dann auch von der Korrelation, das sie nämlich gleich bleibt, wenn man solche Rechnungen mit den Messwerten macht. So, es geht weiter mit folgender Situation: Wenn wir nicht irgendwelche Messwerte haben, sondern wenn wir z-standartisierte Messwerte haben (das, was ich gerade schon einmal angesprochen habe), dann hat die Regressionsgerade eine bestimmte Form, nämlich einfach Korrelation×Messwert. Wir haben (sage ich noch mal) normalerweise eben lineare Funktionen, die haben die Form m×x+b oder m×x+n, beides ist gebräuchlich; m ist die Steigung, n ist der y-Achsenabschnitt. Der y-Achsenabschnitt ist hier 0, d. h. ich habe hier gespart hinzuschreiben +0; r ist die Steigung (oder m ist normalerweise die Steigung, also das, was vor der Variablen steht und hier ist die Steigung r). Die Steigung der Regressionsgeraden ist r, wenn wir z-transformierte Werte haben. Die Steigung habe ich hier kurz angedeutet durch dieses Steigungsdreieck. Also man rechnet ja diese Differenz geteilt durch diese Differenz, r/1 habe ich mir gesagt, und dann hat man die Steigung. Ja, dann vereinfacht sich also die Regressionsgerade, wenn man z-transformierte Werte hat. Noch eine kleine Eigenschaft, und zwar brauchen wir manchmal den Zusammenhang zwischen Korrelation und Standardschätzfehler. Wir wissen ja die e's, das sind die Residuen, das sind die Abweichungen der Messwerte von der Regressionsgeraden und diese Standardabweichung der Residuen, Standardschätzfehler nennt sich das, ist also =Standardabweichung der y-Werte ×Wurzel aus ((1-Korrelation)2×((n-1)/(n-2)). Für große Anzahlen von Messwerten kann man das auch weglassen, weil es dann gegen 1 konvergiert, je größer n wird. Aber es schadet auch nicht, das hinzuschreiben, so hat man einen genaueren Wert, was soll's. Ja, das war's zur Korrelation mit ein paar Eigenschaften. Viel Spaß damit, tschüss!

Informationen zum Video