Textversion des Videos

Transkript Statistik Video 34: Maßkorrelationskoeffizient

Hallo, schön, dass ihr alle wieder da seid. Wir beschäftigen uns heute mit einem neuen Thema. Mit Zusammenhangsmaßen oder mit der Korrelation. Die Korrelation bestimmt im Prinzip die Zusammenhänge zwischen zwei Merkmalen bzw. mit der Korrelation können wir diese Zusammenhänge untersuchen. Es gibt zwei unterschiedliche Arten der Korrelation oder zwei die wir betrachten, die Maßkorrelation und die Rangkorrelation. Wozu braucht man jetzt das Jeweilige? Nun, die Maßkorrelation benutzt man, wenn man metrische Daten hat, und kann dann halt die Korrelation exakt berechnen. Wohingegen man bei der Rangkorrelation, diese benutzt man, wenn man nur ordinal skalierte Daten hat, wenn man also Ränge bildet und auch dann kann man eine Korrelation berechnen. Wenn wir also metrische Daten haben, können wir es exakter machen und die Maßkorrelation berechnen. Haben wir nur ordinale skalierte Daten, benutzen wir die Rangkorrelation, um auch mit ordinal skalierten Daten eine Korrelation berechnen zu können. Bei der Maßkorrelation gucken wir uns die Korrelation nach Bravais-Pearson an, zwei Mathematiker und bei der Rangkorrelation gucken wir uns zwei unterschiedliche Verfahren an. Einmal nach Spearman und einmal nach Kendall, wiederum zwei Mathematiker.  In diesem Video beschäftigen wir uns erst einmal mit der Maßkorrelation, um dann im nächsten Video die Rangkorrelation zu betrachten. Für unseren Maßkorrelationskoeffizienten nach Bravais-Pearson brauchen wir erst einmal eine Voraussetzung. Wir wollen ja einen Zusammenhang zwischen zwei Merkmalen feststellen oder auch nicht und das heißt, wir brauchen zwei Merkmale. Mindestens zwei Merkmale x und y, die kardinal skaliert sein müssen. Also wir brauchen metrische Daten. Und wir müssen für unseren Maßkorrelationskoeffizienten, um den dann am Ende ausrechnen zu können nach Bravais-Pearson, etwas neues einführen, und zwar die empirische Kovarianz. Wir kennen ja bisher immer nur die normale Varianz, also die Varianz von x können wir berechnen, die Varianz von y können wir berechnen und diese beiden Formel wollen wir jetzt zusammenführen und im Prinzip eine gemeinsame Varianz berechnen. Gut. Wie machen wir das? Die Grundidee ist erst einmal, dass wir eigentlich  ja unsere Einzelvarianzen berechnen können und wir wollen jetzt aus jeder Formel die gleichen Teile nehmen und die zu einer empirischen Kovarianz zusammenführen. So, damit wir das machen können, schreiben wir diese Formeln erst einmal um. Wir haben ja hier als empirische Varianz von x, haben wir 1/n×Σ (über alle i) und dieses Quadrat xi-x quer können wir aufsplitten in zwei Klammern. Also (xi-x quer)×(xi-x quer). Dann steht ja hier genau das Gleiche wie hier, wir haben einfach nur das Quadrat in der Klammer aufgelöst. Und das Gleiche können wir jetzt auch bei y machen, wo ja die Formel für die Varianz natürlich genau die gleiche ist. Das unterscheidet sich ja nur darin, dass wir yi und y quer nehmen anstatt xi und x quer. So, jetzt haben wir das also gemacht und wollen jetzt aus diesen beiden Formeln eine empirische Kovarianz  zusammenstückeln. So, dann schreibe ich die mal hier oben hin. Die empirische Kovarianz zwischen x und y schreibt man als Sxy. Wir gucken also, was ist bei den beiden Formeln gleich. Wir haben erst einmal unseren Faktor vorne 1/n. 1/n×Σ(über alle i). Jetzt ist natürlich die Frage, sind denn die i hier gleich? Ja, auch das ist eine Voraussetzung. Unsere beiden Merkmale haben den gleichen Stichprobenumfang, weil sie an den gleichen Individuen, also aus der gleichen Beobachtung kommen. Das heißt, wenn jetzt unsere Merkmale, sagen wir Körpergröße und Gewicht sind, dann fragen wir die gleichen Leute jeweils nach Körpergröße und Gewicht. Das heißt, wir haben immer zwei Daten pro Individuum, ein xi und ein yi und deshalb können wir das hier in ein Summenzeichen machen. So, jetzt wollen wir gleiche Teile aus beiden Formeln nehmen. Wir nehmen also hier eine Klammer aus x, aus der Varianz von x, eine Klammer aus der Varianz von y und haben damit also unsere empirische Kovarianz. Wir haben hier also (xi-x quer)×(yi-y quer). Damit haben wir die Formel für unsere empirische Kovarianz hergeleitet. Ganz wichtig, was ich auch schon bei der Varianz gesagt habe, es gibt Professoren, die die Varianz nicht mit 1/n berechnen, sondern die korrigierte Varianz mit 1/(n-1). Wenn das bei euch der Fall ist, müsst ihr natürlich auch die empirische Kovarianz mit 1/(n-1) berechnen. Ganz klar. Also überall wo bei mir 1/n steht, würde bei euch dann 1/(n-1) stehen.  So, jetzt haben wir also die empirische Kovarianz hergeleitet, können uns also angucken, wie wir den Maßkorrelationskoeffizienten berechnen. Unser Maßkorrelationskoeffizient nach Bravais-Pearson r ist definiert als die empirische Kovarianz von x und y geteilt durch die Wurzel aus: die empirische Varianz von x × die empirische Varianz von y.  Schreiben wir also noch einmal aus. Wir haben hier oben also unsere empirische Kovarianz  1/n×Σ(über alle i)(xi-x quer)×(yi-y quer). Und das Ganze teilen wir jetzt durch unsere beiden Varianzen, also durch die Wurzel des Produktes unserer beiden Varianzen. Wir haben ja die Varianz von x definiert als 1/n Σ(die Summe über alle i)(xi-x quer)2. Das Ganze multiplizieren wir jetzt noch mit dem Gleichen für y. Also 1/n×Σ(über alle i)(yi-y quer)2. Das sieht alles jetzt noch viel zu komplex aus. Also ich möchte das nicht berechnen. Auch wenn ich mein r berechnen muss. Das ist mir zu viel Schreibarbeit. Können wir also einiges wegkürzen, einiges vereinfachen, wir kennen ja den Verschiebungssatz. Schreiben wir das ganze mal mit dem Verschiebungssatz auf. So, erst einmal können wir sehen, wenn wir das ganze ausmultiplizieren, hier unten die Faktoren können wir miteinander multiplizieren (1/n)×(1/n) macht (1/n)2. Die Wurzel daraus macht wieder 1/n, können wir also mit dem wegkürzen, also alle 1/n können hier schon mal wegfallen. So jetzt nutzen wir hier oben den Verschiebungssatz, den wir auch schon einmal hergeleitet haben und dann steht im Zähler Σ(aller xi×yi) (natürlich die Summe über alle i) -n×x quer×y quer. So, das ist unser Zähler. Hat sich schon einmal etwas vereinfacht. Und das Ganze teilen wir jetzt durch, gut die Wurzel bleibt natürlich erhalten. Jetzt wenden wir den Verschiebungssatz noch auf unsere Einzelvarianzen an, haben also  Σ(über alle i)(xi2)-nx quer2. Hier eine Klammer drum, damit ihr wisst, dass sich das Summenzeichen nur auf die xi bezieht. Und das Ganze multiplizieren wir mit dem Pendant bei y. Also Σ(über alle i)(yi)2-ny quer2. Das ist also unser Maßkorrelationskoeffizient nach Bravais-Pearson und unser r. Das sieht jetzt schon etwas einfacher aus, wir brauchen nicht mehr alles berechnen. Wir müssen x quer2 berechnen, alle xi2 und alle xi×yi und damit können wir unser r schon bestimmen. Natürlich machen wir im nächsten Video noch eine Übung, dann zeige ich euch wie das geht. So, interessant ist jetzt zu sehen, erst einmal, in welchen Bereichen kann unser r liegen. Unser r liegt immer zwischen 1 und -1. Das heißt, 1 deutet darauf hin es herrscht ein perfekter linearer Zusammenhang, ein positiver linearer Zusammenhang, also je mehr desto mehr. -1 heißt es herrscht ein perfekter negativer Zusammenhang, je mehr desto weniger. 0 würde darauf hinweisen, dass die beide Variablen, die beiden Merkmale voneinander unabhängig sind. Gut, wir gucken uns das jetzt noch mal an. Wir haben ja hier -1, also es kann durchaus in negative Bereiche gehen. Gucken wir uns einmal den Nenner an. Da ist eine Wurzel, das heißt, der Nenner kann nie negativ werden, das heißt, die Richtung wird durch den Zähler vorgegeben. Die Kovarianz unserer beiden Merkmale hier gibt die Richtung vor, in dem dieser Zusammenhang besteht, ob wir minus oder plus haben. Und der Nenner, die Wurzel unserer beiden Einzelvarianzen gibt die Stärke vor, wie stark der lineare Zusammenhang ist. Hier noch mal zur Wiederholung, der Zähler, die empirische Kovarianz, gibt die Richtung vor, der Nenner, die Wurzel aus den Produkten der beiden Einzelvarianzen, gibt die Stärke des linearen Zusammenhangs vor. Gut, gucken wir uns noch einmal kurz veranschaulicht an was -1 und 1 bedeuten und dann war es das auch schon wieder für dieses Video. Wenn wir uns das jetzt also mal veranschaulichen wollen. Wenn wir unser r=1 haben, wie gesagt, ein perfekter linearer positiver Zusammenhang, nach dem Motto je mehr desto mehr, dann sieht das Ganze ungefähr so aus. Also, wenn unser x steigt, steigt unser y. Und zwar perfekt im linearen Zusammenhang. Also hätten wir so ein Bild. Je mehr x, desto mehr y als linearer Zusammenhang. Dann bekommen wir unser r=1. Haben wir jetzt unser r=-1, bedeutet das je mehr desto weniger. Je größer unser x wird, desto kleiner wird unser y. Das heißt, das Ganze sähe so aus. Auch wieder im linearen Zusammenhang. Haben wir ein r von 0 oder ungefähr 0, können wir halt keinen eindeutigen linearen Zusammenhang herstellen. Heißt, die Punkte würden sich irgendwo im Raum verteilen. Ihr dürft jetzt allerdings nicht den Fehler machen, wenn ihr seht r=1, perfekter linearer Zusammenhang, daraus auch eine Kausalität zu begründen. Das können wir damit nicht machen. Wir können sagen, okay, unsere beiden Merkmale sind miteinander korreliert, das heißt, es besteht ein Zusammenhang, auch ein linearer Zusammenhang, aber wir können noch keine Kausalität begründen. Also wir können jetzt nicht sagen, x beeinflusst y oder y beeinflusst x. Das ist ein Fehler, der sehr sehr häufig gemacht wird, den man so aber nicht machen darf. Kausalität kann man aus einer Korrelationsanalyse nicht begründen. Wir können nur sagen, es besteht ein Zusammenhang, wie auch immer der geartet ist wissen wir nicht, müssten wir jetzt näher untersuchen. Eine Richtung vorzugeben, das können wir damit nicht machen.  Ja, das war es auch schon für dieses Video. Ich bedanke mich wie immer für das Zuschauen, freue mich, wenn ihr auch das nächste Mal wieder einschaltet, und sage tschüss.                                                                    

Informationen zum Video
1 Kommentar
  1. Default

    Kleine Korrektur: Wenn r=o, dann heißt das nicht, dass die beiden Merkmale unabhängig sind, sondern dass kein linearer Zusammenhang zwischen ihnen besteht. Er gibt nur die Intensität, nicht aber den kausalen Zusammenhang zwischen zwei Merkmalen an.

    Von Mayraleyn, vor fast 4 Jahren