Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 88 - Kovarianz

Guten Tag! Schön, dass ihr alle wieder zuguckt. Wir sind heute bei unserem Video zur "Kovarianz bei Zufallsvariablen". Und wir sehen: Die Kovarianz ist im Prinzip genauso wie wir das schon in der Empirie hatten. Sie gibt die Beziehung zwischen 2 Variablen wieder. Hier machen wir das über den Erwartungswert; vorher haben wir das über das arithmetische Mittel gemacht. Die Kovarianz zwischen 2 Variablen x und y ist definiert als der Erwartungswert von X-E(X)×(Y-E(Y)) - also im Prinzip die Differenz der tatsächlichen Realisation unseres Erwartungswertes - und davon wird noch mal der Erwartungswert genommen. Sieht jetzt sehr kompliziert aus, aber wenn man da ein paar Schritte weiterrechnet, kommt man zu einer wunderschönen Formel, die sagt: Die Kovarianz von X und Y ist nichts anderes als der Erwartungswert von X×Y minus der Erwartungswert von X mal dem Erwartungswert von Y. Genau sowas hatten wir ja schon. Also, wir hatten im Prinzip schon alle Komponenten hiervon und wir haben schon mal gesagt, dass, wenn die beiden Variablen stochastisch unabhängig sind, E(X×Y) = E(X)×E(Y) ist. Das führt uns dazu, dass wenn wir 2 Zufallsvariablen haben, die stochastisch unabhängig sind, die Kovarianz immer gleich 0 ist, da dieser Teil gleich diesem Teil ist. Das kürze ich jetzt raus, die Kovarianz ist dann immer 0. Ist doch sehr schön. Wenn ich weiß, die beiden sind stochastisch unabhängig, und ich werde gefragt: Was ist Kovarianz? 0, immer 0. Ja, wofür braucht man die Kovarianz? Naja, wenn man 2 Variablen hat, und wir gehen jetzt einmal davon aus, man weiß, sie sind nicht stochastisch unabhängig, dann möchte man vielleicht wissen, in welcher Beziehung ein Zusammenhang zwischen den beiden besteht - also gehen sie in die gleiche Richtung, das heißt ein hohes X führt aus zu einem hohen Y oder erhöht zumindest die Wahrscheinlichkeit für ein hohes Y, oder entgegengesetzt: Ein hohes X führt eher zu einem niedrigen Y. Oder, wenn die Kovarianz 0 ist, dann sagt man, es besteht kein linearer Zusammenhang. Linear, das ist auch ganz wichtig. Die Kovarianz misst nur lineare Zusammenhänge. Das heißt, wenn die Kovarianz 0 ist, können wir noch nicht sagen, dass die beiden Variablen stochastisch unabhängig sind. Wir können nur sagen, es besteht kein linearer Zusammenhang. Andere Zusammenhänge könnten durchaus noch bestehen. So, das war jetzt erst mal relativ viel Theorie. Gucken wir uns doch einfach ein Beispiel an. Gut, gucken wir uns also mal ein kleines Beispiel an. Wir haben jetzt wieder 2 Zufallsvariablen X und Y, X hat die Ausprägungen 1 und 2, Y 5, 10 und 20. Wir haben die gemeinsame Wahrscheinlichkeitsfunktion. Und ich habe auch gleich noch mal die nächste Variable Z definiert, also X×Y, das Produkt, hat die möglichen Ausprägungen 5, 10 und 20 mit dieser Wahrscheinlichkeitsverteilung. Gut, wir wollen jetzt also die Kovarianz ausrechnen. Die Kovarianz ist der Erwartungswert von X×Y, also in unserem Fall der Erwartungswert von Z minus das Produkt der einzelnen Erwartungswerte. Das heißt wir brauchen E(X), E(Y) und E(Z). Gut, fangen wir mit E(X) an. Also der Erwartungswert von X - wir wissen ja bereits, wie man den ausrechnet - ist immer die Ausprägung mal die Eintrittswahrscheinlichkeiten. Das heißt, wir haben 1×2/3+2×1/3 - macht also Erwartungswert 4/3. Gut, machen wir weiter mit dem Erwartungswert von Y. Wir haben 5×1/3+10×½+20×1/6. So, wir haben also 5/3 und 5, was ja 15/3 sind, das heißt, wir haben 20/3 und 20×1/6 sind noch mal 10/3 - das heißt, wir haben 30/3 oder glatt 10 - also Erwartungswert von Y ist 10. So, jetzt noch der Erwartungswert von Z, also der Erwartungswert von X×Y. Wir haben 5×1/3, 10×1/6 und 20×½, also 5/3 + 5/3 sind 10/3 + 10 macht also 40/3; also hier 10 sind 30/3, hier vorne hatten wir 10/3, also zusammen 40/3. Gut, dann können wir die Kovarianz ausrechnen. Die Kovarianz von X,Y war ja, wie wir gerade gelernt haben, E(XY)-E(X)×E(Y), also in unserem Fall E(Z). Gut, also die Kovarianz ist also E(X×Y), also 40/3-4/3×10. So, wir haben also 40/3-4×10, sind auch 40, also 40/3-40/3, also 0. Wir haben eine Kovarianz von 0. Das sagt uns jetzt noch nichts über die stochastische Unabhängigkeit von X und Y aus. Es sagt uns nur, dass zwischen X und Y kein linearer Zusammenhang besteht. Okay, so habt ihr auf jeden Fall schon mal gesehen, wie man generell die Kovarianz ausrechnet. Ihr seht, es ist alles nicht so schwer. Machen wir noch mal weiter mit ein paar theoretischen Überlegungen zur Kovarianz. Ok, gucken wir uns doch mal die Interpretation der Kovarianz an. Wir haben 2 Zufallsvariaben X und Y und eine existierende Kovarianz. Ist die Kovarianz größer als 0, dann können wir sagen: X und Y haben tendenziell einen positiven, linearen Zusammenhang. Das heißt, bei einem großen X würden wir davon ausgehen, dass wir auch ein großes Y haben, beziehungsweise andersherum: Bei einem großen Y würden wir davon ausgehen, dass wir auch ein großes X haben; zum Beispiel bei der Körpergröße und der Schuhgröße eines Menschen. Ist der Mensch besonders groß, gehen wir davon aus, dass auch seine Schuhgröße auch besonders groß ist. Ist der Mensch besonders klein, gehen wir davon aus, dass er auch eher kleine Füße hat. Also, wenn X klein ist, gehen wir natürlich auch davon aus, dass auch Y klein ist. Ist die Kovarianz von X und Y kleiner als 0, haben wir einen negativen linearen Zusammenhang. Das heißt, bei einem großen X gehen wir davon aus, dass wir ein kleines Y haben. Bei einem kleinen X gehen wir davon aus, dass wir ein großes Y haben. Zum Beispiel Ernteertrag eines Bauerns und Anzahl der Gewitter im Jahr. Wenn wir sehr viele Gewitter in einem Jahr haben, gehen wir davon aus, dass der Ernteertrag eher niedrig ist, weil da offensichtlich ein negativer Zusammenhang besteht, weil bei einem Gewitter mit Sturm und Hagel die Ernte beschädigt wird. So, haben wir eine Kovarianz von 0, dann können wir keinen linearen Zusammenhang feststellen. Ganz wichtig: Es können nichtlineare Zusammenhänge bestehen, die wir mit der Kovarianz einfach nicht erfassen können. Das heißt, Kovarianz gleich 0 bedeutet nicht, dass die beiden Zufallsvariablen keinen Zusammenhang haben, sondern nur, dass sie keinen linearen Zusammenhang haben. Die beiden Variablen heißen dann unkorreliert. Ganz wichtig, deshalb auch mit einem dicken Ausrufezeichen: Die Kovarianz ganz nur die Richtung eines Zusammenhangs unserer Zufallsvariablen angeben, aber nicht die Stärke - niemals die Stärke, immer nur die Richtung! Wenn wir aber doch die Stärke berechnen wollen unseres Zusammenhangs, dann brauchen wir den Korrelationskoeffizienten. Der gibt die Stärke an. So, den behandeln wir natürlich auch. Im nächsten Video machen wir zuerst noch eine Übung zur Kovarianz wie gewohnt, und dann beschäftigen wir uns mit dem Korrelationskoeffizienten. Ja, das war das Theorie-Video zu Kovarianz. Ihr hoffe, ihr habt so weit alles verstanden. Guckt euch auch die nächsten Videos an. Ich sage, bis zum nächsten Mal und tschüss.   .  

Informationen zum Video
4 Kommentare
  1. Default

    Hallo,
    du erwähnst, dass du die kovarianz auch mittels mittelwert ausrechnen kannst? wann nehme ich den erwartungswert und wann den mittelwert? und in welchem video machst du die Kovarianzberechnung mittels Mittelwert? Danke

    Von Christ Christoph, vor etwa einem Jahr
  2. Default

    Ja, das konntest du. VIelen Dank für die schnelle und sehr detaillierte Antwort.

    Von Sethar, vor fast 5 Jahren
  3. Default

    Z ist definiert als X*Y. Für X und Y ist die gemeinsame Verteilung angegeben. Demnach gibt es die Ausprägungen Z=5, Z=10 und Z=20.

    Z=5 ist nur bei X=1 und Y=5 realisiert. Dies hat die Wahrscheinlichkeit 1/3.
    Z=10 ist bei X=1 und Y=10 oder bei X=2 und Y=5 gegeben. X=2 und Y=5 treten aber nicht gleichzeitig auf, daher ist P(Z=10)=P(X=1 und Y=10)=1/6
    Z=20 ist bei X=2 und Y=10 gegeben oder aber bei X=1 und Y=20.
    P(Z=20) ist demnach 1/3+1/6=1/2

    Hoffe ich konnte helfen.

    Von Statistik Jona, vor fast 5 Jahren
  4. Default

    Wie hast du die Werte für P(Z=z) rausbekommen? Das wird mir irgendwie nicht ganz klar.

    Von Sethar, vor fast 5 Jahren