Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 20: empirische Varianz

Guten Tag. Schön, dass ihr alle wieder zuschaut. Wir widmen uns heute der empirischen Varianz.  Wir müssen erst einmal überlegen, was ist die empirische Varianz. Die empirische Varianz ist ein Kennwert, und zwar ein Kennwert der Streuung. Ok gut, wofür braucht man das? Lasst es uns einmal so sagen. Wir hätten gerne einen Kennwert, also eine Zahl, die uns sagt, wie unser Datensatz, also unsere Stichprobe ungefähr aussieht. Ist sie eher kompakt, also liegen alle Daten dicht beieinander, sind die Häufigkeiten da dann entsprechend hoch oder ist sie eher hier zurück gehend, also gibt es ganz viele unterschiedliche Daten, die sich über ein weites Feld verteilen. Das würden wir gerne in einer einzigen Zahl ausdrücken und mit einem Blick sehen können, wie unser Datensatz aussieht. Und genau das macht die Varianz. Es gibt natürlich noch weitere Kennwerte der Streuung, aber die Varianz ist der Kennwert der Streuung, der Wichtigste. Wir schauen uns jetzt einmal an, wie überhaupt die Idee für diese Varianz ist und wie man sie berechnet. Wenn wir jetzt also eine Maßzahl für die Varianz berechnen wollen, dann müssen wir uns erst mal überlegen, wir machen wir das? Typischerweise nehmen wir wieder unser arithmetisches Mittel zu Hilfe und überlegen einmal, wie weit sind denn unsere einzelnen Beobachtungswerte von unserem arithmetischen Mittel entfernt? Wenn wir jetzt also hier unseren Beobachtungswert uns anschauen, dann schauen wir einfach mal, wie weit liegt der vom arithmetischen Mittel entfernt und das machen wir mit allen Beobachtungswerten. Hier wäre dann x1, hier wäre x0. Nehmen wir diesen Abstand und diesen Abstand und vielleicht noch hier einen Abstand und das machen wir für alle Beobachtungswerte, von denen wir eine ganze Menge haben. Das ist genau das. Wir nehmen also 1/n × ∑aller Beobachtungswerte - unser arithmetisches Mittel. Die Summe läuft dabei natürlich wieder von 1 bis n. Jetzt haben wir allerdings ein Problem. Denn, wer gut aufgepasst hat, der weiß, dass diese Summe der Abstände aller Beobachtungswerte vom arithmetischen Mittel immer 0 ergibt. Das ist ja unpraktisch. Also müssen wir hier irgendwie hier unser Vorzeichen ausschalten. Denn der Grund, warum es 0 ergibt, ist natürlich, dass alle Beobachtungswerte, die links vom arithmetischen Mittel liegen, negativ in die Summe einspielen und alle, die rechts davon liegen, positiv. Also wollen wir jetzt unser Vorzeichen ausschalten. Dafür bieten sich zwei Möglichkeiten an. Schauen wir uns mal die Erste an. Wir nehmen also 1/n, also 1 durch den Stichprobenumfang. Das machen wir, damit wir dann die durchschnittliche Abweichung pro Beobachtungswert bekommen. Mal unsere Summe, wie wir sie gerade schon hatten, denn eigentlich finden wir die Idee mit dem arithmetischen Mittel gar nicht mal so schlecht. So, x(i)-x(quer). Nun wollen wir aus dieser Differenz das Vorzeichen eliminieren. Zwei Möglichkeiten bieten sich an, hab ich gerade schon erwähnt. Zum einen könnten wir hier Betragstriche drum machen. Dann haben wir das Vorzeichen eliminiert und haben einen Kennwert für die Streuung. Das ist allerdings nicht die empirische Varianz, sondern die durchschnittliche mittlere Abweichung, das bezeichnet man mit e. Damit lässt sich aber nicht so bequem rechnen. Der Betrag ist immer etwas unbequem und deshalb nehmen wir die zweite Möglichkeit das Vorzeichen zu eliminieren. Wir nehmen also 1/n, die Summe von 1 bis n, x(i)-x(quer) und die zweite Möglichkeit, die sich anbietet, um dieses Vorzeichen zu eliminieren, ist natürlich die Differenz zu quadrieren. Dann fällt hier das Vorzeichen raus und wir haben einen schönen Kennwert. Das hier ist die empirische Varianz oder auch bezeichnet mit S2 des Merkmals x. Könnte natürlich auch S2 des Merkmals y sein, wenn wir alles mit y bezeichnet haben. Machen wir also jetzt einmal ein kurzes Beispiel. Sagen wir mal, wir haben 5 Beobachtungswerte 1,5,8,10 und 11 eines Merkmals x. Sagen wir mal Taschengeld in Euro, ist immer ein beliebtes Beispiel, bei mir zumindest. Und wir haben ein daraus resultierendes arithmetisches Mittel von 7. Ok, wir wollen jetzt also die Varianz von x berechnen. Das war 1/n, also 1 durch den Stichprobenumfang, bei uns 5. ×∑von 1 bis n aller Beobachtungswerte - das arithmetische Mittel zum Quadrat. Also 1/5×[(1-7)2+(5-7)2+(8-7)2+(10-7)2+(11-7)2]. So, das Ganze rechnen wir jetzt aus, kein Problem. 1/5×, ich überspring mal die Zwischenschritte. Wir haben 1-7=-6 zum Quadrat 36. Plus 5-7=-2 zum Quadrat 4. (8-7)2=1. 10-7=3 zum Quadrat sind das 9. Plus 11-7=4 zum Quadrat sind 16. Was rauskommt ist also 1/5× 36+4 sind 40 +1 sind 41 +9 sind 50 +16 sind 66. Und das bringt uns zu einer Varianz von 13,2. Wie aussagekräftig ist das jetzt? Nicht so richtig leider. Denn das ist ja immer noch eine quadratische Maßzahl. Wenn wir jetzt also unser Merkmal haben Taschengeld in Euro, in der Einheit Euro, ist unsere Varianz in der Einheit Euro2. Ist etwas unbequem, aber, so ist nun mal die Varianz. Man muss jetzt versuchen, damit etwas anzufangen und daraus etwas Sinnvolles für seinen Datensatz zu interpretieren.

Ich habe gerade erwähnt, dass es hier einen Disput in der Statistik gibt. Es gibt nämlich zwei Formeln für die empirische Varianz. Die, die ich schon vorgestellt habe, die besagt, die Varianz ist 1/n×die Summe der Abweichung zum Quadrat und es gibt die zweite Formel, die besagt, es ist 1/n-1, also der Stichprobenumfang um 1 reduziert × die Summe aller quadratischen Abweichungen. Welche Formel ist jetzt richtig? Eigentlich muss man sagen, die zweite Formel ist die korrekte Formel. Es ist 1/n-1. Jetzt ist allerdings nicht ersichtlich, warum man bei unserem Stichprobenumfang, den wir bisher auch beim arithmetischen Mittel immer benutzt haben, das war auch völlig in Ordnung, warum man davon noch 1 abziehen sollte. Das liegt nachher in der Statistik 2 begründet. Also wenn man weiterführende Statistik hört, dann werdet ihr so etwas wie Erwartungstreue kennenlernen und Schätzungsparameter und so. Und dann sieht man, dass diese Formel für die Varianz erwartungstreu ist und diese soeben nicht erwartungstreu. Es gibt jetzt Professoren, die lassen von vornherein mit 1/n-1 rechnen, weil sie sagen, das ist die richtige Formel, so wird gerechnet, ohne zu erklären, warum da ein 1/n-1 steht. Es gibt auch Professoren, die sagen, am Anfang der Statistikausbildung können die Leute noch gar nicht verstehen, warum 1/n-1 da stehen sollte, das heißt, damit rechne ich auch nicht. Ich rechne mit 1/n, weil das das Logische ist. So habe ich es auch kennengelernt, deshalb werde ich auch, solange wir noch in der Statistik 1 sind, also in den Grundzügen der Statistik, in der Empirie, solange werden wir mit 1/n unsere Varianz ausrechnen. Erst später, wenn dann solche Sachen wie Erwartungstreue auch wirklich vorausgesetzt werden können, dann werden wir auf 1/n-1 wechseln. Das heißt, wenn euer Prof von euch verlangt, dass ihr immer mit 1/n-1 rechnet, dann müsst ihr das natürlich tun. Es ändert im Prinzip auch nicht viel daran, wie man die Varianz ausrechnet. Es verändert natürlich ein bisschen die Werte, die am Ende raus kommen. Aber nur dass ihr es wisst, ich rechne immer mit 1/n. Es gibt auch Profs, die mit 1/n-1 rechnen lassen. Ihr müsst halt immer schauen, wie das euer Prof macht. Leider gibt es d auch in der Statistik keine durchgehende konsistente Linie oder eine Vorschrift, wie man das machen muss. Sondern jeder macht das irgendwie so, wie er will und ihr müsst im Prinzip darunter leiden. Wir schauen uns jetzt auf jeden Fall alle interessanten Eigenschaften der Varianz an, die sich auch bei beiden übrigens nicht unterscheiden. Schauen wir uns einmal an, was man mit der Varianz alles machen kann. Zunächst einmal kann man die ursprüngliche Formel der Varianz 1/n×die Summe aller quadrierten Abweichungen vom arithmetischen Mittel auch umschreiben in 1/n×die Summe aller quadrierten Beobachtungswerte und davon ziehen wir dann noch mal das quadrierte arithmetische Mittel ab. Wie kommt man da drauf? Ist eigentlich ganz einfach. Man nimmt diese Formel, multipliziert hier das Quadrat aus und rechnet so lange, bis man hier ist. Diese Formel wird oft bei großen Stichprobenumfängen benutzt, weil man sich einfach Zeit spart. Man muss nicht mehr die Differenzen zwischen den Beobachtungswerten und dem arithmetischen Mittel bilden, man muss daraus nicht wieder ein Quadrat bilden, sondern man nimmt einfach die Beobachtungswerte und quadriert diese und zieht am Ende noch mal das quadrierte arithmetische Mittel ab. Das ist also einfacher und schneller und üblicherweise wird in der Praxis, wenn man die Varianz ausrechnet, eigentlich nur mit dem Verschiebungssatz gearbeitet und so gut wie gar nicht mehr mit der ursprünglichen Formel der Varianz. Das ist einfach zu umständlich. Schauen wir uns jetzt also einmal an, wie eine lineare Transformation auf die Varianz wirkt. Wenn wir also unseren Datensatz, bestehend aus unserem x(i), linear transformieren, das heißt, wir addieren eine konstante Zahl und multiplizieren mit einem konstanten Faktor, dann wirkt sich das wie folgt auf unsere Varianz aus. Unsere neue Varianz von y ist also b2×Var(x). Das heißt, egal welche Zahl wir am Anfang aufaddiert haben, die taucht überhaupt nicht mehr auf in unserer Varianz und es ist nur b2, also unser Faktor2 taucht wieder mit auf. Was sagt uns das? Das heißt, die Varianz verhält sich anders als unser arithmetisches Mittel. Bei unserem arithmetischen Mittel hatten wir, wenn wir - mal ein ganz kurzes Beispiel - die Daten hatten 1,3 und 5 und jetzt die konstante Zahl 100 addieren, also 101,103,105, ist in diesem Fall unser x(quer) 3 und in diesem Fall unser x(quer) 103. Das heißt, die konstante Zahl, die wir aufaddieren, wird auch im arithmetischen Mittel auftauchen. Bei unserer Varianz ist das nicht so. Alles, was dort auftauchen wird, ist der Faktor. Auch das kann man wieder beweisen, wenn man jetzt einfach mal die Varianz von y ausrechnet und sagen wir statt hier y(i) diese Formel einsetzt und das Ganze durchrechnet, dann kommt ihr auch darauf, dass irgendwann a rausfällt und b2 als Konstante vorgezogen werden kann. Als Drittes. Unser S2, unsere Varianz, ist eine quadratische Kennzahl. Das heißt, man kann oft nicht so richtig viel daraus ablesen. Wenn wir zum Beispiel als Merkmal x Zeit nehmen, dann ist unsere Varianz in der Einheit Zeit2. Ist oft hinderlich. Was macht man also? Man nimmt wieder die Wurzel unserer Varianz, das Ganze ist dann S. Das nennt man Standardabweichung. Oft wird also auch nach der Standardabweichung gefragt, weil diese die gleiche Einheit besitzt, wie unsere Daten im Datensatz, was die Varianz nicht tut. Die Standardabweichung kann man allerdings nicht direkt aus den Daten ermitteln, sondern man muss immer den Umweg über die Varianz gehen, weil man ja genau dieses Quadrat benötigt, um überhaupt einen Kennwert zu haben. Das war es auch schon mit der Varianz. Im nächsten Video machen wir dazu natürlich noch eine Übung, dann sollten alle Fragen wirklich restlos geklärt werden. Ich bedanke mich wie immer fürs Zuschauen und sage tschüss.

Informationen zum Video
2 Kommentare
  1. Default

    In dem Besipiel von min 13:00 meinst du doch den Median ("WErt in der Mitte") und nicht das arithmetische Mittel, oder?

    Von Bwilkmann, vor mehr als 2 Jahren
  2. Default

    wo ist das Video?!?!! schon 2 mal in letzten 24 Stunden treffe ich beim "Sofatutor" Sound ohne Video. es macht kein Spaß!

    Von Mimosa, vor mehr als 4 Jahren