Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 22: Standardisierung, Variationskoeffizient und Gesamtvarianz mehrerer Stichproben

Hallo, schön, dass ihr alle wieder zuguckt! Wir sind heute bei unserem 2. Video zur empirischen Varianz und gucken uns an, was man mit der Varianz sonst noch alles so machen kann. Wir fangen an mit der Standardisierung. Hinter der Standardisierung steckt ein ganz simples Prinzip. Wir haben unseren Datensatz, hier, und der ist beliebig verteilt. Das heißt, wir haben unser arithmetisches Mittel bei irgendeinem Punkt a, der könnte irgendwo im Raum liegen, der könnte 180.000 sein, der könnte -2 sein, wissen wir nicht. Und wir haben unsere Varianz b, die könnte 15 sein, die könnte auch 3 Milliarden sein, und das passt uns nicht, dass die irgendwo rumliegen. Wir hätten die gerne so, dass das arithmetische Mittel immer bei 0 liegt und unsere Varianz immer 1 ist. Was machen wir dafür? Wir machen eine Lineartransformation, das heißt, wir nehmen unseren Datensatz, hier, und verschieben das erst mal so lange, bis das arithmetische Mittel auf 0 liegt. Was wir dann noch machen: Wir nehmen dann wieder unseren Datensatz, gucken uns die Varianz an und strecken den oder wir stauchen den, bis die Varianz genau 1 ist. Das machen wir mit einer linearen Transformation. Und dann haben wir halt unseren neuen Datensatz, der jetzt nicht mehr aus x's besteht, sondern aus y's, wo das arithmetische Mittel bei 0 ist und die Varianz 1 ist. Das wird später noch sehr wichtig, wenn es um die Wahrscheinlichkeitsrechnung geht und um Verteilung, gerade bei der Normalverteilung, wird das immens wichtig. Und wenn ihr das drauf habt, ist die Normalverteilung quasi schon im Sack. Also, wir machen eine Lineartransformation. Das hatten wir vorher schon: Wir bauen uns unseren xi's neue yi's, indem wir mit einem konstanten Faktor b multiplizieren und dann noch eine Zahl a drauf addieren. So, wenn wir das jetzt aber noch standardisieren wollen, sodass der Mittelwert 0 ist und die Varianz 1, können wir a und b nicht frei wählen. Sondern: a ist unser -xquer, also unser negatives arithmetisches Mittel, geteilt durch die Standardabweichung Sx und b=1/Standardabweichung. Wenn wir das also jetzt einsetzen, hier: a+b×xi, dann kommen wir auf unser neues yi von: (xi-xquer)/Sx. Sieht jetzt erst mal ein bisschen cooler aus. Jetzt die Frage: Funktioniert das denn? Ist denn unser arithmetisches Mittel, wenn wir a und b so wählen immer 0 und ist unsere Varianz immer 1? Und das gucken wir uns jetzt erst mal kurz an, das geht relativ fix. Unser arithmetisches Mittel yquer ist ja 1/n, die Summe von 1-n aller yi. Ich setz jetzt mal für yi gleich mal diese Formel hier ein, also: (xi-xquer)/Sx. Und hier haben wir einen konstanten Faktor: 1/Sx. Und wenn wir in einer Summe einen konstanten Faktor haben, der nicht mit dem gleichen Index läuft, wie die Summe, dann können wir den nach vorne ziehen. Also haben wir: 1/Sx mal 1/n mal die Summe von (1 bis n) von xi-xquer. So, und genau diese Summe ist interessant. Das hatten wir ja schon ein paar Mal: Die Summe der Abstände aller Beobachtungswerte vom arithmetischen Mittel, also die Summe xi-xquer ist immer 0. Das ist ja genau das, was das arithmetische Mittel ausmacht. Es liegt in der Mitte, das heißt die Abstände zu allen Daten, die links davon liegen, sind genauso groß, wie die Abstände zu allen Daten, die rechts davon liegen. Das heißt: Diese Summe hier ist 0 und damit ist die ganze Zeile 0, weil 0 mal irgendwas ist immer 0. So, wir haben jetzt also gezeigt, unser neues arithmetisches Mittel, wenn wir diese Werte für a und b einsetzen, ist immer 0. Gut, dann gucken wir uns doch an: Wie verhält es sich mit der Varianz? So, S²y ist ja nichts anderes als, 1/n mal die Summe von (yi-yquer)². Wir haben jetzt gerade gezeigt, yquer ist 0, können wir also rauslassen. Das trifft sich super. Also haben wir 1/n mal die Summe von (1 bis n), und jetzt setze ich wieder für yi (xi-xquer)/Sx ein, zum Quadrat. Gut, wir wollen wieder unseren Faktor Sx hier rausziehen. Jetzt müssen wir natürlich (1/Sx)² rausziehen, ist ja logisch. Also haben wir: (1/Sx²)×(1/n)×(Summe von (1 bis n) von (xi-xquer)². So, jetzt müsste euch schon etwas auffallen bei dieser Summe. Genau dieser Teil ist nämlich unsere Varianz. So ist unsere Varianz definiert. Das heißt: Wir haben 1/(die Varianz von x)×(die Varianz von x). Was hier rauskommt, ist also: 1/S²x×S²x. Das hebt sich natürlich gegenseitig auf: also 1. Hiermit haben wir also bewiesen: Wenn wir diese Lineartransformation machen und für a (-xquer/Sx) wählen und für b (1/Sx) wählen, kommt für den Mittelwert immer 0 raus und für die Varianz immer 1. Das sind super Eigenschaften, die wir uns später noch zunutze machen können, wie gesagt, vor allem in der Wahrscheinlichkeitsrechnung. So, das war die Standardisierung, machen wir weiter mit dem Variationskoeffizienten. Der Variationskoeffizient Wir hatten ja bisher die Variation S²x und die Standardabweichung. Das waren absolute Zahlen. Das war ein Maß für die absolute Streuung von einer festen Zahl, die war klar. Nun möchte man aber gern, die Variation, oder in diesem Fall die Standardabweichung, auch in Beziehung setzen mit den anderen Daten, den Daten des Datensatzes. Dafür nimmt man dann gern mal den Mittelwert, also das arithmetische Mittel und bildet daraus einen Variationskoeffizienten. Man rechnet also: die Standardabweichung geteilt durch das arithmetische Mittel und bekommt so eine relative Streuung der Daten. Das ist jetzt vielleicht noch nicht so ganz klar, aber ein kleines Beispiel sollte es klar machen. Ein fiktives Beispiel: Wir haben zwei unterschiedliche Merkmale. Wir haben x untersucht, also das Einkommen von Studenten im Monat und wir haben y, das Einkommen von Millionären im Monat. Wir haben für jede Beobachtung 3 Daten gesammelt, natürlich fiktiv, nur um das Beispiel zu erläutern. Wir haben bei Studenten Einkommen von 500, 550 und 600 und wir haben bei den Millionären Einkommen von 500.050, 500.100, 500.000. So, wir sehen also: Die Schritte sind gleich groß, immer 50er Schritte. Wir haben bei den Studenten ein sich daraus ergebendes arithmetisches Mittel von 550, bei den Millionären ein sich daraus ergebendes arithmetisches Mittel von 500.050. Da die Schritte gleich groß sind, ist auch die Varianz gleich groß und die Standardabweichung. Wir haben also bei beiden ungefähr eine Standardabweichung von 40,82. Das spiegelt aber jetzt vielleicht nicht den Kern der Sache wieder, weil: Wenn ich Student bin, macht das schon einen großen Unterschied aus, ob ich 500 Euro zur Verfügung habe oder 550 Euro. Das ist immerhin eine Steigerung um 10%. Wenn ich Millionär bin und ich habe sowieso schon 500.000 Euro im Monat zur Verfügung, ist mir auch relativ egal, ob ich da noch 50 Euro mehr habe. Das macht den Braten auch nicht mehr fett. Man hätte gern irgendeine Zahl, die das auch auf den Punkt bringt. Und dafür hat man sich halt den Variationskoeffizienten erdacht, was eine relative Streuung aussagt. Also: die Streuung relativ zum Mittelwert des Datensatzes. Das können wir jetzt noch mal ausrechnen. Ich mach das mal in rot. Wir haben also als Variationskoeffizienten unseres Merkmales x, rechnen Sx/xquer, also die Standardabweichung unseres Merkmales x geteilt durch das arithmetische Mittel xquer und kommen auf 0,074. Das ist jetzt eine relativ abstrakte Zahl, die schwer zu deuten ist. Man kann sie eigentlich am Besten in Vergleichen deuten. Das sieht man jetzt auch, wenn wir mal den Variationskoeffizienten von y ausrechnen, also Sy/yquer. Also rechnen wir hier: 40,82/500.050 und kommen auf ungefähr, das sind natürlich alles gerundete Zahlen, auf 0,00008. Das hier ist natürlich auch eine gerundete Zahl. Das heißt, wir sehen: Der Variationskoeffizient für x, für die Studenten, ist sehr viel größer als der für y, für die Millionäre. Das heißt, die relative Streuung der Daten in unserem ersten Datensatz, für die Studenten, ist viel, viel größer, als die bei den Millionären. Wie gesagt: 50 Euro machen bei einem Grundwert von 500 viel mehr aus, als bei einem Grundwert von 500.000. Genau das ist es, was der Variationskoeffizient aussagt. Man kann da gute Vergleiche ziehen und er ist eigentlich auch nicht schwer zu berechnen. Wie wir gerade gesehen haben, kann es ja durchaus vorkommen, dass wir mehrere verschiedene Beobachtungen haben und dann könnte uns ja auch die Gesamtvarianz interessieren, wenn wir von jeder verschiedenen Beobachtung die Einzelvarianz ausgerechnet haben. Die Frage ist jetzt: Wie berechnen wir das? Sagen wir also: Wir haben verschiedene Beobachtungen oder verschiedene Stichproben, M1 bis Mr, mit jeweils eigenen Mittelwerten, x1 bis xr. So, wie rechnen wir erst einmal unser gesamtes arithmetisches Mittel aus? Das ist eigentlich die gleiche Formel, die wir schon für das gewichtete arithmetische Mittel hatten. Wir haben also 1/n, wobei n hier der Gesamt-Stichprobenumfang ist, also wenn wir eine Stichprobe haben mit 10 Beobachtungen und eine mit 20, wäre hier Gesamt-Stichprobenumfang 30, mal die Summe von (j bis r) also über alle verschiedenen Beobachtungen von nj, dem Einzelstrichprobenumfang, mal xquerj, also des jeweiligen arithmetischen Mittels. Wenn wir also, wie gerade gesagt, 2 Beobachtungen haben, eine mit 10, eine mit 20 Beobachtungen, haben wir hier 1/30×(10×Mittelwert1)+(20×Mittelwert2). So rechnen wir unser gesamtes arithmetischea Mittel aus. Die Frage ist: Können wir das bei unserer Varianz auch so machen? Und die Antwort ist: nein. Bei der Varianz wird alles ein bisschen komplizierter. So, unsere Varianz besteht im Prinzip aus zwei Teilen. Wir haben einmal die Streuung innerhalb der Gruppen und einmal die Streuung zwischen den Gruppen. Die Streuung innerhalb der Gruppen berechnet man im Prinzip wie hier oben, also man bildet das Mittel aller Streuungen für sich, das heißt, man guckt sich an: Okay, welche Streuung gab es in den jeweiligen Gruppen oder in den jeweiligen Beobachtungen? Und darüber mittelt man. Das ist unser Teil a unserer Gleichung, also: 1/n, n wieder der Gesamtstichprobenumfang, Summe von j= 1 bis r, also über alle verschiedenen Beobachtungen durch alle verschiedenen Gruppen, kann man sagen, wie man will, von nj dem Einzelstichprobenumfang mal S²j, also mal der Einzelvarianz. Das ist also die Streuung, die wir innerhalb der einzelnen Gruppen haben. So, nun gibt es aber auch noch Streuung zwischen den Gruppen. Und die berechnet man wieder mit der ganz normalen Varianzformel. Wir haben also 1/n. Wir machen eine Summe, wieder über alle Beobachtungswerte, das heißt von j=(1 bis r) und rechnen im Prinzip die eigene Varianz aus. Das heißt, wir nehmen den jeweiligen Mittelwert der gerade zu untersuchenden Beobachtungen xquer(j) minus xquer(ges), minus unser Gesamtmittelwert. Und das Ganze gewichten wir noch mit dem jeweiligen Stichprobenumfang nj. Das ist also Teil b, die Streuung zwischen den Gruppen. So wird die Gesamtvarianz ausgerechnet. Das ist jetzt eine relativ lange Formel, die man gut in zwei Teile zerlegen kann, die man dann auch vielleicht gesondert ausrechnet, damit es nicht so schwer wird. Wir machen im nächsten Video auch noch eine Übung, gerade zu der Varianz bei mehreren Stichproben, also der Gesamtvarianz und auch zum Variationskoeffizienten und danach sollte das eigentlich auch kein Problem mehr sein. Ich bedanke mich, wie immer, fürs Zuschauen, freue mich das nächste Mal und sage: Tschüss.      

Informationen zum Video
1 Kommentar
  1. Default

    Hi, wenn du etwas aus der Summe ziehst, musst du diese Zahl mit den Beobachtungen, n, noch multiplizieren; sprich n/sx. Oder nicht?
    Grüße

    Von Fabianwasse, vor fast 3 Jahren