Textversion des Videos

Transkript Statistik Video 23: Variationskoeffizient Übung

Hallo! Schön, dass ihr wieder zuguckt. Wir sind heute bei der Übung zur empirischen Varianz, bei der zweiten, wo wir uns vor allem um die Gesamtvarianz und um die Variationskoeffizienten kümmern. Wir haben also hier 3 unterschiedliche Betriebe, wo wir nach den Löhnen gefragt haben. Im ersten Betrieb haben wir 100 Arbeiter gefragt, im zweiten Betrieb 50 und im dritten 150. Und wir haben die Daten jetzt schon weggeschmissen. Alles, was geblieben ist, ist das arithmetische Mittel. Bei dem ersten Betrieb, bei Unternehmen A, haben wir ein arithmetisches Mittel von 3750 Euro, bei dem zweiten Betrieb haben wir ein arithmetisches Mittel von 4100 Euro und beim dritten Betrieb haben wir ein arithmetisches Mittel von 3200 Euro. Was uns am Ende natürlich interessiert, ist der Variationskoeffizient und die Gesamtvarianz. Wir haben ja im letzten Video gesehen, dass wir dafür erst einmal das gesamtarithmetische Mittel brauchen. Das berechnen wir mal ganz am Anfang. Wir erinnern uns, aus dem letzten Video die Formel für xQuer gesamt war ja (1/n)×∑ von j=1 bis r, also über alle Beobachtungen, bei uns über alle Betriebe, von nj×xQuer j, also im Prinzip fast die gleiche Formel wie beim gewichteten arithmetischen Mittel. So, jetzt können wir eigentlich alles einsetzen. 1/n, da setzen wir natürlich hier nicht 100, nicht 50 und auch nicht 150 ein, sondern das gesamte n, quasi so etwas wie n gesamt. n gesamt, in unserem Fall, also wenn wir das aufaddieren, 300. Also n gesamt = 300. Gut. Damit haben wir im Prinzip alles, was wir brauchen, um unser xQuer gesamt auszurechnen. Wir haben also 1/300×( n1×xQuer1), also hier 100×3750 +, das Ganze ist eine Summe, 50×4100+150×3200. So, das können wir jetzt alles mal ausmultiplizieren. Wir machen das mal ausführlich mit allen Zwischenschritten. Also: 100×3750 bringt uns zu 375.000+50×4100 macht 205.000 und 150×3200 macht 480.000. So. Wir haben also 1/300× (375.000+205.000) macht 580.000+480.000 macht 1.060.000. Das gibt uns ein xQuer gesamt=(1/300)×1.060.000 von ungefähr 3533,3. So, haben wir jetzt also unser xQuer gesamt von 3533,3 und wenn wir das haben, haben wir schon mal einen wichtigen Baustein, den wir nachher brauchen, wenn wir die Gesamtvarianz ausrechnen wollen. Wir machen jetzt erst einmal weiter mit den verschiedenen Variationskoeffizienten, also mit der relativen Streuung der Daten. Dazu haben wir jetzt auch mal die Varianz gegeben, wir haben also s2(x)=62.500, s2(y)=46.000 und s2(z)=53.000. Die Einheit ist natürlich Euro2. So, wenn wir jetzt also die Variationskoeffizienten ausrechnen wollen, für x wäre das dann ja Sx/xQuer, sollte uns zuerst einmal auffallen, dass uns etwas fehlt. Uns fehlt nämlich die Standardabweichung sx. Was wir gegeben haben, ist sx2, das heißt, daraus müssen wir noch die Wurzel ziehen. Gut, gucken wir uns also an. Holen wir uns erst einmal alle Standardabweichungen. Wir haben ja sx=\sqrt sx2, also \sqrt 62.500, das sind 250. Für die anderen brauchen wir das natürlich auch, das heißt wir brauchen sy als \sqrt 46.000, das sind 214,48 ungefähr und sz, die \sqrt 53.000 sind ungefähr 230,22. Gut. Das sind die Standardabweichungen, die dann ja auch schon wieder eine schönere Einheit haben, weil die sind ja in Euro. So, jetzt können wir also den Variationskoeffizienten ausrechnen, sx/xQuer wäre also der für x. Wir haben also als Variationskoeffizient sx/xQuer, also 250 / unser arithmetisches Mittel unseres Merkmals x, also 3750. So, und das macht 0,0666... Daraus lässt sich jetzt erst mal nicht sonderlich viel ablesen, sondern die Wichtigkeit der Variationskoeffizienten kommt ja wie gesagt immer erst im Vergleich. Also rechnen wir die anderen auch aus, damit wir einen Vergleich haben. sy/yQuer sind also 214,48 / unser arithmetisches Mittel von y, 4100, das ergibt ungefähr 0,052 und zu guter Letzt der Variationskoeffizient von z. Ich schreib den mal da drunter. Also die Standardabweichung von z/ zQuer, also 230,22 / das arithmetische Mittel 3200 und das ergibt einen Variationskoeffizienten von ungefähr 0,072. Was also können wir jetzt aus diesen Daten ablesen? Zunächst einmal liegen die Variationskoeffizienten alle relativ nah beieinander, das heißt sie sind alle so um, ja, 0,05 bis 0,07, sind also alle ungefähr in der gleichen Größeneinheit. Allerdings kann man sagen, dass die Daten in z relativ gesehen am stärksten streuen und die Daten in y relativ gesehen am wenigsten streuen. Gut, das sind die Variationskoeffizienten, das war auch die Interpretation dazu, und was wir jetzt noch machen, ist natürlich die Gesamtvarianz ausrechnen mit dieser, ja, man muss schon sagen, leider elendig langen Formel. Gut, beschäftigen wir uns also mit der Gesamtvarianz, die wir in 2 Teilen ausrechnen. Wir haben hier ja Teil a und Teil b. Wir erinnern uns. Teil a, das war die Varianz innerhalb der Gruppen und Teil b war die Varianz zwischen den Gruppen. Wir sind immer noch bei den 3 Unternehmen. Ich musste ein bisschen Platz schaffen, deswegen hab ich das mal weggewischt, aber es geht immer noch um diese 3 Unternehmen. Alles Wichtige steht im Prinzip hier oben, x gesamt, die verschiedenen Varianzen, die verschiedenen Stichprobenumgänge und die verschiedenen arithmetischen Mittel. Gut, fangen wir also mit Block a an. Wir haben also a, 1/n. n wieder der Gesamtprobenumfang, also 300. 1/300 × eine Summe, also schon mal Klammer auf. Jetzt haben wir die Summe von (j=1; r), also über alle verschiedenen Stichproben, die wir haben. In unserem Fall 3. nj×s2j, also der einzelne Stichprobenumfang × die Varianz. Also haben wir 100, Stichprobenumfang für unser Unternehmen a, ×62.500+50×unsere Varianz für Unternehmen b, also 46.000 + unser Stichprobenumfang für unser drittes Unternehmen, 150, × die dadurch gegebene Varianz von 53.000. So, ich spare mir mal das Ausmultiplizieren der einzelnen Terme, das werden nämlich elendig lange Zahlen, also zum Beispiel hier 6,25 Millionen. Spar ich mir mal. So, wenn man das jetzt alles komplett ausrechnet oder in den Taschenrechner eingibt, je nachdem, wie man es macht, kommt man auf ein Ergebnis für unseren  Block a, unseren Teil a, von 55.000. Also das arithmetische Mittel unserer verschiedenen Varianzen. Das war der leichte Teil. Gucken wir uns also unseren Teil b an. So. Wir haben also wieder 1 / den gesamten Stichprobenumfang, also 1/300 × eine Summe, also (. So, und jetzt haben wir hier [(xQuerj)-(xQuer ges)]^2. Das heißt, das arithmetische Mittel, unser j-en Beobachtung, - das gesamtarithmetische Mittel zum Quadrat, und das Ganze noch multipliziert mit dem Stichprobenumfang unserer j-en Beobachtung. So, konkret bedeutet das, machen wir hier einmal eine große eckige Klammer drum. Also. xQuerj oder jetzt xQuer1, unser erstes arithmetisches Mittel 3750- xQuer ges, steht hier, 3533,3. Das zum Quadrat und multipliziert mit dem Stichprobenumfang unserer ersten Beobachtung, also mit nx, hier 100. So, das ist der erste Teil. Das Ganze jetzt auch für y. Hier haben wir jetzt unser arithmetisches Mittel, steht hier, von (4100-3533,3)2 × den Stichprobenumfang für unser Unternehmen b, also ny, also 50 +, für unser letztes Unternehmen, unser arithmetisches Mittel liegt bei (3200-3533,3)2×150. So, eckige Klammer zu. Auch hier spare ich mir das Ausmultiplizieren. Dadurch, dass unser gesamtarithmetisches Mittel 3533,3 so krumm ist, wären natürlich auch die ganzen Quadrate hier krumm und dann würde das sehr krude aussehen. Ich geh mal direkt zum Ergebnis. Ihr könnt das ja Zuhause ganz in Ruhe in den Taschenrechner eingeben, nachrechnen, überhaupt kein Problem. Wir haben also b, haben wir 124.722,22. Gut, wir sehen also Teil b, die Varianz zwischen den Gruppen, ist deutlich größer als a, die Varianz innerhalb der Gruppen. So, unsere Gesamtvarianz können wir jetzt einmal hier zu unserem gesamtarithmetischen Mittel schreiben. Die Variation gesamt (Var ges) ist Teil a+b, also wir kommen auf ein Ergebnis von 124.722+55.000≈179.722. Ich lasse die Nachkommastellen jetzt einfach mal weg. Gut, jetzt kommen wir noch zu einigen Fragestellungen, die man damit vielleicht beantworten kann. Wenn man nun also die Gesamtvarianz ausgerechnet hat und die einzelnen Teile a und b, also die Varianz innerhalb der Gruppen und die Varianz zwischen den Gruppen, kann man natürlich noch fragen, wie viel Prozent der Gesamtvarianz entsteht durch die Varianz innerhalb der Gruppen oder zwischen den Gruppen. Genau das tun wir jetzt. So etwas könnte durchaus auch eine Klausurfrage sein, und ihr sollt doch dann auch wissen, wie man die beantwortet. So, es geht ja hier um Anteile. Wenn wir jetzt also unser Beispiel 1 nehmen: Wir wollen den Anteil der Varianz zwischen den Gruppen an der Gesamtvarianz wissen. D. h. wir nehmen unseren Teil, in diesem Fall a, weil uns ja die Varianz innerhalb der Gruppen interessiert, und teilen durch das Gesamte. D. h. was wir hier zur Beantwortung brauchen, ist nichts anderes als a/(a+b), d. h. der Teil, der uns interessiert / das Gesamte. So, das führt uns zu 55.000/179.722, also die Varianz innerhalb der Gruppen / die Gesamtvarianz und zu einem Anteil von ungefähr 0,31 oder auch 31 %. Wenn wir jetzt natürlich nach der Varianz zwischen den Gruppen gefragt werden, machen wir es im Prinzip genauso, nur dass wir dann halt b nehmen. Also für Beispiel 2 rechnen wir b/(a+b), also die Varianz wischen den Gruppen / die Gesamtvarianz. In unserem Fall macht das 124.722/179.722. Das macht ungefähr 69 % aus, oder als Anteil 0,69. Wenn man allerdings das Eine berechnet hat, also hier 0,31, muss man das Andere nicht mehr berechnen, weil die sich ja zu 1 ergeben müssen. Ein Anteil an der Gesamtvarianz kann entweder durch Varianz innerhalb der Gruppen oder durch Varianz zwischen den Gruppen entstehen. Andere Möglichkeiten gibt es da nicht. So, ich hoffe, ihr wisst jetzt alle, wie man bei mehreren Beobachtungen die Gesamtvarianz ausrechnet, wie man Variationskoeffizienten ausrechnet, wie man diese zu interpretieren hat, wie man auch solche inhaltlichen Fragen noch beantworten kann, welchen Anteil hat die Varianz zwischen den Gruppen. In unserem Fall einen mehr als doppelt so großen Anteil wie die Varianz innerhalb der Gruppen. Und ich hoffe, ihr kommt jetzt mit der Varianz klar und euch kann keine Frage mehr Schwierigkeiten bereiten. Damit schließen wir auch mit dem Thema Kennwerte ab, zumindest Kennwerte der Lage und Kennwerte der Streuung. Das war jetzt das letzte Video zur Varianz und im nächsten Video widmen wir uns dann einem ganz neuen Thema. Ich bedanke mich wie immer fürs Zuschauen, hoffe, es hat euch ein bisschen Spaß gemacht und sage tschüss.

Informationen zum Video