Textversion des Videos

Transkript Statistik Video 21: empirische Varianz Übung

Hallo! Schön, dass ihr alle wieder zuguckt. Wir sind heute bei der Übung zur empirischen Varianz. Und dabei machen wir heute mal 2 Beispiele. Wir machen das einmal mit Verschiebungssatz und einmal ohne Verschiebungssatz, also von Hand. Wir fangen mal an ohne Verschiebungssatz. Unser Merkmal x hier, ist jetzt mal der monatliche Lohn in Euro. Und wir haben 10 Leute gefragt, das heißt, wir haben einen Stichprobenumfang n=10. Und ich hab das arithmetische Mittel unserer Stichprobe schon einmal ausgerechnet, das ist 2500. Wir haben hier unsere verschiedenen Ausprägungen, es sind 10 unterschiedliche Ausprägungen und unsere Formel für die Varianz. Wir erinnern uns, die Varianz ist ein Maß der Streuung und wir folgendermaßen berechnet: 1/n, also 1 durch den Stichprobenumfang mal die Summe der Beobachtungswerte minus das arithmetische Mittel zum Quadrat. Also die quadrierten Abstände vom arithmetischen Mittel geteilt durch ihren Stichprobenumfang. Wir haben jetzt hier also unsere Tabelle, wo wir die einzelnen Beobachtungen aufgeschrieben haben und haben noch 2 Spalten frei. Was machen wir jetzt als Erstes? Als Erstes gucken wir uns mal die Abstände an. Also xi-xquer. Unser x quer steht hier oben, 2500. Unser xi steht jeweils hier. Müssen wir also nur minus rechnen. Also 1750-2500=-750. Da müssen wir aufpassen, hier haben wir nämlich noch Vorzeichen, die ja später durch das Quadrat wegfallen, das war ja genau die Grundidee des Quadrierens. Aber hier müssen wir die Vorzeichen noch mitschreiben. So, jetzt haben wir 1900-2500=-600. 2000-2500=-500. So, und das machen wir jetzt hier für jedes, wir bilden einfach ganz normal die Differenz aus unserem Beobachtungswert und unserem arithmetischen Mittel. Dann sind wir hier bei 2850-2500, 2900-2500. So, das hier sind unsere Abstände vom c. Wir könnten das jetzt auch alles zusammenrechnen und unten eine Summe hinschreiben. Aber, wer aufgepasst hat, weiß, diese Summe ist immer 0. Deshalb müssen wir die Vorzeichen eliminieren, um die empirische Varianz zu bekommen. So, jetzt haben wir also schon einmal das. Wir haben jetzt also quasi gerade hier das Innere in der Klammer ausgerechnet. So, jetzt müssen wir das Ganze natürlich noch quadrieren. Das ist unsere 3. Spalte. Wir haben also xi-xquer2. Man kann das natürlich auch in einem Schritt machen. Also ich kann 1750-25002 rechnen, alles in einem Schritt. Ist ein bisschen komplizierter, deshalb ruhig langsam das Ganze angehen und noch mal einen Zwischenschritt machen, dass man hier zumindest schon einmal die Abstände hat, die man dann nur noch quadrieren muss. Also -17502=562500. So, das werden jetzt sehr große Zahlen, sind ja quadriert. -6002=360000. -5002=250000. -4002=160000. 01=0. So, also wir quadrieren jetzt alle Abstände, die wir vorher ausgerechnet haben, um am Ende daraus für unsere Varianz die Summe ausrechnen zu können. So, jetzt sind wir auch schon beim Vorletzten. 5002=250000 und 7002=490000. So, wenn ihr das nicht im Kopf rechnen könnt, nehmt einen Taschenrechner oder merkt euch einfach: Wenn wir zum Beispiel haben, 72, 7002, dann nehmt ihr die 7 zum Quadrat und rechnet dann noch 100×100 und hängt das als Nullen hintendran. Also quasi 72 und 2×2 Nullen, also 4 Nullen hintendran. 49 und 4 Nullen, 490000. So, jetzt haben wir hier alle quadrierten Abstände. So, jetzt müssen wir die natürlich auch noch aufsummieren. Machen wir hier also einen kleinen Zwischenschritt. Schreiben wir hier mal noch die Summe hin. Summe von i=1 bis n, xi-xquer1 ergibt in unserem Fall, wenn wir jetzt hier alles aufsummieren, also 562500+360000... bis wir hier unten bei 490000 sind, ergibt das 2445000. Das ist also die Summe aller quadrierten Abstände unserer Beobachtungswerte vom Mittelwert. Das ist aber noch nicht die Varianz. Zur Varianz fehlt hier noch 1/n, also das Ganze multipliziert mit 1 durch unseren Stichprobenumfang n, in unserem Fall 10. Wir haben also: S² unseres Merkmals x, da schreibt man oft hier unten noch ein x hin, wenn man mehrere Merkmale hat, verschiedene Varianzen ausrechnet. Da haben wir also (1/10)×2445000. Und damit eine Varianz S²x von 244500, also würde man sagen, doch schon eine recht große Streuung. So, das ist ja die Varianz. Jetzt haben wir im letzten Video neben der Varianz auch noch die Standardabweichung kennengelernt, die ja die Wurzel der Varianz ist, also quasi s. Können wir jetzt auch ausrechnen, Sx, die Standardabweichung wäre dann die Wurzel aus 244500. So, und das ist ungefähr 494,47. So, damit haben wir das 1. Beispiel auch abgehakt. Ihr habt gesehen, auch wenn wir gerade einmal 10 Beobachtungswerte haben, war das doch schon ein ganz schöner rechnerischer Aufwand. Wir mussten erst alle Abstände berechnen, dann mussten wir die alle quadrieren, dann mussten wir die alle aufsummieren, durch den Stichprobenumfang teilen und dann für die Standardabweichung sogar noch mal die Wurzel daraus ziehen. Also es war ein ziemlich großer Aufwand bei gerade einmal 10 Beobachtungswerten. 10 Beobachtungswerte sind wirklich nicht viel. Wenn man schon einmal eine Schulklasse fragt, hat man schon mal 30 Beobachtungswerte. Deshalb gucken wir uns einmal an, wie der Verschiebungssatz funktioniert und warum er das Rechnen mit der Varianz um einiges einfacher macht. Der Verschiebungssatz. Gerade, wenn man größere Datensätze hat, möchte man sich so wenig Arbeit wie möglich machen. Eigentlich möchte man sich immer so wenig Arbeit wie möglich machen. Deshalb sind irgendwelche schlauen Leute mal auf den Verschiebungssatz gekommen. Der Verschiebungssatz besagt, man kann die Varianz eines Merkmals auch so ausrechnen, indem man sagt: 1/n, ok, das kennen wir, das ist immer so, mal die Summe von i=1 bis n von xi2, also die quadrierten Beobachtungswerte, die Summe aller quadrierten Beobachtungswerte und dann zieht man am Ende noch einmal das quadrierte arithmetische Mittel ab. Wieso spart das Arbeit? Nun, wenn wir uns mal die ursprüngliche Varianz angucken und wir das, wie wir das ja gerade gemacht haben, in Tabellen aufzeichnen, brauchen wir ja quasi eine Spalte für die Abstände und eine Spalte für die quadrierten Abstände. Hier sparen wir uns also eine Spalte, weil wir nur noch die quadrierten Beobachtungswerte berechnen müssen und nicht mehr erst die Abstände und dann die quadrierten Abstände. Wir brauchen also nur die quadrierten Beobachtungswerte, unser arithmetisches Mittel und können damit schon per Verschiebungssatz unsere Varianz ausrechnen. Im nächsten Beispiel möchte ich mit euch die Varianz bei gruppierten Daten berechnen. Bei gruppierten Daten sieht das Ganze natürlich etwas anders aus, weil wir nicht mehr die Urdaten zur Verfügung haben. Wir haben nicht mehr jeden einzelnen Beobachtungswert, sondern nur noch unsere Gruppen mit den Häufigkeiten. Wie so oft, also wie auch beim arithmetischen Mittel, gehen wir jetzt also den Umweg über die Gruppenmitte. Unsere Varianz bei gruppierten Daten ist also 1/n, das haben wir immer, mal die Summe von j=1 bis k, also über alle Gruppen, die wir haben und jetzt haben wir halt hier, statt unseren Beobachtungswerten xi, unser mj, unsere Gruppenmitte minus xquer, unser arithmetisches Mittel, das bleibt also gleich. Diesen Abstand zum Quadrat und das Ganze multiplizieren wir dann mit der absoluten Häufigkeit der Gruppe. Das ist ja soweit eigentlich auch ganz logisch, wenn natürlich eine Gruppe 5 mal besetzt ist, müssen wir diesen Abstand, diesen quadrierten Abstand 5-mal berechnen, und wenn eine Gruppe 10-mal besetzt ist, müssen wir das 10-mal berechnen. Dazu kommt jetzt noch ein Beispiel. Und dann sollte die Varianz eigentlich im Sack sein. Schauen wir uns also mal folgendes Beispiel an. Unser Merkmal x ist die Anzahl von bestellten Waren. Sagen wir mal, wir haben ein Onlineversandhaus und dieses Versandhaus möchte eine Statistik veröffentlichen, wie viele Waren im Durchschnitt ein Kunde bei einem Bestellvorgang bestellt, und hat ein paar Daten gesammelt, also hat sich 50 Bestellvorgänge angeguckt, n=50. Und hat gesagt,ok, wir unterteilen das Ganze mal simpel in 3 Gruppen. Wir sagen, die 1. Gruppe 0 bis 4 Waren, die 2. 4 bis 8 und die 3. 8 bis 12 Waren. Dabei haben wir die absoluten Häufigkeiten H1, also in der Gruppe 0 bis 4 hatten wir 15 Bestellvorgänge, in der Gruppe 4 bis 8 25 und in der Gruppe 8 bis 12 10. Dann haben wir hier noch die Gruppenmitte. Die wir, wie wir gerade gesehen haben, brauchen, wenn wir die Varianz bei gruppierten Daten ausrechnen wollen. Ich hab hier unten auch nochmal die Formel für die Varianz bei gruppierten Daten aufgeschrieben. So, nun ist mir das aber mit dieser Formel zu viel Arbeit und deshalb möchte ich auch hier den Verschiebungssatz anwenden. Natürlich kann man den Verschiebungssatz nicht nur bei den ursprünglichen Daten anwenden, sondern auch bei gruppierten Daten. Man muss natürlich dabei ein bisschen umdenken und muss halt mj nehmen statt xi und die Summe läuft über einen anderen Laufindex. Aber im Prinzip sieht es gleich aus. Also unsere Varianz: über den Verschiebungssatz haben wir wieder 1/n, das wir immer haben, × die Summe von j=1 bis k, also über alle verschiedenen Gruppen. Und jetzt haben wir halt hier nicht xi2, sondern mj2×hj, also unsere quadrierte Gruppenmitte × der absoluten Häufigkeit dieser Gruppe, also wie oft das in die Varianz mit rein spielt. Und das Ganze minus xquer2. Ok, das sieht ganz gut aus. Damit können wir rechnen. Wichtig, da müsst ihr immer aufpassen, ist jetzt natürlich, bei dieser Schreibweise, dieses 1/n bezieht sich nur auf die Summe, das heißt, es geht im Prinzip nur bis zum hj. Ich mach da mal eine Klammer drum. So, das ist wichtig. Weil wenn ihr jetzt dieses 1/n auch noch auf das xquer2 bezieht, kommt natürlich ein falsches Ergebnis raus. Man sieht manchmal auch die Form, dass das 1/n sich auf die ganze Zeile bezieht und dann hier hinten noch ein n×xquer2 steht, um das Ganze wieder auszugleichen. Ich benutze diese Formel, am besten man setzt einfach immer eine Klammer, dann ist klar, was gemeint ist. Und man sollte sich auch nicht verrechnen. Gut, gucken wir uns also an, was wir brauchen. Wir brauchen, um die Varianz über den Verschiebungssatz auszurechnen oder auch mit der ursprünglichen Formel, brauchen wir erst einmal xquer. Also unser arithmetisches Mittel. Wir erinnern uns, unser arithmetisches Mittel bei gruppierten Daten war, ich schreib die Formel noch mal hier oben auf: xquer war 1/n×die Summe über alle Gruppen, also j=1 bis k, von mj×hj. Also die Gruppenmitte × die absolute Häufigkeit dieser Gruppe. Gut, die Formel haben wir, wir haben alle Daten, die wir brauchen. Wir haben unsere mjs, unsere Gruppenmitten, wir haben unsere hjs, die absoluten Häufigkeiten, können also jetzt unser xquer berechnen. xquer ist also in unserem Fall 1/50, unser n ist 50×( So, jetzt haben wir also mj×hj, also 2×15+6×25+10×10. Unser xquer=1/50, 2×15=30, 6×25=150, zusammen 180. Und 10×10=100, also (1/50)×280. Oder auch 5,6. Ok. Unser xquer=5,6. Erstes Ergebnis. Gucken wir also weiter, was brauchen wir noch? Aha, xquer reicht uns nicht, wir brauchen xquer2. Gut. xquer2=5,62 oder 31,36. Ok, haben wir jetzt also unser xquer2 abgehakt. Was uns jetzt noch fehlt, ist die Summe mj2×hj. Dafür brauchen wir erst einmal mj2. Gut. Berechnen wir das doch einfach. Ok, mj2 ist jetzt nicht so richtig schwer. Wir bauen hier einfach noch eine Spalte ein. mj2, unser m1 ist ja 2, also ist unser m12=22, also 4. Unser m2=6, unser m2 6×6=36. Unser m3=10, unser m32 ergo 102, also 100. Ok, machen wir also weiter. Was brauchen wir noch, um die Varianz zu berechnen? Wir brauchen erst einmal diese Summe. Die Summe über alle Gruppen von mj2×hj. Das rechnen wir jetzt auch erst mal gesondert aus. Also die Summe über alle Gruppen von mj2×hj. Gut, sollte eigentlich kein Problem sein. Wir haben also mj2, m12 ist 4, ×h1=15, 4×15+m2=36, h2=25, also 36×25 und m32=100, h3=10, also 100×10. So, das lässt sich ganz leicht ausrechnen, ist 1960. Das heißt, diese Summe, das hier haben wir betrachtet, die Summe mj2×hj=1960. Gut, und wenn wir das haben, haben wir jetzt im Prinzip alles, um unsere Varianz ausrechnen zu können. Unser Sx2=1/50× die Summe mj2×hj, haben wir genau hier berechnet, also ×1960-xquer2-31,36. Ja, wenn wir das jetzt also berechnen, kommen wir auf Sx2=7,84. Ok, schönes Ergebnis. Oft interessiert einen aber auch nicht nur die Varianz, sondern auch die Standardabweichung eines Merkmals, die Standardabweichung, wie wir uns erinnern, war ja die Wurzel der Varianz. Also Standardabweichung von Sx=\sqrt(7,84) oder auch 2,8. Ok, das war auch schon das Ende der Übung zur Varianz. Ihr habt gesehen, wie man die Varianz bei gruppierten Daten berechnet, wie man die Varianz mit dem Verschiebungssatz berechnet und damit sollte die Varianz eigentlich kein Problem mehr darstellen. Im nächsten Video kümmern wir uns noch einmal weiter um die Varianz, gucken, was der Variationskoeffizient ist, was man mit der Standardisierung und der Varianz anstellen kann, dazu gibt es dann auch noch einmal eine Übung und dann verlassen wir das Thema der Kennwerte der eindimensionalen Daten und begeben uns auf ein neues Themengebiet. Ich bedanke mich fürs Zuschauen, hoffe ihr habt einiges hieraus mitgenommen, freu mich aufs nächste Mal und sage tschüss!

Informationen zum Video
7 Kommentare
  1. Felix

    @Danielroseberlin:
    Die Standardabweichung bzw. die Varianz gibt an, wie stark die monatlichen Gehälter, um den Mittelwert von 2500 € streuen. Würde die Standardabweichung nahe bei 0 € liegen, dann verdient jeder aus der Stichprobe in etwa 2500 €. Der hier berechnete Wert von 494 € weicht schon deutlich davon ab, was man an der Bandbreite unterschiedlicher Gehälter erkennen kann, die von 1750 € bis 3200 € reichen.
    Ich hoffe, dass ich dir helfen konnte.
    Bei weiteren Fragen wende dich gerne an den Hausaufgaben-Chat, der Mo-Fr von 17-19 Uhr verfügbar ist.

    Von Martin Buettner, vor mehr als einem Jahr
  2. Default

    Wie interpretiere ich die 494 EUR genau im Beispiel (bei 6:56 Minuten im Vidoe)?

    Von Danielroseberlin, vor mehr als einem Jahr
  3. Default

    Problem gelöst

    Von A Schilowa, vor mehr als 2 Jahren
  4. Default

    Wenn ich den Verschiebungssatz am Bsp. Nr. 1 anwende komme ich nicht auf das selbe Ergebnis, woran kann das liegen?

    Von A Schilowa, vor mehr als 2 Jahren
  5. Default

    Punkt vor Strich - ich habs dann auch gemerkt... aber, merci für's schnelle Feedback

    Von Sselimovic, vor mehr als 3 Jahren
  1. Default

    Wichtig ist, dass xquer^2 außerhalb der Klammern steht. Das heißt, man rechnet zuerst 1/50 * 1960 (in diesem Besipiel) und zieht dann xquer^2 ab.

    Du hast das in deinem Fall anders gemacht: 1/50 * (1960-31,36)=38,57

    Richtig ist (1/50 * 1960) - 31,36 = 7,84

    Von Statistik Jona, vor mehr als 3 Jahren
  2. Default

    Wie kommst du auf 7,84? ich komme auf 38,57 - was mache ich falsch?

    Von Sselimovic, vor mehr als 3 Jahren
Mehr Kommentare