Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 18: Quantile Übung

Hey, schön, dass ihr alle wieder zuguckt. Wir sind heute bei der Übung zu den Quantilen. Und weil wir beim letzten Mal gesagt haben, dass man sie auf 2 Arten bestimmen kann, rechnerisch und grafisch, machen wir heute beides. Wir fangen mal mit dem grafischen an. Ich habe hier mal den Graphen aufgezeichnet, also die empirische Verteilungsfunktion. Unser Merkmal X ist die Zeit, die jemand braucht, um einen Marathon zu laufen. Also 42 km, schon ein Stück. Wir sagen mal, wir haben 2000 Leute beobachtet, z. B. sagen wir mal den Berlin-Marathon, wenn da 2000 Leute mitlaufen. Und stellen uns jetzt einige Fragen hier. Wir fragen also zum Ersten:  Wie lange brauchen die schnellsten 10 % maximal? Was machen wir jetzt? Okay, wir gucken, 10 %, also gucken wir hier nach 0,1 was unsere 10 % markiert. Wir legen das hier also an, aha, 10 %, haben hier unseren Punkt, der 10 % markiert, und haben 2:30 als Zeit. Das heißt, die schnellsten 10 % der 2000 Läufer benötigen maximal 2 Stunden und 30 Minuten, um diesen Marathon zu laufen. Wonach wir jetzt in dieser Frage, in dieser Textfrage also explizit gefragt haben, ist unser Quartil X(0,1) oder auch unser erstes Dezil, wenn wir uns mal an die besonderen Quartile des letzten Videos erinnern. Und unser X(0,1) ist jetzt 2 Stunden und 30. Erste Frage beantwortet, kein Problem. Und zweite Frage. Wie lange brauchen die langsamsten 20 %. Mindestens, wenn wir nach den Langsamsten fragen, fragen wir natürlich nach der Untergrenze. Wonach gucken wir also? Wir wollen 20 % haben. Aber von oben, weil wir ja nach den Langsamsten suchen. Das heißt, wir suchen nicht jetzt bei f(x) nach unserer 0,2, sondern nach 0,8. Weil wir ja nach den Langsamsten suchen, das heißt, wir müssen quasi von oben 20 % abziehen und landen dann also bei 80 %. Was bedeutet das für unsere Fragestellung? Wenn da steht, wie lange benötigen die langsamsten 20 %, könnten wir genauso gut im Umkehrschluss fragen, wie lange benötigen die schnellsten 80 %? Das ist halt immer so ein Wechselspiel. Muss immer zusammen 1 ergeben in unserer kumulierten Häufigkeit. So, wir gucken also nach X(0,8), wir können halt X(0,2) von oben nicht ablesen. Also wir können jetzt nicht direkt ablesen, wo sind unsere langsamsten 20 %, sondern wir müssen uns von unten nähern. Also 0,8, gucken wir wieder nach, aha hier ist unser Punkt. Und hier unten, 5 Stunden. Das heißt, die langsamsten 20 % brauchen mindestens 5 Stunden, um diesen Marathon zu beenden. 5 Stunden. So, unsere dritte Frage. Wie lange benötigen die mittleren 50 %? So, jetzt müssen wir uns an das letzte Video erinnern, an unseren Boxplot, da hatten wir ja auch den Ausdruck, die mittleren 50 %. Und die mittleren 50 %, da ist nicht etwa nach X(0,5) gefragt, sondern da ist nach einem Intervall gefragt zwischen X(0,25), dem unteren Quartil und X(0,75), dem oberen Quartil. Das heißt, wonach hier gefragt ist, ist im Prinzip ein Bereich. Die mittleren 50 %, also dieser Hauptblock. Das heißt, gefragt ist nach X(0,25) und X(0,75), weil sich zwischen denen halt die mittleren 50 % aufteilen. Ja, jetzt können wir wieder in unserem Graphen nach X(0,25), also dem unteren Quantil, suchen. 0,25 hier ist 0,3, hier ist ungefähr 0,25, wenn wir jetzt von hier runtergehen, landen wir so bei ja 3 Stunden, hier sind 4 Stunden, vielleicht 3 Stunden 10 Minuten. Da sieht man mal wieder, wenn man das graphisch löst, ist es oftmals relativ ungenau, aber wenn von euch gefordert wird, ihr sollt das graphisch lösen, geht das halt nicht anders.  Also, X(0,25), unser unteres Quartil ist also 3 Stunden 10 Minuten. Unser oberes Quartil 0,75, gucken wir, hier wäre ungefähr 0,7 ja, 0,75, also irgendwo hier. Gehen wir wieder runter und sind so bei 4 Stunden, 4:30 vielleicht. Also ist unser oberes Quartil X(0,75) 4 Stunden und 30 Minuten. Was wir jetzt noch machen können, ist unseren Boxplot aufzeichnen. Wir wissen ja, der bestand aus 5 Daten. X(min), unser kleinster Wert, X(0,25) unser unteres Quartil, X(0,5), also unser Median, X(0,75) unser oberes Quartil und X(max), unser größter X-Wert. Haben wir eigentlich alles gegeben, bis auf unseren Median. X(0,5), suchen wir den also auch noch mal. X(0,5), können wir mal hier reingehen, zu 0,5. Aha, erhalten wir irgendwo hier, wenn wir jetzt hier runtergehen, sind wir so bei, ja was ist das, vielleicht 3 Stunden 40 Minuten. So, und damit können wir jetzt unseren Boxplot zeichnen und das machen wir jetzt auch. Wir fangen an mit unserem X(min). So, fangen wir hier an. Hier unten, hier befinden wir uns bei 2 Stunden. Okay? Unser X(max) am Ende 6 Stunden. So, das heißt, bei 3 Stunden 10 Minuten, sagen wir mal, hier wäre jetzt unser X(0,25), unser unteres Quartil, also 3 Stunden 10 Minuten. Da spannt sich unser Hauptblock auf die mittleren 50 %. So, die gehen bis 4 Stunden 30. So, hier wäre jetzt also unser X(0,75), bei 4:30. So, unser X Schlange, unser Median, liegt irgendwo dazwischen, bei 3 Stunden 40. Also 30 Minuten vom unteren Quartil entfernt und insgesamt 50 Minuten vom oberen Quartil entfernt. Also eher links. Ist jetzt natürlich alles ein bisschen aus der Hand, aber gut. Also sagen wir mal, hier liegt unser X quer, bei 3 Stunden 40 Minuten. So, dann zeichnen wir unseren Bloxpot nach rechts weiter, und zwar noch 1 1/2 Stunden lang. Also ist der rechte Ausläufer länger als der linke Ausläufer, der ja nur 1 Stunde und 10 Minuten war. Und sagen okay, hier ist unser X(max), als da wäre 6 Stunden. So, jetzt haben wir einige bestimmte Quantile graphisch bestimmt, alle Quartile berechnet, unseren Median berechnet und unseren Bloxpot gezeichnet. Als Nächstes machen wir das Ganze jetzt noch rechnerisch aus kopierten Daten. Okay, kommen wir also zu unserem Beispiel, um die Quartile zu berechnen. Wir haben also unser Merkmal X, das ist die Zeit, die ein Student zur Uni benötigt. Und wir haben 5 Gruppen: 0-10 Minuten, 10-25 Minuten, 25-60 Minuten, 60-90 Minuten und 90-120 Minuten. Wir haben dazu die absoluten Häufigkeiten, wir haben dazu die relativen Häufigkeiten, die kumulierten relativen Häufigkeiten und die Gruppenbreite. Wir erinnern uns, die Formel, um irgendein Quantil zu berechnen für x(p) war x(j-1,0), also die obere Grenze der vorherigen Gruppe, plus [p-F(xj-1,0)], also die kumulierte Häufigkeit der vorherigen Gruppe, mal bj÷fj, also die Gruppenbreite durch die relative Häufigkeit unserer Gruppe.  Wir wollen ja die Quartile berechnen, als da wären X(0,25), X(0,5() und X(0,75). Also fangen wir mal an mit X(0,25). Wir gucken also, in welcher Gruppe liegt X(0,25)? Wir sehen, die 1. Gruppe, da sind die ersten 5 % drin, okay, dann kommt die 2. Gruppe dazu, dann haben wir die ersten 20 % abgedeckt und dann kommt die 3. Gruppe, da sind die ersten 55 % drin. Also suchen wir in dieser Gruppe. Gucken wir also, wir haben xj-1,0, also die Obergrenze der vorherigen Gruppe. Die sind hier, also nehmen wir die vorherige Gruppe und davon die Obergrenze. 25+p, das Quantil was wir suchen, also 0,25 minus die kumulierte Häufigkeit der vorherigen Gruppe, also 0,2×bj, die Gruppenbreite unserer Gruppe, hier, 35÷fj, die relative Häufigkeit unserer Gruppe, 0,35. Also haben wir 25+0,05×100 oder auch 30. Unser unteres Quartil X(0,25) ist 30. Okay, machen wir weiter mit X(0,5) oder auch unser X Schlange, unser Median. Wir gucken wieder, aha, hier waren 20 %, hier waren 55 %, also bleiben wir in dieser Gruppe. Können also ein Großteil dieser Zeile übernehmen. Die obere Gruppengrenze der vorherigen Gruppe ist gleich geblieben. Das Quantil, was wir suchen, ist natürlich anders. Wir suchen jetzt nicht mehr 0,25, sondern 0,5. Aber wieder minus 0,2 und das hinten ist auch gleich geblieben. 35÷0,35. Wir haben also 25+0,3×100 oder auch 55.  Machen wir weiter mit unserem oberen Quantil, X(0,75). So, hier sind ja nur die unteren 55 % drin, also müssen wir zumindest eine Gruppe weitergehen. Hier sehen wir, sind die unteren 95 % schon abgedeckt, also sind wir jetzt in dieser Gruppe. So, wir fangen also an, die obere Grenze der vorherigen Gruppe ist 60+0,75 minus die kumulierte Häufigkeit der vorherigen Gruppe, 0,55×Gruppenbreite÷Gruppenhäufigkeit. Also 30÷0,4. Das macht 60+0,2×75. Und das gibt uns einen Wert von X(0,75)=75. So, jetzt haben wir also im Prinzip alle nötigen Daten, um daraus auch einen Boxplot zu zeichnen. Also, wir fangen irgendwo an bei 0. Und wir gehen weiter bis 120. So, sagen wir mal, das hier ist unsere Spannweite, also liegt hier 120, hier liegt 60. So. Wir haben hier unser X(min) und hier unser X(max) und wollen jetzt unseren Boxplot einzeichnen, also zeichnen wir noch ein das untere Quartil, das arithmetische Mittel und das obere Quartil. So, das untere Quartil ist 30, liegt also ungefähr hier, 30. Also das hier ist das untere Quartil X(0,25). Das obere Quartil 75. Vielleicht gucken wir mal, hier ist die Mitte, also wäre hier ungefähr 90. So, dann wäre hier 75. Also X(0,75) und zwischen unserem unteren Quartil und unserem oberen Quartil, das wissen wir, liegt der zentrale Datenkörper. Können wir hier mal einzeichnen, so. Hier liegen die mittleren 50 % drin. Und genau hier rein zeichnen wir jetzt noch unseren Median, unseren X Schlange, der bei 55 liegt. So, hier wäre 45, also ist hier ungefähr 55. Unser X Schlange.  Gut, damit haben wir jetzt gezeigt, wie man Quartile berechnet, wie man den Median berechnet, wie man daraus auch einen Boxplot zeichnet. Das sollte also in Zukunft kein Problem mehr für euch sein.                             

Informationen zum Video
4 Kommentare
  1. Default

    Also bis auf g und x sehe ich keinen Unterschied in den Formeln.

    Ich benutze x, weil ich ja einen x-Wert einsetze. D.h. xj-1 o bedeutet, die obere Grenze des j-1ten Gruppe (im 1. Beispiel 25).

    Ich denke mal bei euch würde g dann für Gruppe stehen. Da aber auf jeden Fall immer die Obergrenze eingesetzt werden sollte, müsste auch das gleiche rauskommen.

    In der Statistik ist es leider häufig so, dass die Notation nicht exakt geklärt ist. Manche bezeichnen es so, andere so. Also nicht dran stören, solange dasselbe rauskommt ist alles prima.

    Von Statistik Jona, vor mehr als 3 Jahren
  2. Default

    Hallo Jona, ich habe in meiner Formelsammlung bei gruppierten Daten für die rechnerische Formel : xp = gj-1 + [p - F(gj-1)]*bj/fj . Du hast statt g eine x verwendet. Was wäre der Unterschied zw. g und x? Vielen vielen Dank übrigens für die nette Erklärung. Du bist super!

    Von Häna K., vor mehr als 3 Jahren
  3. Default

    Was steht denn in deiner Formelsammlung genau drin?

    Von Statistik Jona, vor fast 4 Jahren
  4. Default

    In meiner Formelsammlung steht eine andere Formel und es kommt auch was anderes raus

    Von Anna Sartor, vor fast 4 Jahren