Textversion des Videos

Transkript Statistik Video 17: Quantile

Tag! Nachdem wir ja im letzten Video unseren großen Block mit den Mittelwerten abgeschlossen haben, kommen wir jetzt zu weiteren Kennwerten. Heute betrachten wir vor allem die Quantile. Wir hatten ja bei den Mittelwerten unseren Median. Das war der Wert, der die Rangreihe genau halbiert. Anders gesprochen: Das war der Wert, an dessen Stelle 50% der Daten ≤ x, also ≤ unserem Median waren. Was wir jetzt bei den Quantilen suchen, ist die Stelle x, an der p×100% der Daten kleiner sind als x, für jedes p zwischen 0 und 1. Das heißt, wir können eine Stelle suchen, wo 30% der Daten kleiner sind als unser x. Dieses xp nennt man dann auch das empirische p-Quantil. Wenn wir jetzt uns das mal angucken, unser Median xSchlange ist somit nichts anderes als unser p-Quantil von 0,5, also x0,5, weil ja genau p (0,5)×100%, also 50% der Daten, kleiner sind als unser Median, also x. Es gibt 2 Möglichkeiten, unser empirisches p-Quantil zu bestimmen: grafisch und rechnerisch. Ich zeige beide. Fangen wir mal mit dem Grafischen an. Wenn wir jetzt also unser empirisches p-Quantil grafisch bestimmen wollen, brauchen wir erst einmal die empirische Verteilungsfunktion. Die haben wir hier, d. h. wir haben auf der x-Achse unsere Merkmalsausprägung x aufgetragen und auf der y-Achse haben wir die kumulierte Häufigkeit F(x) aufgetragen. Und unser xp ist jetzt der kleinste Wert x, für den gilt: Unsere kumulierte Häufigkeit F(x)≥ p. Sagen wir mal, wir wollen jetzt p von 0,3 haben, also p=0,3. Das heißt, wir sagen okay, F(x) soll auch 0,3 sein. Wir haben hier 0,5, dann haben wir hier 0,3. So, gehen also rüber und sagen okay, hier haben wir auch 0,3, d. h. ist der kleinste x-Wert, für den unsere kumulierte Häufigkeit F(x) größer oder gleich 0,3 ist, gleich unserem p. Das heißt das hier ist unser x von 0,3. Also nicht xp, sondern wir können es sogar noch konkretisieren, x von 0,3. Wenn jetzt unser p 0,5 wäre, würden wir hier bei 0,5 gucken, würden ungefähr hier landen. Wenn wir von hier dann wieder runtergehen, hätten wir hier unser x von 0,5, und das ist ja genau unser Median, also xSchlange. Ihr seht sicher schon, was das Problem ist, wenn man es grafisch bestimmt. Es ist, wie so oft, wenn man irgendetwas aus einer Grafik abliest, relativ ungenau. Deshalb sollte man es, wenn möglich, rechnerisch bestimmen. Das ist zwar deutlich aufwendiger, aber natürlich auch deutlich genauer als wenn man es einfach ungefähr aus irgendeiner Grafik abliest, weil man kann ja noch so bemüht zeichnen, auch dieser Graph beruht ja auf einer Annahme, und zwar auf der Annahme, dass die Daten in den Gruppen exakt gleichmäßig verteilt sind, weil wir diesen Graphen ja sowieso nur zeichnen dürfen, wenn wir gruppierte Daten haben. Deshalb gucken wir uns jetzt einmal an, wie das Ganze rechnerisch funktioniert. Wenn wir jetzt das empirische p-Quantil rechnerisch ermitteln wollen, dann wird uns erst mal eine relativ krude Formel gegeben. Wir haben also xp (unser empirisches p-Quantil)=xj-1 oben (d. h. die obere Grenze der Gruppe, in der unser p-Quantil nicht liegt)+p-F(xj-1) oben (d. h. p, unser Wert, den wir haben wollen, minus die kumulierte Häufigkeit der letzten Gruppe, in der unser p nicht mehr liegt) ×bj/fj (d. h. die Gruppenbreite der Gruppe, in die unser p-Quantil fällt / die relative Häufigkeit dieser Gruppe. Das Ganze erinnert uns doch stark an die Formel, wie wir unseren Median aus gruppierten Daten exakt berechnet haben. Es ist im Prinzip auch fast das Gleiche. Auch da hatten wir die obere Gruppengrenze der vorherigen Gruppe, und dann war da auch unsere Gruppenbreite drin, da haben wir dann mit der absoluten Häufigkeit gerechnet statt mit der relativen Häufigkeit, aber es sah doch alles sehr ähnlich aus. Wir machen einfach mal dieses Beispiel. Wir haben 3 Gruppen: 0-10, 10-30 und 30-60 mit den relativen Häufigkeiten 0,15, 0,25 und 0,6. Und unser Ziel ist, wir wollen x von 0,3 wissen. So, das ist unser Ziel. Gucken wir erst mal, 0,3 - 30% der Daten sollen also kleiner sein. In welche Gruppe fällt das also? Die 1. Gruppe geht von 0-0,15, also da sind die 1. 15% drin. Unsere 2. Gruppe geht von 0,15-0,4, d. h. die 30%-Marke ist irgendwo in der 2. Gruppe, d. h. wir müssen in dieser Gruppe suchen. Und jetzt können wir anfangen zu rechnen. xp, also unser x von 0,3, das, was uns interessiert, ist xj-1 oben, d. h. die obere Grenze der vorherigen Gruppe. Also, wir sind in dieser Gruppe drin, das ist die vorherige Gruppe, die obere Grenze 10. Also 10+p (p ist bei uns 0,3, weil uns die 1. 30% interessieren) -F von xj-1 oben, d. h. die kumulierte Häufigkeit der vorherigen Gruppe, also 0,15 (0,3-0,15), und das Ganze ×bj/fj. Bj (habe ich gleich mit angeschrieben) unserer Gruppe, diesmal geht es um unsere Gruppe, nicht um die vorherige Gruppe, 20/die relative Häufigkeit unserer Gruppe, und zwar nicht die kumulierte, sondern die normale, relative Häufigkeit, d. h. wir sagen 20/0,25. So, und jetzt haben wir alles, was wir brauchen und müssen das nur noch ausrechnen. Unser x0,3 ist also 10+ (0,3-0,15 ist) 0,15× (20/0,25 ist) 80. Also x0,3 ist in diesem Fall 22. Was heißt das für uns? Das heißt, an der Stelle x=22, das ist der kleinste Wert, wo 30% der Daten links davon liegen. Das heißt, 30% unserer Daten, die wir hier haben, sind ≤ 22. Interessant zu wissen bei ziemlich vielen Fragestellungen.

Als nächstes schauen wir uns jetzt mal bestimmte Quantile an, die einen so interessieren könnten. Es gibt ein paar Quantile, die sind besonders, also wichtiger als andere, und da gibt es genau 2 Hauptgruppen: Es gibt die Decile und die Quartile.

Decile sind also alle Quantile, in den genau 10er-Schritten, also 10%, 20%, 30%, bis 90%. Warum nicht bis 100%? Naja, ich meine, der kleinste x-Wert an dem alle, also 100% der Daten, kleiner sind als dieser x-Wert, ist logischerweise unser größter x-Wert, also xmax, ist also trivial. Also x0,1 bis x0,9 sind unsere Decile.

Dann gibt es noch unsere Quartile. Davon gibt es genau 3 Stück, nämlich immer im Vierteltakt geht man quasi weiter, also x0,25, x0,5 und x0,75, also 25%, 50%, 75%. Unser x0,5 ist natürlich unser Median. Unser x0,25, das wird auch oft unteres Quartil genannt, und unser x0,75 wird dazu natürlich oberes Quartil genannt. Wofür macht man das jetzt? Man will, wenn man die Quantile berechnet, oder insbesondere, wenn man die Quartile berechnet, wissen, wo liegen diese einzelnen Werte, d. h. wie sind die Daten verteilt, wo liegen mehr Daten als woanders? Ich werde euch gleich zeigen, das kann man sehr schön grafisch aufbereiten, aber, bevor wir das machen, müssen wir erst noch 2 weitere Begriffe einführen und dann können wir das Ganze in einer einzigen Grafik sehr schön zusammenfassen.

Bevor wir das Ganze jetzt also in einem sogenannten Boxplot perfekt grafisch aufbereiten können, muss ich noch 2 Begriffe einführen, und zwar einmal den Quartilsabstand, das ist also der Wert des oberen Quartils, minus der Wert des unteren Quartils, d. h. das ist der Bereich, in dem die mittleren 50% der Daten liegen. Das ist immer besonders interessant, die mittleren 50%, weil da halt die Ausreißer in die eine oder andere Richtung genau nicht drin sind, sondern es ist quasi der Hauptkörper der Daten sagt man oft. Und zum anderen die Spannweite, das ist halt komplett, wie weit liegt der kleinste Wert von dem größten Wert entfernt. Das ist auch immer interessant zu wissen, in welchen Bereich bewegen sich überhaupt all meine Daten? Das sind 2 Kennwerte der Streuung, d. h. wie kompakt sind unsere Daten, oder wie verstreut sind vielleicht auch unsere Daten, und dazu werde ich in näherer Zukunft noch einmal mehr erzählen, wenn es dann um die Varianz geht. Aber zunächst einmal merken wir uns den Quartilsabstand, also oberes Quartil minus unteres Quartil, und die Spannweite, also xmax, unsere größte Beobachtung, minus xmin, unsere kleinste Beobachtung, also wie groß ist der Bereich, auf dem alle meine Daten liegen?

Wenn wir dann alle diese Daten haben, können wir einen sogenannten Boxplot zeichnen. So, was zeichnen wir ein? Wir fangen an bei unserem kleinsten x-Wert, xmin, gehen weiter bis zu unserem unteren Quartil x0,25. Da startet dann der Hauptkörper der Daten und der geht bis x0,75. Also die mittleren 50% der Daten sind in diesem Hauptkörper. In den zeichnen wir dann auch ein, wo der Median liegt. Der muss ja nicht immer in der Mitte liegen, sondern es könnte ja auch sein, dass der näher an 0,25 oder an 0,75 liegt. Dann hört dieser Hauptkörper auf und wir gehen also nach rechts bis zu unserem xmax, also unserem größten x-Wert.

Gucken wir uns das mal an einem Beispiel an, ich habe das Beispiel hier von gerade genommen. Wir haben also wieder unsere 3 Gruppen, 0-10, 10-30, 30-60 mit den relativen Häufigkeiten 0,15, 0,25 und 0,6. Wir haben jetzt also unsere Werte x0,25= in diesem Fall 18 (ihr müsstet ja wissen, wie man das ausrechnet, das habe ich ja vorhin schon gezeigt, ist vielleicht eine gute Übung, das selber nochmal von Hand auszurechnen anhand der Formel mit diesen Daten). x0,5, also xSchlange, unser Median, = in diesem Fall 35 und x0,75=47,5.

So, aus diesen Daten wollen wir jetzt unseren Boxplot zeichnen. Machen wir auch einfach mal, dazu nehme ich dieses Beispiel mal einfach weg. So, und wir zeichnen das ein. Also wir fangen an bei xmin, unsere Datenreihe fängt an bei 0, also ist hier 0. So, dann gehen wir weiter bis zu unserem unteren Quartil, bis zu 18, sagen wir mal okay, hier wäre jetzt 18. Und jetzt spannen wir also diesen Hauptkörper auf, und der ist ganz schön breit, der geht nämlich bis 47,5, also der ist fast 30 breit. Wenn das jetzt 18 war, müssen wir natürlich eine Relation setzen, also es ist schon deutlich länger. So, sagen wir mal, hier ist 47,5. Und dann gehen wir weiter, gar nicht mal so weit, bis zu unserem xmax, also 60. Jetzt gucken wir, unser x0,5 liegt ja auch irgendwo da drin - liegt es eher links oder eher rechts. Okay, wir wissen, es ist bei 35, ist also 17 von x0,25 entfernt und 12,5 von x0,75, liegt also eher rechts. Sagen wir mal, es liegt hier. Hier wäre jetzt 35.

So, beschriften wir das Ganze noch, damit keine Unklarheiten entstehen. Die 0 ist also unser xmin, die 18 ist unser unteres Quartil, also x0,25, das hier ist unser Median, also unser x0,5, 47,5 ist unser oberes Quartil, also x0,75, und die 60 ist hier unser xmax.

So, was haben wir jetzt noch hier drin? Wir haben ja diesen Abstand von x0,25 bis x0,75 und das ist hier genau unser Quartilsabstand. Und dann haben wir ja noch hier die komplette Breite (zeichnen wir mal hier oben ein) von hier bis hier, und genau diese Breite, in unserem Fall 60, ist unsere Spannweite. Dafür brauchten wir also diese beiden Begriffe und das sind sogenannte Kennwerte der Streuung.

Im nächsten Video machen wir auch noch eine Übung zu Quantilen und dann auch zu Decilen und natürlich auch zu den Quartilen und zum Boxplot. Und wer jetzt noch nicht alles verstanden hat, kein Problem, es gibt noch eine Übung und da sollte dann alles klar werden.

Ich bedanke mich wie immer fürs Zuschauen, freue mich aufs nächste Mal und tschüss.

Informationen zum Video
4 Kommentare
  1. Default

    Das Video hakt bei 13:32 min

    Von Ho Me28681, vor mehr als 2 Jahren
  2. Default

    Meine Frage hat sich erledigt! Ich hab die Antwort herausgefunden.
    Trotzdem Danke!

    Von Ulike, vor fast 4 Jahren
  3. Default

    Ich habe eine Frage:
    Wie erhalte ich x an der Stelle 0,75=47,5? Dieser Wert liegt ja über den Werten, die in der Tabelle angegeben sind. Ich hoffe mir kann jemand weiter helfen! Vielen Dank im Voraus!

    Von Ulike, vor fast 4 Jahren
  4. Passbild%20cdb

    Eien kurze, präzise und leicht verständliche Darstellung, herzlichen Dank!

    Von Christian D., vor fast 5 Jahren