Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 75: Quantile

Guten Tag. Schön das Ihr alle wieder zuguckt. Wir sind heute bei unserem Video zu den Quantilen. Bisher war bei uns noch mal die Frage, über die Verteilungsfunktion, welche Wahrscheinlichkeit haben wir eine Realisierung ≤2 zu haben. Dann kam ein Prozentwert raus. In diesem Fall 20%. Was uns jetzt aber interessiert, ist die Frage genau anders rum zu stellen. D.h. wir geben einen Prozentwert vor (20%) und interessieren uns, wo dieser Wert liegt, der als letzter noch <20% bzw. wo die Verteilungsfunktion die 20% Marke knackt. Also wir wollen wissen, wo liegen z.B. die unteren 20%. Genau so eine Fragestellung hatten wir schon mal in der MPW nämlich mit den Quantilen. Da wurde dann gesagt, ok wir haben unsere Daten so und so und so verteilt, das sind die relativen Häufigkeiten, das ist die empirische Verteilungsfunktion. Wie viel Einkommen haben die ärmsten 20% maximal? Dann wurde bei den 20% gekuckt und der Funktionswert wurde abgelesen. Genau so machen wir das jetzt wieder auch. Wir benutzen die Quantile, um einen bestimmten Prozentsatz der Wahrscheinlichkeit herauszufiltern. Gucken wir uns das doch einfach mal plastisch in einem Beispiel, am P-Quantil an. Wir haben die Normalverteilung. Die Normalverteilung wird bei so etwas immer sehr gerne genommen, weil sie einige sehr schöne Eigenschaften hat. Wir wollen also jetzt hier das P-Quantil haben. Sagen wir, dass hier wäre unser P-Quantil und hier würden jetzt P%=0,3% der Wahrscheinlichkeitsmasse liegen. Dann ist also alles, was rechts davon liegt, der komplette andere Teil hat also die Masse von 1-p. Also in diesem Fall 0,7 oder 70% der Wahrscheinlichkeitsmasse liegt rechts von diesem Punkt. Das haben wir bei einer stetigen Zufallsvariablen und hier haben wir das Beispiel mit einer diskreten Zufallsvariablen. Auch hier können wir wieder unser P-Quantil uns angucken. Sagen wir hier wäre p bei 0,3 dann haben wir hier die Wahrscheinlichkeitsmasse von 1-p=0,7. Wenn wir jetzt nach dem P-Quantil fragen, dann fragen wir ja nach dem Punkt, wo unsere Verteilungsfunktion einen Wert ≥p annimmt. Das ist der kleinste Wert, wo unsere Verteilungsfunktion einen Wert ≥p annimmt. In diesem Fall Q(0,3), wenn wir jetzt fragen würden nach diesem Punkt, wo also 30% der Wahrscheinlichkeitsmasse erreicht sind, dann würden wir diesen Punkt als Antwort bekommen. Sagen wir mal das wäre hier -1. Das wäre also die Antwort auf die Frage: Wo  ist der Punkt wo unsere Wahrscheinlichkeitsmasse 30% erreicht? Antwort=-1. Genauso können wir jetzt auch im diskreten Fall fragen. Wo ist der kleinste Punkt, wo unsere Verteilungsfunktion zum ersten Mal ≥0,3? Aha, bei 1. Also wäre hier das Ergebnis=1. Wenn wir jetzt nach Q(0,7) fragen würden, würden wir gucken, wo ist der kleinste Punkt der Verteilungsfunktion, wo zum ersten Mal 0,7 oder mehr erreicht wird. Bei 0,7 wären wir hier. Bei 2 erreichen wir es noch nicht. Bei 3 wird direkt auf 1 gesprungen. 1≥0,7. Der kleinste Punkt, wo unsere Verteilungsfunktion ≥0,7 ist, ist also 3. Das ist also das P-Quantil von 0,7. Schauen wir uns doch einfach mal die formelle Definition an. Die Definition: Als Quantil der Ordnung (P-Quantil) Q wird ein Merkmalswert bezeichnet, unter dem ein Anteil p aller Fälle der Verteilung liegt. P liegt hierbei immer zwischen 0 und 1. Logisch, es müssen mindestens 0% aller Fälle unter p liegen und maximal 100% aller Fälle. Wenn wir uns also mal das Beispiel aus den letzten Videos angucken und hier eine Normalverteilung haben (das ist der Zeitraum, wann ein Auto kaputt geht) und wir fragen nach dem 0,2-Quantil (p=0,2) dann würden wir den x-Wert (= die Zeit, die die unteren 20% der Autos maximal durchhalten) herausbekommen. Wir erinnern uns an das Beispiel, wir hatten hier die Zeit, bis ein Auto ein Motorschaden hat. Wenn wir also nach p=0,2 fragen, dann bekommen wir die Zeit, die ein Auto die unteren 20% höchstens haben, bis ein Motorschaden auftritt. Wir haben jetzt auch eine Funktion s(^-1) von p. D.h. wir haben eine Funktion, wo wir p reingeben, also den Anteil den wir haben wollen und x rausbekommen. Das ist nichts anderes als die Umkehrfunktion unserer Verteilungsfunktion. Wenn wir als Verteilungsfunktion 1/27x3 haben (d.h. wir geben einen Punkt x rein und bekommen einen Anteil p heraus) und der Mittelpunkt liegt hier bei 1000, dann gebe ich hier den Wert 1000 ein. Dann müsste ich einen Anteil herausbekommen, der bei 0,5 liegt. Ich gebe also das hier ein und mir wird gesagt 50% der Autos geht vorher kaputt und 50% der Autos halten länger durch. Dazu sei gesagt, das hier ist eine Normalverteilung. Das hat natürlich eine andere Verteilungsfunktion als 1/27x3. Nur um das Ganze nochmal anschaulich zu machen, dass hier ist etwas, da gebe ich einen Punkt x rein und ich bekomme einen Anteil heraus. Der Anteil der links davon also darunter liegt. Wenn ich hiervon jetzt die Umkehrfunktion bilde, (die Umkehrfunktion wäre 3×dritte\sqrtp), dann habe ich eine Funktion, wo ich meinen Anteil p hineingebe und die Stelle x herausbekomme, wo der kleinste Wert ist, der ≥p. Das ist im Prinzip alles, was das aussagt. Also wenn ich meine Verteilungsfunktion habe und davon die Umkehrfunktion bilde, dann habe ich eine Funktion F^-1(p), wo ich einen Anteil hineingeben kann und einen an der Stelle x als Funktionswert herausbekommen kann, was manchmal sehr praktisch sein kann, wenn solche Sachen gefragt sind. Wo ist der Punkt, den die unteren 20% der Autos maximal noch erreichen, bevor sie kaputt gehen. So etwas könnte man mit dieser Funktion beantworten. Bestimmte Quantile kennt Ihr wie gesagt, alle schon aus der Empirie. Angefangen mit dem Meridian 50%. Der Wert, wo 50% darunter und 50% darüber liegen. Er wird hier oftmals mit µ Schlange bezeichnet. Allgemein werden in der Wahrscheinlichkeitsrechnung die Mittelwerte oftmals mit µ bezeichnet. Der Modus ist ja µ Kringel und das arithmetische Mittel ist nicht so wie in der Empirie µ Strich, sondern einfach nur µ. Also µ wäre dann das arithmetische Mittel. Die Quartile, also die Viertelwerte. Hier haben wir das untere Quartil, die unteren 25%, das obere Quartil, die oberen 25% oder die unteren 75% und natürlich noch den Median, also die 50%. Wie in der Empirie: das obere- das untere Quartil, bilden die mittleren 50% (oftmals ein interessanter Wert). Die Quintile, die Fünftelwerte 0,2; 0,4; 0,6 und 0,8. Die Dezile sind ja logischerweise die Zehntelwerte also 0,1; 0,2 bis 0,9 und es gibt noch das α-Fraktil. Das α-Fraktil ist in der Testtheorie sehr interessant. Die Theorie, die dort hinter steckt, ist, dass man eine Verteilung hat (ich nehme hier immer gerne die Normalverteilung. Mit der werdet ihr später immer sehr oft zutun haben) und man hat ein bestimmtes α-Fraktil. Das hat irgendeinen Wert α und dann ist das hier das 1-α-Quantil oder auch das α-Fraktil. Der Gegenwert zum α-Quantil wäre das α-Fraktil. Ist in der Pareto-Verteilung sehr interessant oder auch später bei der Testtheorie. Das war das Video zu den Quantilen in der Wahrscheinlichkeitsrechnung. Ich bedanke mich für das Zuschauen und hoffe Ihr guckt beim nächsten Mal auch zu und sage tschüss.

Informationen zum Video
1 Kommentar
  1. Default

    Hallo Jona,
    in meinem Skript finde ich keine Formel zur Berechnung von Quanteln. Dort steht nur:"Bei metrischer Merkmalsskalierung kann, analog zur Definition des Medians, eine eindeutige Bestimmbarkeit erreicht werden, wenn das arithmetische Mittel derjenigen zwei Merkmalsausprägungen herangezogen wird, zwischen denen das p-Quantil liegt. Das verstehe ich nicht. Kannst du mir das erklären?

    Von Kathrin Tellmann, vor fast 3 Jahren