Textversion des Videos

Transkript Statistik Video 112: Richtige Wahl der Verteilung Übung I

Hallo, schön, dass ihr alle wieder zuguckt. Wir sind heute bei unserer ersten Übung zur richtigen Wahl der Verteilung. Das heißt, wir gucken uns jetzt Beispiele an, Aufgaben wie ihr sie auch in Klausuren sehen könntet und versuchen gemeinsam herauszufinden, wie unsere Zufallsvariable X verteilt ist und mit welchem Verteilungsparameter. Gucken wir uns doch einfach mal das erste Beispiel an. Eine Textaufgabe, wie sie oftmals gestellt wird, um die Studenten ein bisschen zu verwirren. Also, ein Fischer fährt jeden Tag aufs Meer hinaus. In einem Monat, also 30 Tagen, gehen ihm im Schnitt 15 Netze kaputt, soweit so gut. Jetzt ist unsere Zufallsvariable X definiert, als Anzahl der kaputten Netze pro Woche. Okay, pro Woche. Also in einem Intervall. Da müsste eigentlich schon mal was bei Euch klingeln. Auch hier in einem Monat oder im Schnitt, das deutet alles auf die Poissonverteilung hin. Wir haben einen Intervall angegeben, wir haben einen durchschnittlichen Wert angegeben, einen durchschnittlichen Wert an Erfolgen, wenn man das Mal so definieren will in diesem Intervall und natürlich hier eine klare Zahl. So okay, also es deutet alles auf die Poissonverteilung hin, das heißt, da könnte man sagen, X ist poissonverteilt. So, was wissen wir von der Poissonverteilung? Wir wissen, die Poissonverteilung hat einen Verteilungsparameter, nämlich Lambda. Lambda ist die erwartete Anzahl von Erfolgen im definierten Intervall. Unser definiertes Intervall ist hier eine Woche. So, unser Problem ist, wir haben kein Lambda für eine Woche angegeben. Also keinen erwarteten Wert an Erfolgen, sondern wir haben einen Wert von einer Intervalllänge von einem Monat angegeben. Okay, gucken wir also, wir haben in einem Monat 15 Netze, okay? Okay, können wir also schon mal durch 30 teilen, dann haben wir die durchschnittliche Anzahl von kaputten Netzen pro Tag. In welcher Intervalllänge? In einem Monat. Also in 30 Tagen. Okay, können wir also schon mal durch 30 teilen, dann haben wir die durchschnittliche Anzahl von kaputten Netzen pro Tag. Wir wissen ja, in 30 Tagen gehen 15 kaputt, also  pro Tag gehen dann, geht dann im Schnitt ½ Netz kaputt. Also, alle 2 Tage geht 1 Netz kaputt, im Schnitt. So, × unsere neue Intervalllänge, die wir jetzt haben, pro Woche. Okay, pro Woche, pro Woche ist jetzt nicht sehr genau. Jetzt könnte man sich natürlich fragen, hat die Woche bei ihm 7 Tage oder 5? Also müssen wir jetzt mit 7 multiplizieren oder mit 5? Da könnte man natürlich auch den Prof. fragen, ob er Euch die Frage beantwortet, aber das sei mal dahingestellt, weil es nämlich im Text gegeben ist. Hier steht, er fährt jeden Tag aufs Meer hinaus. Das heißt, Montag bis Sonntag, jeden Tag. Also 7-mal pro Woche. Also ×7. Das heißt, unser Lambda ist hier 3,5. Gut unser X ist demnach poissonverteilt mit 3,5. So einfach gehts. Einfach den Text mal aufmerksam lesen, gucken, welche Informationen wichtig sind und welche unwichtig. Also, dass er zum Beispiel ein Fischer ist und kein, was weiß ich, Händler oder Segelbootfahrer, ist erst mal unwichtig. Was ihm kaputt geht, ist eigentlich auch unwichtig, nur hier die Intervalllänge ist wichtig, 15 ist wichtig, hier die Intervalllänge ist wichtig. Also auf solche Kernaussagen sollte man besonders achten. Gut, das war das erste Beispiel. Machen wir doch direkt weiter. Gut, machen wir doch mal mit dem zweiten Beispiel weiter. Also, wir haben Schoko-Eier und in diesen Schoko-Eiern sind Figuren drin, die wir sammeln möchten, bzw. die Emie sammeln möchte. Und zwar sind ungefähr oder durchschnittlich in jedem 8. Ei ist eine Figur drin. So, Emie kauft jetzt jedes, 1 Jahr lang, jede Woche von seinem Taschengeld 1 Schoko-Ei. Und wir möchten jetzt als Zufallsvariable X wissen, die Anzahl der Eier mit Figuren innerhalb eines Jahres. Gut, gucken wir uns doch mal an, was so im Text steht. Also, Figuren in jedem 8. Ei. Aha, in jedem 8. Ei bedeutet, das ist so was wie eine Erfolgswahrscheinlichkeit. So, Emie kauft 1 Jahr lang, jede Woche ein Ei, das ist auch wichtig. Aha, in jedem 8. Ei bedeutet, das ist so was wie eine Erfolgswahrscheinlichkeit. Also in einem Jahr kauft er jede Woche etwas, also 52 Mal. So, wir haben hier anscheinend eine Anzahl von Versuchen. So, gut anscheinend 52 mit einer gewissen Erfolgswahrscheinlichkeit von 1/8. Wir gehen jetzt einfach mal davon aus, dass die Versuche unabhängig sind. Also im Prinzip, wenn Emie in der 1. Woche schon eine Figur findet, dann bleibt die Wahrscheinlichkeit, dass er in der 2. Woche auch eine Figur findet einfach mal gleich. Also in der Zeit, wo dann im Supermarkt, wo Emie seine ganze Schoko-Eier gekauft hat, wurde ein Mal die ganze Palette leer gekauft und dann eine neue dahin gestellt. Also die Wahrscheinlichkeit bleibt immer gleich. Da die Wahrscheinlichkeit immer gleich bleibt, haben wir unabhängige Versuche. Also sind wir offensichtlich bei der Binominal-Verteilung. Weil wir haben unabhängige Versuche, eine feste Erfolgswahrscheinlichkeit und mehr als einen Versuch. So, die Frage ist jetzt also, was sind unsere Verteilungsparameter? Wir brauchen ja N, die Anzahl der Versuche und pi, die Erfolgswahrscheinlichkeit. N, die Anzahl der Versuche. Jede Woche, ein Jahr lang und danach ist auch gefragt. Das ist vor allem wichtig, die Anzahl der Eier mit Figuren innerhalb eines Jahres. Wir wissen, dass er in diesem Jahr, jede Woche lang eine Figur kauft, also 52 Mal. Also ist unser N 52, wir haben 52 unabhängige Versuche und wir haben die Erfolgswahrscheinlichkeit. In jedem 8. Ei ist eine Figur. Das heißt, 1/8 ist hier unsere Erfolgswahrscheinlichkeit. Unser X ist also binomial verteilt mit 52 und 1/8. Modifizieren wir unser Beispiel doch mal ein klein wenig. So, im Prinzip das gleiche Beispiel, aber jetzt haben wir Figuren nur in jedem 100. Ei, also deutlich weniger. So, schreiben wir erst mal wieder X auf. X ist immer noch binomial verteilt, daran hat sich nichts geändert, wir haben immer noch unabhängige Versuche mit einer gewissen Erfolgswahrscheinlichkeit mit 52 und 0,01. So, wenn jetzt aber die Frage ist, wie ist X aproximaltiefverteilt, dann müsst ihr Euch das Ganze noch ein bisschen genauer angucken. Wir hatten ja mal besprochen, dass man auch die Binomialverteilung bei  einer sehr geringen Erfolgswahrscheinlichkeit approximieren, kann und zwar durch die Poissonverteilung, die oftmals deutlich einfacher ist. Zum einem hat sie nur einen Verteilungsparameter, zum anderen kann man die Verlei berechnen.  Wir haben hier eine sehr geringe Erfolgswahrscheinlichkeit von gerade mal 1%. Wir können also sagen, X ist approximativ, das ist ganz wichtig, weil X ist nicht genau poissonverteilt, aber approximativ ist X poissonverteilt mit Lambda. So, Lambda ist jetzt natürlich die Frage. Lambda war ja die erwartete Anzahl der Erfolge im gegebenem Intervall. Unser gegebenes Intervall war hier 1 Jahr und die Anzahl der Erfolge errechnet sich jetzt durch n×pi. Also, die Anzahl der Versuche × die Erfolgswahrscheinlichkeit. Also haben wir hier 52×0,01, also 0,52. Berechnen also in diesem Jahr mit 52% einer Figur oder anders gesagt, wir rechnen damit, dass wenn wir jede Woche 1 Ei kaufen, ungefähr nach 2 Jahren endlich mal 1 Figur finden. Lambda war ja die erwartete Anzahl der Erfolge im gegebenem Intervall. Gut, Beispiel 2. Machen wir doch direkt weiter. Okay, Beispiel 3, etwas länger. Also, Anton macht pro Semester 6 mal seinen Statistik 1 Kurs. So, würde ich Euch jetzt nicht empfehlen, aber gut. Aus Erfahrung weiß man, dass sein Professor das Fehlen eines Studenten in 25% der Fällen bemerkt. Wird Anton 3-mal erwischt, muss er den Kurs wiederholen. 1-mal pro Semester natürlich. Das heißt, dann war die ganze Arbeit umsonst, alle Vorlesungen, die er bisher gehört hat kann er, ja im Prinzip in die Tonne kloppen und muss zum nächstem Semester noch mal antreten. So, X ist jetzt die Anzahl der geschwänzten Vorlesungen bis Anton zum 3. Mal erwischt wird. Naja, die Anzahl der geschwänzten Vorlesungen. Hier ist also quasi nach der Anzahl der Versuche gefragt, nicht nach der Anzahl der Erfolge. Worauf führt uns das? Naja, da gibt es 2 Verteilungen, die infrage kämen. Zum einem die geometrische Verteilung, zum anderen die negative Binominal-Verteilung. Bei der einen wird nach den Versuchen des zum 1. Erfolg gefragt, wenn  man jetzt das erwischt werden als Erfolg definieren möchte, bei der 2. bis zum 1. Erfolg. Anscheinend sind wir also in der negativen Binomial-Verteilung. So, gucken wir uns mal die Kehrwende an. Also, Anton macht pro Semester 6-mal seinen Kurs blau. Ist das wichtig? Na, das wissen wir noch nicht. Erst mal nur markieren. Aus Erfahrung weiß man, dass sein Professor das Fehlen eines Studenten in 25% der Fälle bemerkt. Das scheint wichtig zu sein. Eine Erfolgswahrscheinlichkeit oder eine, ja Misserfolgswahrscheinlichkeit. So, wird Anton 3-mal erwischt, muss er den Kurs wiederholen. So hier, 3-mal. So, wir haben ja gesagt, okay anscheinend sind wir in der negativen Binomial-Verteilung. Die negative Binomial-Verteilung hat 2 Verteilungsparameter und zwar r und pi. r, ja bis zum wievielten? Bis zum 1. Erfolg, also nach wie vielen Erfolgen des Aktes und pi, die Erfolgswahrscheinlichkeit. X ist negativ binomial verteilt. So wonach ist jetzt gefragt? Der 1. Erfolg. Die 3 oder die 6? Na, wir wissen ja nur, dass er 6-mal pro Semester blau macht, das ist eine Tatsache. Die Frage ist jetzt, wie viele Versuche, wie viele Vorlesungen, die er blau macht, hat er bis zum 3. Mal bemerkt? Also, ist hier r=3. Also der 3. Erfolg. Erfolg wird jetzt mal definiert, dass der Prof. ihn erwischt, auch wenn viele von Euch das nicht als Erfolg sehen würden, aber so ist das jetzt definiert. Mit der Erfolgswahrscheinlichkeit, naja in 25% der Fällen erwischt der Prof. ihn. Also haben wir jedes 4. Mal einen Erfolg. So, also X ist negativ binomial verteilt mit 3 und 0,25. Zusatzfrage: Wie groß ist die Wahrscheinlichkeit, dass Anton seinen Kurs nicht wiederholen muss? Wir wollen das jetzt gar nicht ausrechnen, aber wenn das als Textaufgabe da steht, wie groß ist die Wahrscheinlichkeit, dass Anton seinen Kurs nicht wiederholen muss, wonach ist gefragt? Also P(X), naja Anton muss seinen Kurs dann nicht wiederholen, wenn er weniger als 3-mal erwischt wird, bei seinen 6 geschwänzten Statistik Prüfung, äh Vorlesung. Das heißt, wenn die Anzahl der Versuche, bis er zum 3. Mal erwischt wird, größer sind als 6. Also, wenn er in seinen ersten 6 geschwänzten Kursen nicht 3-mal erwischt wird. Wenn er weniger als 3-mal erwischt wird, dann kann er den Kurs zu Ende machen und er hat ihn bestanden oder was auch immer. Das heißt, die Frage ist, die Wahrscheinlichkeit, dass P, die Wahrscheinlichkeit P, dass X>6. Also dass er in den ersten 6 Versuchen weniger als 3-mal erwischt wird. Danach wäre hier gefragt. Ja, das war auch schon das erste Übungsvideo zur richtigen Wahl der Verteilung. Ihr seht, man muss sich den Text sehr aufmerksam durchlesen. Die wichtigen Kerndaten sich vielleicht auch rausschreiben und dann genau überlegen, wie ist unser X jetzt verteilt. Ja, ich bedanke mich fürs Zuschauen und sage bis zum nächsten Mal und tschüss.

Informationen zum Video