Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 100 - Hypergeometrische Verteilung

Guten Tag. Schön, dass ihr alle wieder zuguckt. Wir sind heute bei unserem neuen Video zur hypergeometrischen Verteilung. Das ist auch gleichzeitig das 100. Video unseres Statistik I - Kurses. Aber keine Angst, wir sind auch bald durch. Was genau ist die hypergeometrische Verteilung beziehungsweise, für welche Fragestellung wird sie benötigt? Ihr erinnert euch vielleicht, dass ich vor einigen Videos bei der Benuiverteilung schon mal gesagt hatte, wenn man sich das Ganze als ein Zugversuch aus einer Urne vorstellt, dann gibt es 2 Möglichkeiten: Entweder man zieht und man legt die Kugel, die man gezogen hat, wieder zurück, dann landet man bei der Binomialverteilung. Oder man zieht, und beim darauf folgenden Zug die Kugel nicht wieder zurücklegt, ändern sich natürlich die jeweiligen Wahrscheinlichkeiten. Und genau dann sind wir bei der hypergeometrischen Verteilung. Das wollen wir heute machen. Und wir gucken uns erstmal ein kleines Beispiel an: Wir definieren eine Zufallsvariable X und sagen, X sei die Anzahl der blauen Kugeln, die wir ziehen wollen. Also das definieren wir jetzt einfach mal für uns als Erfolg. Wir möchten wissen, wie viele blaue Kugeln wir ziehen. Und wir hatten ja bei der Binomialverteilung immer gesagt, Anzahl der, von mir aus, blauen Kugeln bei n unabhängigen Zügen. Und genau hier haben wir das Gegenteil, hier sagen wir halt bei n=2 abhängigen Zügen. Ihr könnt also im Prinzip anhand der Definition der Zufallsvariable schon erkennen, bin ich in einer Binomialverteilung, oder bin ich in der hypergeometrischen Verteilung. Also wenn es abhängige Züge sind, ohne Zurücklegen, sind wir in der hypergeometrischen Verteilung. Wenn es unabhängige Züge sind, dann lege ich die Kugeln wieder zurück und wir haben die Binomialverteilung. So, was uns jetzt interessiert, ist also die Wahrscheinlichkeit, dass wir 1 blaue Kugel ziehen bei 2 Zügen. Also wir ziehen 2×, und entweder ziehen wir am Anfang eine schwarze Kugel, dann sieht die Ausgangssituation für den 2. Zug so aus, oder wir ziehen im 1. Zug eine blaue Kugel, dann sieht das Ganze so aus. Wie schlägt sich das jetzt in der Wahrscheinlichkeit nieder? Wir haben ja gesagt, die Wahrscheinlichkeit ist immer die Anzahl der günstigen Fälle, geteilt durch die Anzahl aller Fälle. Und genau das ist das, was wir bei der hypergeometrischen Verteilung berechnen wollen. Wir wollen wissen, wie viele günstige Fälle gibt es und wie viele Fälle gibt es überhaupt. Wie viele günstige Fälle gibt es. Und jetzt seht ihr schon, wir sind wieder bei der Kombinatorik angelangt. Das heißt, wir müssen wissen, wie viele Möglichkeiten gibt es, wenn ich eine blaue in 2 Zügen ziehen will, diese anzuordnen. Also: Im Prinzip, entweder ziehe ich im 1. Zug die Blaue und im 2. Zug eine Schwarze, oder genau umgekehrt. Da gibt es 2 Fälle. Also für die blauen Kugeln 2 über 1 mögliche Fälle. Also in diesem Fall 2 Fälle, wie ich die blauen Kugeln ziehen kann. Und jetzt natürlich noch für die schwarzen Kugeln. Ich ziehe aus 2 blauen 1 heraus. Das impliziert natürlich, dass ich aus 3 schwarzen auch 1 herausziehe, weil wir ja 2 Züge haben. Ich habe im Prinzip einen Erfolg und einen Misserfolg. Also aus 2 blauen ziehe ich 1 und aus 3 schwarzen ziehe ich auch 1. Das sind multipliziert die Anzahl der möglichen Fälle. Wir gehen dabei davon aus, dass man die Kugeln untereinander auch unterscheiden kann. Und das teile ich jetzt durch die Anzahl aller Fälle. Und die Anzahl aller Fälle ist natürlich einfach Anzahl der Kugeln über Anzahl der Kugeln, die tatsächlich gezogen werden. Also 5 über 2 Kombinationen gibt es überhaupt, 2 Kugeln zu ziehen. Also ich könnte die beiden ziehen, oder die beiden, oder die beiden, oder die beiden, oder die beiden. Und das sind insgesamt 5 über 2 Fälle. Dann gucken wir uns das doch noch mal an: 2 über 1 bedeutet ja im Prinzip nichts anderes, als 2Fakultät/1Fakultät × (2-1)Fakultät. Und das Gleiche auch bei 3 über 1.Das ist 3Fakultät/1Fakultät ×(3-1)Fakultät. Geteilt durch 5 über 2, naja, 5Fakultät/2Fakultät×(5-2)Fakultät. Wenn ihr euch das nicht merken könnt, merkt euch einfach die Faustregel: Das was oben steht Fakultät durch das, was unten steht Fakultät, mal das, was oben steht minus das, was unten steht, auch noch mal zur Fakultät. Also, das was oben steht Fakultät durch das, was unten steht Fakultät, mal die Differenz von den beiden zur Fakultät. So, und das sieht jetzt erst mal mit den ganzen Fakultäten etwas kompliziert aus, ist aber ganz einfach. 2Fakultät bedeutet ja, 2×1, also 2. Und hier unten haben wir 1Fakultät und noch mal 1Fakultät, also 2/1, macht also 2. So, 3Fakultät, 3×2×1 sind 6. 1Fakultät ist eine 1, können wir also außer Acht lassen. 3-1Fakultät bedeutet, das ist 2Fakultät, also 2. Wir haben also 6/2, macht 3. So, und jetzt hier unten. 5Fakultät ist 5×4×3×2×1. Also 5×4 sind 20×3 sind 60×2 sind 120. Hier schreibe ich vielleicht noch mal einen Zwischenschritt mit auf. So, 2Fakultät ist natürlich 2, 2×1. Und wir haben ja gesagt, 5-2 sind 3Fakultät und das sind 6. Wir haben also 6/120, 2×6 sind 12, durch 10. Also 0,6. Die Wahrscheinlichkeit, dass wir also bei 2 abhängigen Zügen 1 blaue Kugel ziehen, liegt bei 60%. Und wir würden jetzt sagen: x ist hypergeometrisch verteilt. Und jetzt müssen wir natürlich gucken, welche Verteilungsparameter gibt es? Wie viele gibt es? Das 1., was offensichtlich wichtig ist, ist n, wie viele abhängige Züge gibt es? Also n. Dann ist wichtig, wie viele Kugeln mit dem von mir gesuchten Merkmal gibt es? Also hier, wie viele blaue Kugeln gibt es? 2. Das Ganze nennt man M. Also das sind die Kugeln mit dem von mir gesuchten Merkmal. Es müssen auch nicht immer Kugeln sein, aber das ist das klassische Beispiel, man zieht aus einer Urne. Man könnte zum Beispiel auch aus einem Korb Eier ziehen. Aber es ist auf jeden Fall das mit dem von mir gesuchten Merkmal. Und was noch wichtig ist, ist dann hier die 5, was für eine Grundgesamtheit habe ich tatsächlich, wie viele Kugeln habe ich insgesamt. Also N, das kennen wir schon. In diesem Fall also ist hypergeometrisch verteilt mit 2,2,5. Also 2× wird gezogen, 2 Kugeln haben das von mir gesuchte Merkmal und 5 Kugeln gibt es insgesamt. Gut, das als Beispiel zur Einführung. Gucken wir uns doch einmal die Theorie dahinter an, beziehungsweise die formale Definition. Ok, gucken wir uns das Ganze einmal formal an. Also wir haben eine Zufallsvariable X. X ist hypergeometrisch verteilt mit n, N und M. Dann ist die Wahrscheinlichkeit, das sich unsere Zufallsvariable X  zu einem Wert x realisiert, gleich M über x. Also die Anzahl der Elemente, die das von mir favorisierte Merkmal tragen, über die Anzahl der Erfolge, nach der gefragt wird × N-M, also die Anzahl aller Elemente - die Anzahl der Elemente, die das von mir favorisierte Merkmal tragen. Also im Prinzip die Elemente, die das Merkmal nicht tragen, über n-x, also Anzahl aller Versuche - Anzahl der Erfolge, also im Prinzip Anzahl der Misserfolge. Das heißt, wir haben hier die Elemente, die einen Erfolg darstellen über die Erfolge × die Elemente, die keinen Erfolg darstellen × die Misserfolge. Das Ganze wird multipliziert und geteilt durch N über n. Das heißt Anzahl aller Elemente über Anzahl der Versuche. Gut, das ist jetzt also die formale Definition der Wahrscheinlichkeitsfunktion, der hypergeometrischen Verteilung. Gucken wir uns doch einmal an, was für Werte x annehmen kann. x kann Element sein von, also was für Werte kann x annehmen. Kann x 0 zum Beispiel annehmen? Kein Erfolg? Ja, x kann 0 annehmen. Und x kann 1 annehmen und so weiter, bis n. Also bei n Versuchen, sagen wir 5 Versuchen, kann x natürlich, können maximal 5 Erfolge sein. Aber es können nur dann 5 Erfolgen sein, wenn ich auch mindestens 5 Kugeln habe, die einen Erfolg darstellen, da wir ja hier abhängige Züge betrachten. Das heißt, wenn ich 1, sagen wir blaue Kugel, ziehe und blau ist für mich ein Erfolg, dann ziehe ich sie und tue sie beiseite. Das heißt, die Erfolgswahrscheinlichkeit in meiner Urne hat sich verändert. Das ist die Grundidee von abhängigen Versuchen. Das heißt, das hier zählt nur, falls n<=M, also falls die Anzahl der Züge <= der Anzahl der Elemente mit dem von mir favorisierten Merkmal ist. Wenn ich 5 Züge habe, dann muss ich auch 5 Erfolgselemente haben, damit mein x auch tatsächlich die 5 annehmen kann. Wenn ich natürlich 5× ziehe und die blaue Kugel für mich einen Erfolg darstellt und ich habe nur 4 blaue Kugeln, kann ich auch in 5 Zügen nicht 5 Erfolge haben. Man definiert meistens den Normalfall und man sagt, im Normalfall ist n<=M und n ist zusätzlich noch <=n-M. Das wird oft als der Normalfall definiert, das heißt also, die Anzahl der Züge ist kleiner gleich der Anzahl der Elemente mit dem von mir favorisierten Merkmal M, also quasi den Erfolgselementen, und die Anzahl der Züge ist auch kleiner gleich den Misserfolgselementen. Mein Wertebereich für x wird nicht eingeschränkt. Ich kann sowohl n Erfolge erzielen, als auch n Misserfolge erzielen. Gut, das war jetzt also die theoretische Wahrscheinlichkeitsfunktion oder die formale Definition davon. Gucken wir uns doch mal den Erwartungswert und die Varianz an. So, den Erwartungswert und die Varianz der hypergeometrischen Verteilung. Gucken wir uns zuerst noch mal den Erwartungswert und die Varianz der Binomialverteilung an. Noch mal so als kleine Erinnerung, denn die haben einige Ähnlichkeiten. Also, wir erinnern uns: Der Erwartungswert der Binomialverteilung war n × Erfolgswahrscheinlichkeit, also n×p. Und die Varianz war n × Erfolgswahrscheinlichkeit × Misserfolgswahrscheinlichkeit, also n×p×(1-p). Und im Prinzip haben wir bei der hypergeometrischen Verteilung, obwohl wir abhängige Versuche haben, etwas sehr ähnliches. Also der Erwartungswert ist auch hier n × Erfolgswahrscheinlichkeit, also n×(M/N). Im Prinzip Anteil der Kugeln mit dem gesuchten Merkmal an allen Kugeln, hier ist ja der Anteil, mal Anzahl der Züge. Das ist der Erwartungswert. Die Varianz übernehmen wir auch erst mal von hier, also n × Erfolgswahrscheinlichkeit × Misserfolgswahrscheinlichkeit, hier haben wir die Erfolgswahrscheinlichkeit ja definiert, M/N, im 1. Versuch wohlgemerkt, aber nichtsdestotrotz die Erfolgswahrscheinlichkeit und auch hier haben wir natürlich einfach die Gegenwahrscheinlichkeit, die wir nehmen können. So, aber weil wir jetzt keine unabhängigen Versuche mehr haben, sondern abhängige Versuche, muss da natürlich noch ein Korrekturfaktor hin. Den nennt man auch tatsächlich Korrekturfaktor. Und der sagt, dass wir das Ganze noch mal mit (N-n)/(N-1) multiplizieren müssen. Also das hier ist der Korrekturfaktor, der daher kommt, dass wir diesmal abhängige Versuche haben, was sich in der Varianz niederschlägt. Hier der Korrekturfaktor. Und die Varianz hier ist ja im Prinzip genau wie die Varianz der Binomialverteilung. Jetzt haben wir also den Erwartungswert, die Varianz und die Wahrscheinlichkeitsfunktion. Jetzt natürlich noch die Frage, wie sieht es mit der Verteilungsfunktion aus? Ist die auch wieder wie bei der Binomialverteilung so schön tabelliert, dass wir sie einfach nur ablesen müssen? Nein, leider nicht. Für die hypergeometrische Verteilung ist die Verteilungsfunktion nicht tabelliert, das heißt, wir müssen sie tatsächlich von Hand ausrechnen. Wenn also gefragt wird, die Wahrscheinlichkeit von x<=1, dann müssen wir wohl in den sauren Apfel beißen und gucken, nach welchen Einzelwahrscheinlichkeiten ist gefragt und die dann wirklich summieren. Also, die Wahrscheinlichkeit von x=0 plus die Wahrscheinlichkeit von x=1. Und genau dieser Stand der Dinge, dass die Verteilungsfunktion nicht tabelliert ist, sondern per Hand ausgerechnet werden muss, führt uns auch noch zur nächsten Eigenschaft, die wir noch betrachten wollen, nämlich der Approximation. Gut, gucken wir uns also die Approximation an. Was bedeutet überhaupt Approximation? Also wir haben eine Zufallsvariable X und die ist hypergeometrisch verteilt mit n, N und M. Dann können wir unter bestimmten Umständen die Wahrscheinlichkeiten von X nicht über die hypergeometrische Verteilung berechnen, sondern über die Binomialverteilung. Warum wollen wir das machen? Naja, wir sehen ja schon, die Binomialverteilung hat erst einmal weniger Verteilungsparameter, nur 2 anstatt 3, und ist allgemein leichter zu berechnen, da wir auch von unabhängigen Zügen ausgehen. Wir müssen natürlich sagen, das haben wir nicht. Wir haben keine unabhängigen Züge in der hypergeometrischen Verteilung. In der Binomialverteilung gehen wir aber davon aus. Das heißt, um die  hypergeometrische Verteilung auf die Binomialverteilung approximieren zu dürfen, brauchen wir gewisse Voraussetzungen. Die Voraussetzung, die hier oft als Faustregel angewandt wird, vielleicht habt ihr eine andere, eine andere Größenordnung, aber die, die meistens benutzt wird, lautet: 20n<=N. Das heißt, wir haben eine sehr große Grundgesamtheit und einen relativ kleinen Stichprobenumfang. Also das bedeutet im Prinzip nichts anderes, als (n/N)<=0,05. Das heißt, aus unserer Grundgesamtheit N werden nur maximal 5% aller Elemente gezogen. Und da der Stichprobenumfang so klein ist, kann man also im Prinzip davon ausgehen, dass sich die Wahrscheinlichkeit kaum ändert. Also wenn ich, sagen wir, 100 Kugeln habe, 40 davon sind rot und 60 davon sind schwarz. Das heißt, wenn rot für mich einen Erfolg darstellt, habe ich beim 1. Zug eine Erfolgswahrscheinlichkeit von 40/100. Ziehe ich eine rote Kugel, habe ich im 2. Versuch eine Erfolgswahrscheinlichkeit von 39/99. Das heißt, es verändern sich die Wahrscheinlichkeiten kaum. Man kann approximativ von unabhängigen Versuchen ausgehen und dann das Ganze mit der Binomialverteilung berechnen. Die liefert dann ausreichend gute Ergebnisse. Hier haben wir natürlich die Verteilungsparameter n, also hier das gleiche n und p. p ist die Erfolgswahrscheinlichkeit und p ist dann der Anteil der Elemente mit dem von mir favorisierten Merkmal durch alle Elemente. Also in unserem Beispiel 40 rote Elemente durch 100 insgesamt, also 40/100. Also eine Erfolgswahrscheinlichkeit von 40%. Ja, das ist auch schon die Approximation. Sie kann sehr hilfreich sein, weil sie, wie gesagt, sehr viel einfacher zu berechnen ist. Wenn wir uns einmal die Binomialverteilung angucken, wie sie berechnet wird, sieht man auf den ersten Blick, dass es deutlich einfacher ist, als die hypergeometrische Verteilung. Ja, das war auch schon das Video zur hypergeometrischen Verteilung. Ich hoffe, ihr habt so weit alles verstanden, bedanke mich für das Zuschauen und sage bis zum nächsten Mal und tschüss.

Informationen zum Video
3 Kommentare
  1. Default

    Gibt es, ist aber gerade nicht online. Sollte bald wieder da sein, also einfach nochmal reinschauen.

    Von Statistik Jona, vor mehr als 4 Jahren
  2. Default

    Gibt es evt. eine Übung als Video 101?

    Von Deleted User 36276, vor mehr als 4 Jahren
  3. Default

    Das Video ist didaktisch sehr gut aufgebaut - keine Frage. Jedoch vermisse ich eine ausführlichere Erklärung, warum die Varianz einer hypergeometr. verteilten Zufallsvariablen n* M/N (1-M/N)*(N-n)/(N-1) lautet. Natürlich ist es (für das Lernen) sogar nützlicher, wenn man es intuitiv erklärt bekommt (anstatt stur in die Definition der Varianz einzusetzen), wie es ja im Video ein wenig angedeutet wurde, jedoch ist es m.A. nach zu unausführlich um die Varianzformel intuitiv zu verstehen. Vielleicht war dies ja auch nicht beabsichtigt, es wäre nur hilfreich dem Verständnis und bei späterer (eventuell beruflicher) Anwendung, daher meine Bemerkung.

    Von Elias L., vor mehr als 4 Jahren