Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik II - Video 6: Chi-Quadrat-Verteilung

Herzlich willkommen zusammen. Schön, dass ihr wieder da seid. Ja, wir fahren fort mit unserer Veranstaltung zu den speziellen stetigen Wahrscheinlichkeitsverteilungen. Heute steht auf dem Programm die Chi-Quadrat-Verteilung. Nun, wie immer werden wir uns zunächst den Anwendungsbereich anschauen, dann die formale Definition kennenlernen und zum Ende hin noch ein Beispiel behandeln, damit die Sache sich auch ein wenig festigt und wir ein besseres Verständnis dafür haben, wo denn die Verteilung letztendlich zum Einsatz kommt und in welcher Form. Ja, zunächst zur χ2-Verteilung lässt sich Folgendes sagen: Wir befinden uns ja allgemein im Themengebiet induktive Statistik, das heißt wir werden uns auch später mit Schätz- und Testverfahren beschäftigen. In dem Fall haben wir dann eine beispielsweise unbekannte Grundgesamtheit und müssen darüber Thesen aufstellen, die es dann gilt zu widerlegen, aufgrund von Stichproben. Nun, speziell in diesem Fall ist die χ2-Verteilung sehr häufig verwendet, deswegen wird sie auch beispielsweise als statistische Prüfverteilung genannt. Wir erinnern uns: Wir haben bereits die Exponentialverteilung kennengelernt. Sie wurde als Wartezeitverteilung benannt und die χ2-Verteilung nun somit als statistische Prüfverteilung. Ja, dann schauen wirs uns doch einmal an. Zunächst ist auffällig, dass wir hier einen asymmetrischen Verlauf haben um einen bestimmten Wert. Nun, wie alle Wahrscheinlichkeitsverteilungen, so hat auch die χ2-Verteilung mehrere Verteilungen. Das hier ist die Verteilung, die Dichte, um die Verteilungsfunktion für den Parameter ν=5. ν haben wir noch nicht kennengelernt, kommt gleich in der formalen Definition. Merkt euch nur so viel vorab: Das ist der einzige Parameter der χ2-Verteilung. Zurück zum Verlauf. Also wir sahen einen asymmetrischen Verlauf, wir sehen auch nur für positive Werte. Der Verlauf ist selbstverständlich stetig, da wir uns ja mit den stetigen Wahrscheinlichkeitsverteilungen beschäftigen. Ja, so viel dann zur Dichtefunktion. Die entsprechenden Wahrscheinlichkeitsdichten für die Merkmale x haben wir hier gegeben und wie gehabt: Die Verteilungsfunktion nähert sich dem Wert =1. So, nachdem wir nun den Anwendungsbereich und den Graphen kennengelernt haben zur χ2-Verteilung, schauen wir uns mal die formale Definition an. Was ist die Ausgangsbasis? Wir haben abermals Zufallsvariablen xi. In diesem Fall sollen die N(0; 1)-verteilt sein. Was heißt das? Läuten mittlerweile bei uns die Alarmglocken, wir wissen, das ist hier Standardnormalverteilung. Ja, diese standardnormal verteilten Zufallsvariablen sollen stochastisch unabhängig verteilt sein. Das ist auch eine grundlegende Voraussetzung für diese weiteren Verteilungen. Und wenn wir diese Zufallsvariablen gegeben haben, können wir die beispielsweise in dieser Form quadriert aufsummieren. Das heißt, wir nehmen jede einzelne Zufallsvariable von, also das ist ja hier der Index, 1, 2 bis n - der ergibt sich hier aus xi, i nimmt eben die Werte 0 bis n an - hier haben wir also y2=x12+x22 und so weiter. Können wir aufsummieren bis xn2. Und diese Summe der quadrierten Zufallsvariablen ergibt dann eine χ2-Verteilung. Was bedeutet das letztendlich? Wir haben dann unter anderem die Parameter, die wir hier haben, mit Erwartungswert und Varianz, haben wir umgeformt in den einzigen Parameter der χ2-Verteilung, das ist ν, und zwar die Anzahl der Freiheitsgrade. Also ganz wichtig, merken wir uns: Die χ2-Verteilung hat genau einen einzigen Parameter, und dieser Parameter lautet ν und stellt die Anzahl der Freiheitsgrade dar. Wir wissen ja wie gehabt, dass es eine ganze Familie von Verteilungen gibt. Wir hatten gerade den Graphen kennengelernt für den Wert ν=5. So, dementsprechend, das müssen wir formal wissen und wir werden nun gleich zu einigen Beispielen dazu auch noch kommen. An dieser Stelle schauen wir uns nun die Parameter der χ2-Verteilung an, nämlich einerseits den Lageparameter Erwartungswert und den Streuungsparameter Varianz. Nun, der Erwartungswert entspricht einfach der Anzahl der Freiheitsgrade, entspricht dem einzigen Parameter der χ2-Verteilung, und die Varianz ergibt sich aus 2×ν. So, das sind die wichtigen Parameter, die wir brauchen. Was jetzt hier noch möglich ist durch die Approximation, sehen wir hier: Wir haben also gegeben eine Zufallsvaraible Y. Diese Zufallsvariable Y ist χ2-verteilt mit dem Parameter ν. Nun, jetzt ergibt sich Folgendes: Wenn wir beispielsweise den Parameter ν ≥ 30 gegeben haben, also eine hohe Anzahl an Freiheitsgraden, dann kann die Zufallsvariable Y in Zufallsvariable Z transformiert werden. Sprich: Wir nähern uns der Standardnormalverteilung. Der Standardnormalverteilung, und die Zufallsvariable Z, die wir dann brauchen, ergibt sich eben durch folgende Umwandlung. Sprich wir haben zunächst die Zufallsvariable Y aus unserer χ2-Verteilung. Diese wird dann wie folgt hier mit 2 multipliziert und die Wurzel daraus gezogen und hier im nächsten Schritt multiplizieren wir die Anzahl der Freiheitsgrade mit 2, ziehen hiervon 1 ab, ziehen daraus die Wurzeln noch, bilden daraus die Differenz dieser beiden Teile, und wir haben die neue Zufallsvariable Z, die standardnormalverteilt ist. Als zweite Möglichkeit haben wir, wenn wir ein noch größeres ν haben, nämlich ≥ 100, die Möglichkeit, diese χ2-Verteilung gen Normalverteilung zu approximieren und diese neu entstandene Normalverteilung besitzt dann die folgenden Parameter ν für den Erwartungswert und 2ν für die Varianz. Das entspricht genau dem, was wir hier auch gerade kennengelernt haben. Kommen wir zurück zu unserem Graphen der χ2-Verteilung. Ja, wir haben hier bereits einiges vorbereitet, das heißt, wir haben einerseits die Dichtefunktion und wir sehen, sie ist getrennt in 2 Teilbereiche. Was passiert hier nun? Wir schauen uns ein Quantil an der χ2-Verteilung. Quantil, haben wir bestimmt schon mal irgendwo gehört. Es geht hier letztendlich darum, dass ein Quantil eine bestimmte Funktion, hier die Dichtefunktion, in 2 Teilbereiche aufteilt. Sprich wir haben hier einen Wert 11,07 - wie wir auf den kommen, machen wir gleich zusammen - und der teilt die Funktion in einen Bereich < 11,07, entspricht 0,95, und > 11,07, entspricht 0,05. Woher kommt das jetzt? Nun, wir haben hier die Dichte- und die Verteilungsfunktion der χ2-Verteilung für den Parameter ν=5. Was uns hier jetzt an dieser Aufgabenstellung interessiert: Wir sollen den Parameter ν=5, die χ2-Verteilung, dahin gehend untersuchen, welche Werte innerhalb der 95% liegen, innerhalb der ersten 95%. Sprich: Wo liegen 95% der Werte dieser Verteilung. Ja, und wenn wir dann in der χ2-Tabelle nachschauen, die ist aufgeteilt nach den verschiedenen Wahrscheinlichkeiten, die wir suchen. Und die verschiedenen Wahrscheinlichkeiten sind noch mal abhängig von dem Parameter. Für diese 2 Werte bekommen wir letztendlich den Wert aus der Tabelle 11,07. Dieser Wert sagt uns: Genau bei 11,07 ist die Grenze, wo wir sagen: Alle Merkmale von 0 bis 11,07 treten mit der Wahrscheinlichkeit 0,95 auf. Also nicht jedes Ereignis für sich, aber so gesehen, bis 11,07 haben wir die Wahrscheinlichkeitsdichte der kompletten Funktion von 95%. So, wenn wir das gegeben haben, dann sagen wir: Die restlichen Werte > 11,07 tauchen nur mit einer Wahrscheinlichkeit von 0,05 auf. Das heißt letztendlich - ich will hier nicht zu viel vorwegnehmen, aber das werden wir noch kennenlernen - diese 0,05 können auch als Signifikanzniveau oder als Irrtumswahrscheinlichkeit bezeichnet werden. Sprich, wir wollen einfach nur wissen, wenn wir ein derartiges Experiment laufen haben: Welche Werte treten mit 95%-iger Wahrscheinlichkeit auf? Einen gewissen Irrtum, eine gewisse Abweichung der Wahrscheinlichkeit gibt es natürlich auch, und der ist hier > 11,07 gekennzeichnet. So, das heißt, wir haben jetzt gesehen, wozu ein Quantil hier imstande ist, die Funktion hier an sich zu trennen für den Wert ν=5, die Wahrscheinlichkeit 0,95 und den Wert 11,07 findet ihr bestimmt auch in der entsprechenden Tabelle. So, meine wissbegierigen Zuschauer, das war es für heute mit der χ2-Verteilung. Lasst uns noch einmal kurz zusammenfassen, was wir gelernt haben. Nun, wir wissen, dass die χ2-Verteilung eine statistische Prüfverteilung ist, so wird sie genannt. Warum? Das werden wir später noch genauer kennenlernen. Wir halten einfach mal fest: Wir brauchen sie später in den Schätz- und Testtheorien. Ja, was wissen wir noch? Wir wissen, dass die χ2-Verteilung einzig und allein durch einen Parameter ν bestimmt ist. Der entspricht der Anzahl der Freiheitsgrade. Von diesem Parameter aus lassen sich dann auch der Erwartungswert und die Varianz berechnen, das, was wir nun mal brauchen, um entsprechende Aussagen treffen zu können. Was ist noch wichtig? Wir haben einen asymmetrischen Verlauf zu sehen. Könnt ihr noch mal zurückspulen und euch den genauer anschauen. Das ist wichtig, und ansonsten nicht zu vergessen die Approximationsmöglichkeiten. Also für den Fall, dass wir eine große Anzahl an Freiheitsgraden haben, ein großes ν, können wir die χ2-Verteilung an die Standardnormalverteilung oder an die Normalverteilung approximieren mit den entsprechenden Umformungen, die wir gerade kennengelernt haben. Von daher viel Spaß mit dem Allen und bis gleich.

Informationen zum Video
4 Kommentare
  1. Default

    ist v die anzahl der freiheitsgrade? ich habe nachgelesen, dass man v-1 rechnen muss um auf die anzahl der freiheitsgrade zu kommen.

    Von T Ohrmann95, vor mehr als 2 Jahren
  2. Img 5225 web

    Ich hoffe auf euer Verständnis, als Kommentar nur Ergänzungen anzugeben. Für reine Definitionen findet ihr auf einschlägig bekannten Internetseiten weitere Infos.
    Freiheitsgrade: Ein gegebener Parameter der entsprechenden Verteilung
    Erwartungswert und Varianz: Sind hier gegeben, ansonsten bei Statistik I noch mal nachschlagen

    Von Dr. Konrad Hnatow, vor mehr als 3 Jahren
  3. Default

    wäre nett wenn du noch erklären würdest wie man auf den Erwartungswert und die Varianz kommt

    Von Folglich, vor mehr als 3 Jahren
  4. Default

    gar nicht klar, was Freiheitsgraden sind

    Von Pawel Prizker, vor mehr als 3 Jahren