Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Chi Quadrat-Unabhängigkeitstest – Theorie

χ2-Unabhängigkeitstest. Der χ2-Unabhängigkeitstest testet die stochastische Unabhängigkeit von 2 Zufallsvariablen. Der χ2-Unabhängigkeitstest gehört zu der Klasse der nicht parametrischen Tests, das heißt, er wird nicht auf einen Parameter wie Mittelwert oder Varianz getestet. Für den χ2-Unabhängigkeitstest ist das Skalennniveau der Variablen eigentlich egal, das heißt, dass der Test bei diskreten und bei stetigen Zufallvariablen angewandt werden kann. Um den χ2-Test durchführen zu können, tragen wir die Ausprägungen der einzelnen Zufallvariablen, hier X und Y, in eine Kontingenztabelle ein. Relativ formal geschrieben wäre das X mit den verschiedenen Ausprägungen Xk(k=1...K) und die Zufallsvariable Y mit der Anzahl der Ausprägungen Yj (j=1...J). Die Ausprägungen von X und Y werden in eine Kontingenztabelle eingetragen. Wie so eine Kontingenztabelle aussieht und wie X und Y zu stehen haben, seht ihr hier. Jetzt schreiben wir in die 1. Spalte die verschiedenen Ausprägungen von X, also X1 bis XK und in die erste Zeile die verschiedenen Ausprägungen von Y, also Y1 bis YJ. h11 ist jetzt die absolute Häufigkeit, mit der die beiden Ausprägungen der Variablen X1 und Y1 zusammen aufgetreten sind, also wie oft diese beiden Variablen zusammen realisiert wurden. Für jede X-Y-Kombination tragen wir die absoluten Häufigkeiten in die Tabelle ein. An den Rand der Tabelle, also in die unterste Zeile und die äußerste Spalte, kommen die sogenannten Randverteilungen. Was das ist, werde ich euch jetzt erklären. Ein Wert der Randverteilung wäre zum Beispiel h+1. Er besagt, wie oft Y1 insgesamt aufgetreten ist, also die ∑ aller absoluten Häufigkeiten der Pärchen Y1X1, Y1X2, Y1X3 bis Y1Xk. Wir machen das jetzt für jede Ausprägung von X und Y, so dass am Rand der Tabelle die absoluten Häufigkeiten für jede einzelne Ausprägung stehen. In der untersten Zeile stehen die absoluten Häufigkeiten für die Ausprägungen von Y und in der letzten Spalte die für X. Summieren wir die unterste Zeile oder die Spalte am Rand auf, erhalten wir den Umfang der gesamten Stichprobe. Wie bei fast jedem Text gibt es auch beim χ2-Unabhängigkeitstest eine Nullhypothese und eine Alternativhypothese. Unsere H0 ist, dass die Zufallsvariablen X und Y stochastisch unabhängig sind. Unsere H1 ist, dass X und Y nicht stochastisch unabhängig sind. Würde H0 gelten, bedeutet dies, das X und Y stochastisch unabhängig sind. Formal heißt das, dass [P[(X=Xk) und (Y=Yj)]=P(X=Xk)×P(Y=Yj), also die Wahrscheinlichkeit, dass die Ausprägung Xk kommt, mal der Wahrscheinlichkeit, dass die Ausprägung Yj kommt, ist gleich der Wahrscheinlichkeit, dass beide Ausprägungen zusammenkommen. Das ist gerade die Bedeutung von stochastischer Unabhängigkeit nach dem Multiplikationssatz. Wir können die Hypothesen auch formal ausdrücken, indem wir die eben hergeleitete Schreibweise verwenden. Aber wir kennen diese Wahrscheinlichkeiten ja gar nicht, also was tun? Keine Sorge, wir können einen Test machen. Wie immer hat unser Text einen Stichprobenumfang von n und ein Signifikanzniveau α. Wir stellen eine Teststatistik auf. Die Teststatistik macht den χ2-Test erst richtig besonders. Der Testwert ergibt sich aus der Doppelsumme über alle K und J aus der Differenz der absoluten Häufigkeiten für hkj minus der erwarteten absoluten Häufigkeiten für kj zum Quadrat durch die erwarteten Häufigkeiten für kj, also (hkj-êkj)2/êkj. Keine Panik, das sieht schlimmer aus, als es ist. Schauen wir uns erst einmal an, wie man die Teststatistik berechnet. Hierfür schreiben wir uns die Kontingenztabelle für diesen Test auf, indem wir die Werte für diesen Test hineinschreiben. Aus der Kontingenztabelle ergeben sich die Werte für unsere Teststatistik. Nehmen wir uns erst einmal einen Wert aus der Tabelle, hier h11. h11 ist, wie wir wissen, die absolute Häufigkeit, mit der das Pärchen X1Y1 in der Stichprobe aufgetreten ist. Von diesem Wert wird êkj abgezogen. Dieser Wert ergibt sich aus dem Produkt der Randhäufigkeiten von X1 und Y1, also h+1 und h1+. Dieses Produkt dividieren wir durch n. Damit wir keine negativen Werte erhalten, wird die Differenz quadriert. Das teilen wir dann noch einmal durch êkj. WIr haben oben über j und k ∑ stehen. Das heißt, das wir das, was wir eben gemacht haben, für alle möglichen Kombinationen von Yj und Xk machen müssen, also X1Y1, X1Y3 und so weiter. Das müssen wir dann zusammenaddieren. Hier steht noch einmal ausgeschrieben, was wir eben gesagt haben. [(h11, die absolute Häufigkeit für das Pärchen X1Y1-ê11)2]/ê11 + und so weiter + (hk1-êk1)2/êk1 + und so weiter und irgendwann, ganz am Ende, wir man dann (hkj-êkj)2/êkj dazu addieren. Nachdem wir den Wert der Teststatistik herausgefunden haben, müssen wir nun den kritischen Wert bestimmen. Der kritische Wert des Tests ist χ2-verteilt mit dem Freiheitsgrad f=(K-1)(J-1). K ist die Anzahl der möglichen Ausprägungen der Variable X, also die Anzahl der Zeilen in der Kontingenztabelle, und J ist die Anzahl der möglichen Ausprägungen der Variable Y, also die Anzahl der Spalten in der Kontingenztabelle. Der kritische Wert ist nur unter H0 χ2-verteilt. Den kritischen Wert kann man aus jeder Verteilungstablle für χ2 ablesen, für das gegebene Signifikanzniveau und den Freiheitsgrad. Ob wir H0 annehmen oder ablehnen, entscheiden wir dadurch, dass wir den kritischen Wert mit dem Wert aus der Teststatistik vergleichen. H0 wird abgelehnt, wenn der Wert der Teststatistik > als der kritische Wert. H0 wird angenommen, wenn der Wert aus der Teststatistik ≤ dem kritischen Wert ist. Und das war es auch schon, wir sind fertig.

Informationen zum Video
6 Kommentare
  1. Default

    Sehr verständlich erklärt, sehr gut! Nur zum Schluss geht es zu schnell, da sollte das mit dem kritischen Wert etwas anschaulicher erklärt werden.

    Von Benedikt O, vor fast 3 Jahren
  2. Default

    ich fand es nicht schlecht... hier gibt es noch ein anderes Video ber das gleiche Thema!
    http://www.sofatutor.com/mathematik/videos/statistik-ii-video-50-der-chiquadrat-unabhaengigkeitstest

    Von Folglich, vor mehr als 3 Jahren
  3. Default

    Ja, war schon zu verstehen - gibt einen ersten Einblick um was es geht!

    Von Deleted User 23721, vor mehr als 5 Jahren
  4. Default

    verstehe garnichts!!!!

    Von Maggy24, vor etwa 6 Jahren
  5. Default

    Ist mir zu unübersichtlich gestaltet!

    Von Schlaumeier, vor etwa 6 Jahren
  1. Default

    du bist aber lustig :P

    Von Desa, vor mehr als 6 Jahren
Mehr Kommentare