30 Tage kostenlos testen:
Mehr Spaß am Lernen.

Überzeugen Sie sich von der Qualität unserer Inhalte.

Chi Quadrat-Unabhängigkeitstest – Theorie 09:27 min

Textversion des Videos

Transkript Chi Quadrat-Unabhängigkeitstest – Theorie

χ2-Unabhängigkeitstest. Der χ2-Unabhängigkeitstest testet die stochastische Unabhängigkeit von 2 Zufallsvariablen. Der χ2-Unabhängigkeitstest gehört zu der Klasse der nicht parametrischen Tests, das heißt, er wird nicht auf einen Parameter wie Mittelwert oder Varianz getestet. Für den χ2-Unabhängigkeitstest ist das Skalennniveau der Variablen eigentlich egal, das heißt, dass der Test bei diskreten und bei stetigen Zufallvariablen angewandt werden kann. Um den χ2-Test durchführen zu können, tragen wir die Ausprägungen der einzelnen Zufallvariablen, hier X und Y, in eine Kontingenztabelle ein. Relativ formal geschrieben wäre das X mit den verschiedenen Ausprägungen Xk(k=1...K) und die Zufallsvariable Y mit der Anzahl der Ausprägungen Yj (j=1...J). Die Ausprägungen von X und Y werden in eine Kontingenztabelle eingetragen. Wie so eine Kontingenztabelle aussieht und wie X und Y zu stehen haben, seht ihr hier. Jetzt schreiben wir in die 1. Spalte die verschiedenen Ausprägungen von X, also X1 bis XK und in die erste Zeile die verschiedenen Ausprägungen von Y, also Y1 bis YJ. h11 ist jetzt die absolute Häufigkeit, mit der die beiden Ausprägungen der Variablen X1 und Y1 zusammen aufgetreten sind, also wie oft diese beiden Variablen zusammen realisiert wurden. Für jede X-Y-Kombination tragen wir die absoluten Häufigkeiten in die Tabelle ein. An den Rand der Tabelle, also in die unterste Zeile und die äußerste Spalte, kommen die sogenannten Randverteilungen. Was das ist, werde ich euch jetzt erklären. Ein Wert der Randverteilung wäre zum Beispiel h+1. Er besagt, wie oft Y1 insgesamt aufgetreten ist, also die ∑ aller absoluten Häufigkeiten der Pärchen Y1X1, Y1X2, Y1X3 bis Y1Xk. Wir machen das jetzt für jede Ausprägung von X und Y, so dass am Rand der Tabelle die absoluten Häufigkeiten für jede einzelne Ausprägung stehen. In der untersten Zeile stehen die absoluten Häufigkeiten für die Ausprägungen von Y und in der letzten Spalte die für X. Summieren wir die unterste Zeile oder die Spalte am Rand auf, erhalten wir den Umfang der gesamten Stichprobe. Wie bei fast jedem Text gibt es auch beim χ2-Unabhängigkeitstest eine Nullhypothese und eine Alternativhypothese. Unsere H0 ist, dass die Zufallsvariablen X und Y stochastisch unabhängig sind. Unsere H1 ist, dass X und Y nicht stochastisch unabhängig sind. Würde H0 gelten, bedeutet dies, das X und Y stochastisch unabhängig sind. Formal heißt das, dass [P[(X=Xk) und (Y=Yj)]=P(X=Xk)×P(Y=Yj), also die Wahrscheinlichkeit, dass die Ausprägung Xk kommt, mal der Wahrscheinlichkeit, dass die Ausprägung Yj kommt, ist gleich der Wahrscheinlichkeit, dass beide Ausprägungen zusammenkommen. Das ist gerade die Bedeutung von stochastischer Unabhängigkeit nach dem Multiplikationssatz. Wir können die Hypothesen auch formal ausdrücken, indem wir die eben hergeleitete Schreibweise verwenden. Aber wir kennen diese Wahrscheinlichkeiten ja gar nicht, also was tun? Keine Sorge, wir können einen Test machen. Wie immer hat unser Text einen Stichprobenumfang von n und ein Signifikanzniveau α. Wir stellen eine Teststatistik auf. Die Teststatistik macht den χ2-Test erst richtig besonders. Der Testwert ergibt sich aus der Doppelsumme über alle K und J aus der Differenz der absoluten Häufigkeiten für hkj minus der erwarteten absoluten Häufigkeiten für kj zum Quadrat durch die erwarteten Häufigkeiten für kj, also (hkj-êkj)2/êkj. Keine Panik, das sieht schlimmer aus, als es ist. Schauen wir uns erst einmal an, wie man die Teststatistik berechnet. Hierfür schreiben wir uns die Kontingenztabelle für diesen Test auf, indem wir die Werte für diesen Test hineinschreiben. Aus der Kontingenztabelle ergeben sich die Werte für unsere Teststatistik. Nehmen wir uns erst einmal einen Wert aus der Tabelle, hier h11. h11 ist, wie wir wissen, die absolute Häufigkeit, mit der das Pärchen X1Y1 in der Stichprobe aufgetreten ist. Von diesem Wert wird êkj abgezogen. Dieser Wert ergibt sich aus dem Produkt der Randhäufigkeiten von X1 und Y1, also h+1 und h1+. Dieses Produkt dividieren wir durch n. Damit wir keine negativen Werte erhalten, wird die Differenz quadriert. Das teilen wir dann noch einmal durch êkj. WIr haben oben über j und k ∑ stehen. Das heißt, das wir das, was wir eben gemacht haben, für alle möglichen Kombinationen von Yj und Xk machen müssen, also X1Y1, X1Y3 und so weiter. Das müssen wir dann zusammenaddieren. Hier steht noch einmal ausgeschrieben, was wir eben gesagt haben. [(h11, die absolute Häufigkeit für das Pärchen X1Y1-ê11)2]/ê11 + und so weiter + (hk1-êk1)2/êk1 + und so weiter und irgendwann, ganz am Ende, wir man dann (hkj-êkj)2/êkj dazu addieren. Nachdem wir den Wert der Teststatistik herausgefunden haben, müssen wir nun den kritischen Wert bestimmen. Der kritische Wert des Tests ist χ2-verteilt mit dem Freiheitsgrad f=(K-1)(J-1). K ist die Anzahl der möglichen Ausprägungen der Variable X, also die Anzahl der Zeilen in der Kontingenztabelle, und J ist die Anzahl der möglichen Ausprägungen der Variable Y, also die Anzahl der Spalten in der Kontingenztabelle. Der kritische Wert ist nur unter H0 χ2-verteilt. Den kritischen Wert kann man aus jeder Verteilungstablle für χ2 ablesen, für das gegebene Signifikanzniveau und den Freiheitsgrad. Ob wir H0 annehmen oder ablehnen, entscheiden wir dadurch, dass wir den kritischen Wert mit dem Wert aus der Teststatistik vergleichen. H0 wird abgelehnt, wenn der Wert der Teststatistik > als der kritische Wert. H0 wird angenommen, wenn der Wert aus der Teststatistik ≤ dem kritischen Wert ist. Und das war es auch schon, wir sind fertig.

7 Kommentare
  1. Schon hilfreich, wenn man das vorher an Beispielen schon mal gesehen hat. Möchte empfehlen, auch ein Zahlenbeispiel aufzunehmen, anhand dessen der Rechenweg nachvollzogen werden kann.

    Von Benbo, vor mehr als 2 Jahren
  2. Sehr verständlich erklärt, sehr gut! Nur zum Schluss geht es zu schnell, da sollte das mit dem kritischen Wert etwas anschaulicher erklärt werden.

    Von Benedikt O, vor mehr als 5 Jahren
  3. ich fand es nicht schlecht... hier gibt es noch ein anderes Video ber das gleiche Thema!
    http://www.sofatutor.com/mathematik/videos/statistik-ii-video-50-der-chiquadrat-unabhaengigkeitstest

    Von Folglich, vor etwa 6 Jahren
  4. Ja, war schon zu verstehen - gibt einen ersten Einblick um was es geht!

    Von Deleted User 23721, vor etwa 8 Jahren
  5. verstehe garnichts!!!!

    Von Maggy24, vor mehr als 8 Jahren
  1. Ist mir zu unübersichtlich gestaltet!

    Von Schlaumeier, vor mehr als 8 Jahren
  2. du bist aber lustig :P

    Von Desa, vor etwa 9 Jahren
Mehr Kommentare

Chi Quadrat-Unabhängigkeitstest – Theorie Übung

Du möchtest dein gelerntes Wissen anwenden? Mit den Aufgaben zum Video Chi Quadrat-Unabhängigkeitstest – Theorie kannst du es wiederholen und üben.

  • Gib die wichtigsten Begriffe für den Chi-Quadrat-Unabhängigkeitstest an.

    Tipps

    Der Freiheitsgrad berechnet sich als $(K-1)\cdot (J-1)$. Dabei steht $K$ bzw. $J$ für die Anzahl der möglichen Ausprägungen für $X$ bzw. $Y$.

    $H_0$ wird abgelehnt, falls der kritische Wert kleiner als die Teststatistik ist.

    $H_1$ wird als Alternativhypothese bezeichnet.

    Lösung

    Der Chi-Quadrat-Unabhängigkeitstest dient dazu, die stochastische Unabhängigkeit zweier Zufallsvariablen $X$ und $Y$ zu überprüfen.

    Dazu erstellen wir eine Teststatistik, die wir mit dem kritischen Wert $\chi_{1-\alpha ,f}^2$ vergleichen. Dabei steht $\alpha$ für das Signifikanzniveau und $f$ für den Freiheitgrad. Er wird als $f=(K-1)\cdot (J-1)$ berechnet. $K$ bzw. $J$ gibt die Anzahl der möglichen Ausprägungen für $X$ bzw. $Y$ an.

    Wir haben zwei mögliche Hyptothesen:

    • Nullhypothese $H_0$: $X$ und $Y$ sind stochastisch unabhängig
    • Alternativhypothese $H_1$: $X$ und $Y$ sind nicht stochastisch unabhängig
    Nur unter $H_0$ ist der kritischen Wert $\chi^2$-verteilt. Man kann nun die folgende Entscheidungsregel ableiten:

    • $H_0$ wird abgelehnt, falls $V>\chi_{1-\alpha ,f}^2$.
    • $H_0$ wird angenommen, falls $V\leq \chi_{1-\alpha ,f}^2$.
  • Gib den Multiplikationssatz beim $\chi^2$-Unabhängigkeitstest wieder.

    Tipps

    Zwei Ereignisse $A$ und $B$ sind stochastisch unabhängig, wenn gilt $P(A \cap B)=P(A) \cdot P(B)$.

    Zur Zufallsgröße $X$ gehören die Ergebnisse $x_k$ mit $k=1 \dots K$.

    Zu der Ausprägung $Y$ gehören die Ergebnisse $y_j$ mit $j=1 \dots J$.

    Lösung

    Zur Zufallsgröße $X$ gehören die Ergebnisse $x_k$ mit $k=1 \dots K$. Zu der Ausprägung $Y$ gehören die Ergebnisse $y_j$ mit $j=1 \dots J$.

    Die Hypothesen lauten

    • $H_0$: $X$ und $Y$ sind stochastisch unabhängig.
    • $H_1$: $X$ und $Y$ sind stochastisch abhängig.
    Zwei Ereignisse $A$ und $B$ sind stochastisch unabhängig, wenn gilt $P(A \cap B)=P(A) \cdot P(B)$. Wenn $H_0$ angenommen wird, dann gilt der Multiplikationssatz:

    $P\{(X=x_k)\cap (Y=y_j)\}=P(X=x_k) \cdot P(Y=y_j)=P_{k+} \cdot P_{+j}=P_{kj}$

  • Entscheide, ob der Würfel fair ist.

    Tipps

    In der Tabelle kannst du den kritischen Wert in Abhängigkeit von der Anzahl der Freiheitsgrad ablesen.

    Die Anzahl der Freiheitsgrad wird hier als $f=(K-1)$ berechnet, denn es gibt ja hier nur die Augenzahl als einziges Merkmal. $K$ steht für die Anzahl der Ausprägungen für die Augenzahlen.

    Die Formel für die Teststatistik $V$ wird für eine Merkmalsausprägung ebenfalls einfacher. Dabei sind folgende Dinge zu beachten:

    • $h_k$ steht für absolute Häufigkeit für die $k$-te Augenzahl.
    • $\hat{e}_k$ steht für die erwartete absolute Häufigkeit der $k$-ten Augenzahl.
    • Wenn der Würfel fair ist, dann tritt jede Augenzahl mit der gleichen Wahrscheinlichkeit von $\frac16$ auf. Wir haben also $\hat{e}_1=\hat{e}_2=\hat{e}_3=\hat{e}_4=\hat{e}_5=\hat{e}_6=\frac16 \cdot 90=15$.

    Die Nullhypothese $H_0$ wird

    • abgelehnt, falls $V>\chi_{1-\alpha ,f}^2$.
    • angenommen, falls $V\leq \chi_{1-\alpha ,f}^2$.
    Lösung

    Die Anzahl der Freiheitsgrad wird hier als $f=(K-1)$ berechnet, denn es gibt ja hier nur die Augenzahl als einziges Merkmal. $K$ steht für die Anzahl der Ausprägungen für die Augenzahlen. In unserem Fall ist $K=6$ und somit $f=5$. Der kritische Wert für ein Signifikanzniveau von $\alpha =0,05$ beträgt also $\chi_{0,95;5}=11,07$, was man aus einer entsprechenden Tabelle ablesen kann.

    Die Formel für die Teststatistik $V$ wird für eine Merkmalsausprägung ebenfalls einfacher:

    $V=\sum\limits_{k=1}^K \frac{(h_{k}-\hat{e}_{k})^2}{\hat{e}_{k}}$

    Dabei sind folgende Dinge zu beachten:

    • $h_k$ steht für absolute Häufigkeit für die $k$-te Augenzahl.
    • $\hat{e}_k$ steht für die erwartete absolute Häufigkeit der $k$-ten Augenzahl.
    • Wenn der Würfel fair ist, dann tritt jede Augenzahl mit der gleichen Wahrscheinlichkeit von $\frac16$ auf. Wir haben also $\hat{e}_1=\hat{e}_2=\hat{e}_3=\hat{e}_4=\hat{e}_5=\hat{e}_6=\frac16 \cdot 90=15$.
    Damit können wir die Teststatistik berechnen:

    $V = \frac{(18-15)^2}{15}+\frac{(13-15)^2}{15}+\frac{(14-15)^2}{15}+\frac{(12-15)^2}{15}+\frac{(17-15)^2}{15}+\frac{(16-15)^2}{15}=\frac{28}{15}\approx 1,87$

    Nun kann schließlich entschieden werden, ob die Nullhypothese angenommen oder abgelehnt wird. Die Nullhypothese $H_0$ wird

    • abgelehnt, falls $V>\chi_{1-\alpha ,f}^2$.
    • angenommen, falls $V\leq \chi_{1-\alpha ,f}^2$.
    Bei uns ist $V \approx 1,87 < 11,07=\chi_{1-\alpha ,f}^2$. Damit wird die Nullhypothese angenommen. Der Chi-Quadrat-Test sagt uns also, dass die Augenzahlen stochastisch unabhängig sind und der Würfel somit fair ist.

  • Beschreibe die Variablen in einer Kontingenztabelle.

    Tipps

    $h_{KJ}$ gibt an, wie oft $X=x_K$ und $Y=y_J$ gleichzeitig in der Stichprobe auftreten.

    Bei den Randverteilungen addierst du die Zeilen bzw. Spalten.

    Es gilt beispielsweise $h_{+1}=\sum\limits_{k=1}^K h_{k1}$.

    Wenn du die Randverteilungen wiederum addierst, dann bekommst du den Stichprobenumfang $n$.

    Lösung

    Beim Chi-Quadrat-Unabhängigkeitstest untersucht man, ob zwei Zufallsvariablen $X$ und $Y$ stochastisch unabhängig sind. Dazu stellt man am Anfang eine sogenannte Kontingenztabelle auf:

    1. $X$ hat dabei die möglichen Ausprägungen $x_1,\ldots ,x_K$.
    2. $Y$ hat dabei die möglichen Ausprägungen $y_1,\ldots ,y_J$.
    3. $h_{11}$ gibt die absolute Häufigkeit des gemeinsamen Auftretens von $x_1$ und $y_1$ an.
    4. $h_{1+},\ldots ,h_{K+}$ sind die absolute Häufigkeiten für die Ausprägungen von $X$.
    5. $h_{+1},\ldots ,h_{+J}$ sind die absolute Häufigkeiten für die Ausprägungen von $Y$.
    6. Wenn du diese sogenannten Randverteilungen $h_{1+},\ldots ,h_{K+}$ bzw. $h_{+1},\ldots ,h_{+J}$ noch aufaddierst, dann erhältst du $h_{++}=n$ den Stichprobenumfang.
  • Stelle das Kaufverhalten in einer Kontingenztabelle dar.

    Tipps

    Trage zunächst die bekannten Größen ein. Ganz unten rechts steht der Stichprobenumfang.

    Die Summe der Spalten steht immer unten in der letzten Zeile.

    Die Summe der Zeilen steht immer rechts in der letzten Spalte.

    Lösung

    Es wird das Kaufverhalten von insgesamt $1000$ Personen untersucht, von denen $350$ Männer sind. Von den Männer haben sich $170$ zum Kauf entschlossen. $400$ der Frauen haben sich gegen den Kauf entschieden.

    In einer Kontigenztabelle sind folgende Regeln zu beachten:

    1. Die Summe der Spalten steht immer unten in der letzten Zeile.
    2. Die Summe der Zeilen steht immer rechts in der letzten Spalte.
    3. Ganz unten rechts steht der Stichprobenumfang.
    Man trägt zunächst die bekannten Größen ein und ergänzt dann die Tabelle, so wie es angegeben ist.

  • Wende den Chi-Quadrat-Unabhängigkeitstest für das Kaufverhalten an.

    Tipps

    Die Kontingenztabelle sieht folgendermaßen aus:

    Die Anzahl der Freiheitsgrad wird als $f=(K-1)\cdot (J-1)$ berechnet. $K$ bzw. $J$ steht für die Anzahl der Ausprägungen für das Geschlecht bzw. das Kaufverhalten.

    Den passenden kritischen Wert kannst du dann aus der obigen Tabelle ablesen.

    Um die erwartete absolute Häufigkeit $\hat{e}_{kj}$ zu berechnen, musst du die passenden Zahlen aus der Randverteilung multiplizieren und durch den Stichprobenumfang dividieren.

    Beispiel: Für die erwartete absolute Häufigkeit für kaufende Männer rechnest du $\hat{e}_{11}=\large\frac{350\cdot 420}{1000}=147$.

    Damit lautet der erste Summand $\large\frac{(170-147)^2}{147}$ in der Formel für die Teststatistik $V$.

    Die Nullhypothese $H_0$ wird

    • abgelehnt, falls $V>\chi_{1-\alpha ,f}^2$.
    • angenommen, falls $V\leq \chi_{1-\alpha ,f}^2$.
    Lösung

    Es wird das Kaufverhalten von insgesamt $1000$ Personen untersucht, von denen $350$ Männer sind. Von den Männer haben sich $170$ zum Kauf entschlossen. $400$ der Frauen haben sich gegen den Kauf entschieden. Aus diesen Angaben kann man die nebenstehende Kontingenztabelle aufstellen.

    Als nächstes wird der Freiheitsgrad $f$ und der kritische Wert $\chi_{1-\alpha ,f}$ für ein Signifikanzniveau $\alpha =0,05$ bestimmt: Die Anzahl der Freiheitsgrad wird als $f=(K-1)\cdot (J-1)$ berechnet. $K$ bzw. $J$ steht für die Anzahl der Ausprägungen für das Geschlecht bzw. das Kaufverhalten. In unserem Beispiel ist $K=J=2$ und somit $f=1$. Aus einer entsprechenden Tabelle kannst du den Wert für $\chi_{0,95, 1}^2$ ablesen. Dieser Wert beträgt rund $3,84$.

    Im dritten Schritt berechnen wir die Teststatistik

    $V= \sum\limits_{k=1}^K\sum\limits_{j=1}^J \frac{(h_{kj}-\hat{e}_{kj})^2}{\hat{e}_{kj}}$

    Um die erwartete absolute Häufigkeit zu berechnen, musst du die passenden Zahlen aus der Randverteilung multiplizieren und durch den Stichprobenumfang dividieren. Beispiel: Für die erwartete absolute Häufigkeit für kaufende Männer rechnest du $\hat{e}_{11}=\frac{350\cdot 420}{1000}=147$. Damit lautet der erste Summand $\frac{(170-147)^2}{147}$ in der Formel für die Teststatistik $V$.

    Analog kannst du $\hat{e}_{12}=\frac{350\cdot 580}{1000}=203$, $\hat{e}_{21}=\frac{650\cdot 420}{1000}=273$ und $\hat{e}_{22}=\frac{650\cdot 580}{1000}=377$ berechnen. Damit ergibt sich für die Teststatistik insgesamt:

    $V= \frac{(170-147)^2}{147}+ \frac{(180-203)^2}{203}+ \frac{(250-273)^2}{273}+ \frac{(400-377)^2}{377}\approx 9,55$.

    Nun kann schließlich entschieden werden, ob die Nullhypothese angenommen oder abgelehnt wird. Die Nullhypothese $H_0$ wird

    • abgelehnt, falls $V>\chi_{1-\alpha ,f}^2$.
    • angenommen, falls $V\leq \chi_{1-\alpha ,f}^2$.
    Bei uns ist $V \approx 9,55 > 3,84=\chi_{1-\alpha ,f}^2$. Damit wird die Nullhypothese abgelehnt. Der Chi-Quadrat-Test sagt uns also, dass das Geschlecht und das Kaufverhalten nicht stochastisch unabhängig sind.