Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 30: Kontingenztafel

Schönen guten Tag. Schön, dass ihr alle wieder zuschaut. Wir sind heute in einem ganz neuen Themengebiet. Und zwar sind wir jetzt bei den mehrdimensionalen Daten. Also alles, was wir bisher gemacht haben, waren eindimensionale Daten und jetzt schauen wir uns mal mehrdimensionale Daten an. Was ist die Idee dahinter? Wir wollen an einem Merkmalträger 2 Merkmale beobachten. Manchmal auch mehr, aber erst mal nur 2. Dann wollen wir die Daten übersichtlich und kompakt sortieren und dann die Merkmale am besten noch auf Unabhängigkeit oder eben Abhängigkeit überprüfen. Wie machen wir das? Nun zuerst einmal, wie ihr in der Überschrift seht, benutzen wir Kontingenztafeln. Kontingenztafeln sind im Prinzip Matrizen, in denen wir dann in den Spalten ein Merkmal abtragen und in den Zeilen auch ein Merkmal und dann die gemeinsamen Häufigkeiten notieren können. Wir schauen uns das mal als Erstes in einem kleinen Beispiel an, damit ihr überhaupt wisst, wovon ich rede. Schauen wir uns also mal die zwei Merkmale an, die wir haben. Sagen wir: Wir fragen Touristen, welches Hotel sie besucht haben und dann fragen wir die gleichen Touristen auch, wie zufrieden sie mit diesem Hotel waren. Wir haben 8 Gäste dieser Hotels befragt und haben also 8 Ergebniskombinationen. Schauen wir uns also einmal an, welche auftreten und wie oft sie auftreten. Also wir haben hier einmal die Kombination Hotel A und eine gute Bewertung. G steht hier für gut. Also die Kombination A/G. Bisher einmal aufgetreten. Dann haben wir Hotel A und eine mittlere Bewertung, also die Kombination A/M einmal aufgetreten. Dann haben wir Hotel C und eine schlechte Bewertung, S für schlecht. Also Hotel C und schlecht, die Kombo ist auch einmal aufgetreten. Hotel B und eine mittlere Bewertung tritt einmal auf und tritt gleich noch einmal auf. Machen wir den zweiten Strich, wir machen hier ja eine Strichliste. Dann haben wir Hotel A und eine mittlere Bewertung, das haben wir schon, ist also noch einmal aufgetreten. Dann haben wir Hotel C und eine gute Bewertung, hatten wir bisher noch nicht, ist also einmal aufgetreten und Hotel B und eine mittlere Bewertung ist noch einmal aufgetreten. Gut, jetzt haben wir also die zusammengehörigen Häufigkeiten und jetzt wollen wir das Ganze in eine Kontingenztafel überführen, also quasi eine Matrixform, in der wir diese Häufigkeiten auch darstellen können. Das zeige ich euch jetzt, wie das geht. Gut, nachdem wir jetzt also die Strichliste aufgestellt haben, können wir das Ganze jetzt in die Kontingenztafel bringen. Wir haben hier also eine Matrix mit Zeilen und Spalten. In den Zeilen stehen jeweils die Hotels. Hotel A, Hotel B, Hotel C. Und in den Spalten stehen die Bewertungen gut, mittel, schlecht. Schauen wir uns also hier mal unsere Strichliste an. Wir haben Hotel A und eine gute Bewertung einmal. Wir schauen also die Zeile für Hotel A und die Spalte für gute Bewertung. Dort, wo die beiden sich treffen, ist also das Feld. Hotel A und gute Bewertung: 1. Ok, Hotel A und eine mittlere Bewertung. Wieder in der gleichen Zeile Hotel A und eine mittlere Bewertung, also kommt hier eine 2 hin. Hotel C und eine schlechte Bewertung, also wir gehen in die Zeile von Hotel C, gehen in die Spalte für eine schlechte Bewertung und schreiben hier unsere 1 hin. Hotel B und eine mittelmäßige Bewertung. Also Hotel B, mittelmäßige Bewertung, also kommt hier eine 3 hin. Und zu guter Letzt Hotel C und eine gute Bewertung hat auch einen Strich. Also Hotel C eine gute Bewertung kommt hier eine 1 hin. Gut, alle anderen Felder haben keine realisierte Ausprägung, also kommen überall sonst eine 0 hin. Das heißt, es gab keinen Gast, der Hotel B besucht hat und eine gute Bewertung abgegeben hat von unseren 8 Gästen, die wir befragt haben. Es gab ebenso keinen Gast, der Hotel C besucht hat und eine mittlere Bewertung abgegeben hat. Die sind einfach nicht vorhanden, dort können wir einfach eine 0 eintragen. In der allgemeinen Form sieht das also so aus. Wir haben zwei unterschiedliche Merkmale, von mir aus x und y. Wir haben die realisierten Ausprägungen von x in den Zeilen angeschrieben, die realisierten Ausprägungen von y in den Spalten. y läuft dabei von 1 bis k, also bis zur k-ten realisierten Ausprägung und x von 1 bis l, also bis zur l-ten realisierten Ausprägung. Wir haben hier also die Einträge der gemeinsamen Häufigkeiten. Absolute Häufigkeiten mit h bezeichnet. Wir haben also hier h11, also die gemeinsame absolute Häufigkeit der ersten realisierten Ausprägung von x und der ersten realisierten Ausprägung von y. Das geht so weiter. Hier haben wir h1j und h1k. Der erste Index steht also für unsere Zeile. Das geht so weiter. Und in der Mitte steht dann unser hij. Allgemein haben wir hier also Einträge der gemeinsamen Häufigkeit der i-ten realisierten Ausprägung unseres x und der j-ten realisierten Ausprägung unseres y. Ganz in der Ecke steht also dann die gemeinsame absolute Häufigkeit unserer l-ten realisierten Ausprägung von x und unsere k-ten realisierten Ausprägung von y. Jetzt haben wir ja gerade schon gesehen, wenn man hier also die Summen bildet, dann haben wir eine Spaltenhäufigkeit und eine Zeilenhäufigkeit. Diese wird folgendermaßen bezeichnet. Die Spaltenhäufigkeit der ersten Spalte wird mit h.1 bezeichnet. Das heißt, die Häufigkeit der ersten Spalte und dieser Punkt steht im Prinzip dafür, dass wir das über alle Zeilen machen. Also h.1. Für die j-te Spalte h.j  und für die k-te Spalte h.k. Das Gleiche gilt natürlich auch für die Zeilen, nur steht hier der Punkt hinten, weil der zweite Laufindex für die Spalten steht. Also die Zeilenhäufigkeit der ersten Zeile wird bezeichnet mit h1., die der i-ten Zeile mit hi. und die der l-ten Zeile mit hl.. Hier unten steht wiederum unser Stichprobenumfang n, den man sowohl aus den Spaltenhäufigkeiten wie auch aus den Zeilenhäufigkeiten errechnen kann. Wir haben vorhin bei der Idee gesagt, dass wir gerne unsere beiden Merkmale auf Abhängigkeit bzw. auf Unabhängigkeit untersuchen würden. Wie wir das machen, also mit welcher Maßzahl, hängt davon ab, wie unsere Daten skaliert sind. Wenn wir nominal skalierte Daten haben, dann benutzen wir den Kontingenzkoeffizienten. Haben wir ordinal skalierte Daten, dann benutzen wir den Rangkorrelationskoeffizienten, und wenn wir kardinal skalierte Daten haben, dann benutzen wir den Maßkorrelationskoeffizienten. Es hängt also wieder wie immer davon ab, wie viele Informationen uns unsere Daten liefern und was wir damit anstellen können. Auch hier hängt es wieder davon ab, wie unsere Daten skaliert sind. Wir fangen heute in diesem Video an mit dem Kontingenzkoeffizienten und arbeiten uns dann langsam vor, bis wir dann irgendwann den Maßkorrelationskoeffizienten kennenlernen. Um uns mal zu überlegen, wie sich Unabhängigkeit zwischen zwei Merkmalen überhaupt ausdrückt und wie wir es nachher in eine Maßzahl packen können, müssen wir mal folgendes Beispiel anschauen. Wir haben hier also wieder zwei Merkmale, wir haben das Merkmal x "Die Art des Gymnasiums", das jemand besucht hat und y "Das Ergebnis einer Bewerbung". Sagen wir mal, sie haben sich alle beworben als Bankkaufmann und es gibt hier auch drei Ausprägungen. Entweder sie wurden direkt angenommen, ihnen wurde gesagt, sie sollen sich noch etwas gedulden und noch einmal warten, also quasi eine zweite Runde, oder sie wurden direkt abgelehnt. Wir haben jetzt also insgesamt 42 Bewerber, von denen 7 direkt angenommen wurden, 21 wurden gesagt, dass sie noch einmal warten sollen, und 14 wurden direkt abgelehnt. Wir haben also das Verhältnis 1:3:2. Ok, jetzt überlegen wir uns doch einmal, was Unabhängigkeit von Merkmalen bedeutet. Wenn wir jetzt also sagen, es hat nichts zu damit tun, ob ich auf einem naturwissenschaftlichen oder sprachwissenschaftlichen oder auf einem anderen Gymnasium war, wie ich nachher bei meiner Bewerbung abschneide, dann müssen wir davon ausgehen, dass dieses Verhältnis 1:3:2 in jeder dieser Zeilen wiederfindet. Das heißt, 1/6 der Bewerber wird sofort angenommen, die Hälfte der Bewerber wird gesagt, sie sollen noch einmal warten, und jeder 3. Bewerber wird direkt abgelehnt. Wenn das sich in allen Zeilen wiederfindet, egal, auf welchem Gymnasium man war, dann kann man von Unabhängigkeit sprechen. Das heißt, es hilft uns nicht weiter zu wissen, auf welchem Gymnasium jemand war, um zu wissen, wie seine Bewerbung ausgegangen ist. Das würde auf folgende Matrix oder Kontingenztafel zutreffen. Ok, wenn wir nun also diese Kontingenztafel haben, finden wir dieses Verhältnis 1:3:2 in jeder Zeile wieder. Natürlich können wir noch mal die anderen Randhäufigkeiten aufschreiben. Das heißt, wir haben insgesamt 12 Naturwissenschaftler, wir haben insgesamt 24 Sprachwissenschaftler oder Leute, die ihr Abitur auf einem sprachwissenschaftlichen Gymnasium gemacht haben, und bei den Sonstigen haben wir 6. Ok, wir drückt sich das jetzt also in Zahlen aus. Wir können jetzt also sagen, wir haben hier - wenn wir das jetzt mal anders aufschreiben - 1/6 der Personen, die Hälfte der Personen und 1/3 der Personen. Das heißt, bei vollständiger Unabhängigkeit, müssen wir davon ausgehen, dass jeder 6. der Naturwissenschaftler angenommen wird, jeder 2. noch mal in die Warteschleife geschickt wird und jeder 3. abgelehnt wird. Schauen wir uns das jetzt also mal an. Sagen wir mal, wir nehmen jetzt die Spalte der Naturwissenschaftler. Wir haben also 1/6×12, so viele erwarten wir quasi bei denen, die direkt angenommen werden, also 2. ½×12 - 12 Naturwissenschaftler, also jeder 2. Naturwissenschaftler von dem erwarten wir, dass er noch mal in die Warteschleife geschickt wird, also 6. Und jeder 3. von denen soll sofort abgelehnt werden oder wir erwarten, dass er direkt abgelehnt wird und das ist 4. Das heißt, wie ihr seht, diese Einträge, unsere erwarteten Einträge, sind also genau die Einträge, die wir auch in unserer Kontingenztafel haben. Das heißt, wenn unsere erwarteten Einträge immer exakt mit den Einträgen unserer Kontingenztafel übereinstimmen, dann können wir von Unabhängigkeit zwischen den beiden Merkmalen sprechen. Formal können wir eigentlich sagen, dass wir das so aufschreiben können. Dieses 1/6 ist im Prinzip nichts anderes als die Randhäufigkeit geteilt durch unseren Stichprobenumfang n. Wir können also sagen, wir haben h.j, also die Randhäufigkeit der j-ten Spalte, geteilt durch n mal die Randhäufigkeit der i-ten Zeile, die uns interessiert. Oder anders ausgedrückt unser h.j×hi. - also unsere beiden Randhäufigkeiten - und das geteilt durch n. Das Ganze hat natürlich auch einen Namen. Wir nennen es h Schlange ij. Also quasi unsere erwartete Häufigkeit in einem beliebigen Feld ij. Nun also noch mal eine kleine Zusammenfassung. Was wir gerade kennengelernt haben, war eine erwartete gemeinsame Häufigkeit hij Schlange, also die gemeinsame Häufigkeit, die wir erwarten. Und die ist definiert als hi.×h.j - also die Zeilenhäufigkeit mal die Spaltenhäufigkeit - geteilt durch den Stichprobenumfang. Wenn wir das haben, können wir X2 berechnen. ?^2 definiert als die Summe über alle i und j von unserer tatsächlichen gemeinsamen Häufigkeit hij minus unserer erwarteten gemeinsamen Häufigkeit und das zum Quadrat. Diesen Ansatz kennen wir schon von der Varianz. Das heißt, wir bilden eine Differenz und eliminieren das Vorzeichen mit dem Quadrat. Was wir hier also machen: Wir schauen, welche gemeinsame Häufigkeit haben wir tatsächlich, welche gemeinsame Häufigkeit hätten wir erwartet. Daraus bilden wir die Differenz und das quadrieren wir und das Ganze wird dann noch mal durch hij Schlange geteilt, das heißt, durch die erwartete gemeinsame Häufigkeit. Damit wird es quasi gewichtet. Das heißt, wenn wir eine kleinere Häufigkeit erwarten, dann fällt die Differenz stärker ins Gewicht, als wenn wir eine große gemeinsame Häufigkeit erwarten. So und um ?^2 zu bekommen, bilden wir - wie gesagt - die Summe über alle i und j. Das heißt, wir nehmen alle gemeinsamen Häufigkeiten, bilden die Differenz von den erwarteten gemeinsamen Häufigkeiten, quadrieren die Differenz und teilen durch die erwartete gemeinsame Häufigkeit. Und wenn wir das haben, unser X2, dann können wir den Kontingenzkoeffizienten bilden. Das ist ja wie gesagt eine quadratische Kennzahl, X2, kommt hier durch das Quadrat zustande und das haben wir nicht so gerne. Deshalb haben wir in unserem Kontingenzkoeffizienten erst mal eine Wurzel. Der Kontingenzkoeffizient ist dann also X2/(X2+n). Warum jetzt hier X2+n steht, ist nicht so leicht zu erklären und zu verstehen. Solltet ihr einfach akzeptieren und diese Formel lernen. Wir können uns aber mal anschauen, welche Ausmaße unser K, unser Kontingenzkoeffizient haben kann. Oder was auch ein Kontingenzkoeffizient von - sagen wir mal - 0 bedeutet. Wann wird unser Kontingenzkoeffizient 0? Wenn X2 0 wird. Wann wird X2 0X X2 wird immer dann 0, wenn hier jeder Zähler 0 wird. Also, wenn unsere tatsächliche gemeinsame Häufigkeit immer genau gleich ist mit unserer erwarteten gemeinsamen Häufigkeit. Und das hatten wir schon gesagt, ist immer dann der Fall, wenn unsere beiden Merkmale völlig unabhängig voneinander sind. So wie wir es definiert haben: Das heißt, die Kenntnis über das eine Merkmal sagt mir nichts über die Häufigkeit des anderen Merkmals aus. Also wenn unser K 0 ist, bedeutet das, dass unsere Merkmale - so wie wir es bisher definiert haben - voneinander unabhängig sind. Das war jetzt ganz schön viel Stoff für ein Video. Ihr habt vielleicht auch nicht auf Anhieb alles verstanden, aber wir beschäftigen uns natürlich noch weiter mit dem Thema und ich hoffe, dann werdet ihr auch schnell dahinter steigen. Ich bedanke mich fürs Zuschauen, freue mich auch schon auf das nächste Video und sage tschüss.  

Informationen zum Video
6 Kommentare
  1. Default

    Naja, also 7:21:14 sind die Originalzahlen. Der kleinste gemeinsame Nenner ist 7. Wenn man jetzt also alles kürzt, bekommt man das Verhältnis 1:3:2 .

    Von Statistik Jona, vor fast 4 Jahren
  2. Default

    Wie bist du eigentlich auf die Zahlen in der Kontingenztafel gekommen, wo das Verhältnis 1:3:2 war.

    Von Tina4444, vor fast 4 Jahren
  3. Default

    Nein, das ist etwas anderes. Es ist ein Zusammenhangsmaß, das die tatsächlich erhobenen Häufigkeiten mit denen unter Unabhängigkeit zu erwarteten vergleicht.

    Von Statistik Jona, vor fast 4 Jahren
  4. Default

    Hat das Chi Quadrat etwas mit der Chi Quadrat Verteilung zu tun, oder ist das was anderes?

    Von Kuise, vor fast 4 Jahren
  5. Bild

    n ist der Stichprobenumfang

    Von Patrick2012, vor etwa 4 Jahren
  1. Default

    was ist n?

    Von Nat, vor mehr als 4 Jahren
Mehr Kommentare