Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 31: Kontingenzkoeffizient Übung

Hallo, schön, dass ihr alle wieder zuguckt. Wir sind heute bei der Übung zum Kontingenzkoeffizienten. Ich habe noch einmal die 3 wichtigen Formeln aufgeschrieben: Wir haben hier unsere Erwartungshäufigkeit h von ij = hi.×h.j, also die beiden Randhäufigkeiten, ÷n, unseren Stichprobenumfang. Dann haben wir Chi-Quadrat, das ist die Summe von i=1 bis l und von j=1 bis k, also im Prinzip über alle Felder dieser Tafel, von hij, also der tatsächlichen Häufigkeit, -hij, der Erwartungshäufigkeit, ^2, ÷hij. Aus diesem Chi-Quadrat errechnen wir dann unseren Kontingenzkoeffizienten und das ist \sqrt((Chi2)÷Chi2+n). Wir fangen einmal mit einem einfachen Beispiel an: Wir haben hier 2 Merkmale. Wir haben einmal die Leistung und einmal den Studiengang von irgendeinem beliebigen Fach, sagen wir, es war eine Klausur. Wir haben also als Studiengänge BWL, VWL und Mathe und wir haben als Leistung gut, mittel, schlecht - eine grobe Einordnung des Profs, der eben seine Studenten vorsortiert. Wir haben jetzt unsere absoluten Häufigkeiten schon eingetragen: 3, 6, 2. 9, 18, 6. Und 6, 12, 4. Wie ihr seht, habe ich die Felder aufgeteilt. Und zwar wollen wir es so machen, dass immer oben die tatsächliche Häufigkeit steht und unten dann die Erwartungshäufigkeit. Man kann das im Prinzip machen, wie man will. Man muss es nur einmal klar definieren und dann ist das Ganze kein Problem. Was machen wir als Erstes? Wenn wir die Erwartungshäufigkeit ausrechnen wollen, die wir brauchen, um Chi-Quadrat zu berechnen, um dann K zu berechnen, brauchen wir erst einmal die Randhäufigkeit - kein Problem. Die Randhäufigkeit: Wie viele BWLer gibt es überhaupt? 3+6+2=11 Wie viele VWLer gibt es? 9+18+6=33 Und Mathestudenten gibt es: 6+12+4=22 Wie viele wurden mit "gut" bewertet? 3, 12, 18 - also insgesamt 18 Leute. Mit "mittel" wurden bewertet: 6, 24, 36. Und mit "schlecht" wurden bewertet: 2 + 6 = 8 + 4 = 12 18+36=54 +12=66 Unser Stichprobenumfang - oder auch: 11 + 33 = 44 + 22 Randhäufigkeit für "gut"=10. Randhäufigkeit BWL=25. Also: (10×25)÷100=2,5 - die Erwartungshäufigkeit für h11. Machen wir weiter mit h12. Wieder (Randhäufigkeit×Randhäufigkeit)÷100, also: (50×25)÷100=12,5 Und h13, also hier: Wie viele BWLer erwarten wir, die schlecht bewertet werden? (Randhäufigkeit 40×Randhäufigkeit 25)÷100=1000÷100=10 Damit haben wir jetzt also die Erwartungshäufigkeiten für alle BWLer. Machen wir weiter mit den VWLern. Hier fällt auf, dass wir genauso viele VWLer wie BWLer haben. Das heißt, wenn wir jetzt die Erwartungshäufigkeiten ausrechnen wollen, nehmen wir einmal hier (die Randhäufigkeiten)×25, meine Randhäufigkeit für VWLer. Da die aber genauso groß ist wie die Randhäufigkeit für BWLer, werden auch die gleichen Ergebnisse herauskommen. Wenn wir jetzt also h21 ausrechnen wollen, rechnen wir ja: (10×25)÷100 Das heißt, wir werden auch wieder bei 2,5 landen. Wir können also einfach die Erwartungshäufigkeiten aus der 1. Zeile auch für die 2. Zeile übernehmen. Dadurch, dass die beiden Randhäufigkeiten der Zeilen gleich groß sind. Wir müssen also nur noch 3 Randhäufigkeiten, nämlich die, für die Mathematikstudenten, berechnen. Wir fangen an mit h31, also: (10×50)÷100=5 h32, also wie viele Mathematik-Studenten erwarten wir, die mittelmäßig bewertet wurden. Haben wir: (50×50)÷100=25 Und schließlich unsere letzte Erwartungshäufigkeit h33: (40×50)÷100=20 Wir haben jetzt also Erwartungshäufigkeiten, die teilweise schon beträchtlich von der tatsächlichen Häufigkeit abweichen und daraus können wir jetzt Chi-Quadrat berechnen und unseren Kontingenzkoeffizienten. Um das Ganze etwas übersichtlicher zu halten, habe ich noch einmal eine andere Tabelle aufgezeichnet. Ihr seht schon, es wird ziemlich viel Aufwand sein, Chi-Quadrat zu berechnen und damit auch zum Kontingenzkoeffizienten zu kommen. Wir haben hier also erst einmal die i, die j. Also hier: i11 kommt also zu h11. Wir haben hier die absoluten Häufigkeiten und wir haben hier dann die Erwartungshäufigkeiten. Was wir für unser Chi-Quadrat ja brauchen, ist die Differenz zwischen der tatsächlichen Häufigkeit und der Erwartungshäufigkeit. Das Ganze dann noch einmal zum Quadrat und das Ganze dann noch einmal geteilt durch die Erwartungshäufigkeit - für jedes eine einzelne Spalte, damit das schon übersichtlich bleibt. Fangen wir also einmal an: Wir haben jetzt h11-h11. Also: 3-2,5=0,5 Für h12 berechnen wir: 19-12,5=6,5 Und schließlich für h13: 3-10=-7 Damit haben wir jetzt quasi die 1. Zeile, also wenn wir uns das noch einmal vorstellen, die BWLer, abgehakt - was die Differenzen angeht. Kommen wir zu den VWLern, also zur 2. Zeile. Wir haben also: 6-2,5=3,5 13-12,5=0,5 Und 6-10=(-4) Ihr seht, hier haben wir auch noch negative Vorzeichen, die natürlich gleich durch das Quadrat wieder verschwinden. Kommen wir also zur 3. Zeile, zu den Mathematikstudenten. Wir haben h31, also die tatsächliche, absolute Häufigkeit von Mathematik-Studenten, die gut bewertet wurden: 1-(die Erwartungshäufigkeit 5)=(-4) Dann die tatsächliche Häufigkeit der Mathematik-Studenten, die mittelmäßig bewertet wurden, also h32: 18-25=(-7) Und: 31-20=11 Jetzt haben wir also die Differenzen berechnet. Was wir jetzt als Nächstes machen müssen, ist diese Differenzen zu quadrieren. Wir nehmen also einfach diese Spalte, quadrieren den jeweiligen Eintrag und tragen ihn in die nächste Spalte ein. 0,52=0,5×0,5=0,25 6,52=6,5×6,5=42,25 -72=(-7)×(-7)=49 Und hier sehen wir, das Minuszeichen ist verschwunden, denn wenn wir Minus mit Minus multiplizieren, wird daraus Plus. Gehen wir weiter: 3,52=3,5×3,5=12,25 0,52, hatten wir hier oben schon einmal, 0,25. Und -4×(-4)=16. Hier haben wir das Gleiche: -4×(-4)=16 -72, hatten wir hier schon, ergibt 49. Und zu guter Letzt: 112=121 Wir sehen also, wir haben hier nur positive Einträge. Was wir jetzt noch brauchen, um Chi-Quadrat zu berechnen: Wir müssen jeweils die quadrierten Differenzen durch die Erwartungshäufigkeit teilen, dann noch aufsummieren und dann haben wir Chi-Quadrat. Um jetzt zu unserem Chi-Quadrat und damit auch zu unserem Kontingenzkoeffizienten zu kommen, müssen wir noch die quadrierten Differenzen durch die Erwartungshäufigkeit teilen. Wir nehmen also unsere quadrierte Differenz, hier für den ersten Eintrag 0,25, teilen ihn durch die Erwartungshäufigkeit, also hier 2,5, und erhalten in diesem Fall: 0,25÷2,5=0,1 Beim zweiten Eintrag nehmen wir also: 42,25÷(die Erwartungshäufigkeit 12,5)=3,38 Für unseren dritten Eintrag wird es etwas leichter: 49÷10=4,9 Damit haben wir das jetzt also für die BWLer, gehen wir zu den VWLern über. Wir haben hier: 12,25÷2,5=4,9 Machen weiter: 0,25÷12,5=0,02 Und: 16÷10=1,6 Das waren also auch die VWLer, jetzt die Mathematik-Studenten. Wir sind also, wenn ihr euch die ursprüngliche Kontingenztafel anguckt, jetzt in der dritten Zeile bei den Mathematik-Studenten. Wir haben hier: 16÷5=3,2 49÷25=1,96 Und: 121÷20=6,05 Damit haben wir jetzt also alles, was wir brauchen. Wir haben hier unsere einzelnen Einträge, müssen die jetzt nur noch aufsummieren und haben dann Chi-Quadrat. Ich spare mir das Aufsummieren einmal an der Tafel und schreibe Chi-Quadrat einfach einmal als Ergebnis hin: Unser Chi-Quadrat hier ist 26,11. Unser Chi-Quadrat ist aber nicht das, was uns interessiert. Wir wollen ja den Kontingenzkoeffizienten berechnen. Wir erinnern uns: Unser Kontingenzkoeffizient ist sqrt((Chi2)÷Chi2+n). Also hier: K=sqrt(26,11÷(100+26,11)) 100n war unser Stichprobenumfang. Unser K ist also in diesem vorliegenden Beispiel ungefähr 0,455 - also deutlich von 0 verschieden. Das heißt, wir haben einen Kontingenzkoeffizienten von 0,455. Das heißt, es besteht irgendein, wie auch immer gearteter, Zusammenhang zwischen unseren beiden Merkmalen, die wir anhand dieses Datensatzes untersucht haben. Okay, das war jetzt die Übung zum Kontingenzkoeffizienten. Im nächsten Video machen wir weiter mit zweidimensionalen Daten, gucken uns noch einmal die absoluten und die relativen Häufigkeiten an, vielleicht auch, wie man eine Kontingenztafel aus einem Text ausbaut, gucken uns dann noch einmal bedingte, relative Häufigkeiten an und bleiben also noch eine ganze Weile in diesem Block für zweidimensionale Daten. Ich bedanke mich fürs Zuschauen, hoffe, ihr habt einiges mitgenommen, was ihr auch gebrauchen könnt und sage tschüss.

Informationen zum Video
7 Kommentare
  1. Default

    Der Chi-Quadrat Korrelationskoeffizient sagt etwas über die Stärke eines Zusammenhangs zweier Variablen aus. Ist er =0, so besteht eine völlige Unabhängigkeit beider Variablen. Ist er sehr groß, kann man von einem starken Zusammenhang ausgehen.

    Problematisch ist Chi-Quadrat allerdings, weil die Obergrenze nicht fest ist, sondern von der Größe der Kontingenztafel abhängt. Daher wird der normierte Kontingenzkoeffizient ins Spiel gebracht. dieser beschränkt sich in seinem Wertebereich auf [0,1[ und ist damit deutlich einfacher zu interpretieren.

    Von Statistik Jona, vor fast 4 Jahren
  2. Default

    chi-quadrat = quadratische kontingenz? und was sagt der nomierter Kontingenzkoeffizient aus? lg

    Von Tullfa, vor fast 4 Jahren
  3. Default

    was sagt chi-quadrat denn aus? wenn es =0 ist sagt es aus dass die erwartungswerte = den tatsächlichen werten ist aber sonst?!

    Von Tullfa, vor fast 4 Jahren
  4. Default

    Wenn wir 12 als 1 setzen, dann ist 18 mit 1,5 zu setzen und 36 mit 3.

    Von Statistik Jona, vor etwa 4 Jahren
  5. Default

    hi, irgendwie verstehe ich nicht ganz wie du auf auf dem Verhaltnis 1.5 kommst, ich bekomme nämlich immer 2 raus??

    Von Meliheli, vor etwa 4 Jahren
  1. Default

    HI, hab nen bischen Klausurstress, die Frage war echt dämlich. Kann sie leider nicht löschen aber betrachte sie als gelöst. :D lg Daniel

    Von Anotherbrick000, vor fast 5 Jahren
  2. Default

    hi, wie rechne ich x" aus wenn ich mehr Zeilen als PSalten habe, also z.B noch zusätzliche Fächer. Lg DAniel

    Von Anotherbrick000, vor fast 5 Jahren
Mehr Kommentare