Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 32: Kontingenztafel (gemeinsame absolute und relative Häufigkeiten)

Hallo! Schön, dass ihr alle wieder zuguckt. Wir sind, wie ihr seht, weiterhin bei den mehrdimensionalen Daten und weiterhin bei den Kontingenztafeln. Da gucken wir uns heute mal besonders die gemeinsamen Häufigkeiten an, die absoluten und die relativen und die Randhäufigkeiten. Wir machen auch noch mal eine kleine Übung dazu, wie man so eine Kontingenztafel aus einem Text aufstellt. Wir haben ja in den vorherigen Videos das hier kennengelernt. Die allgemeine Form einer Kontingenztafel mit den Einträgen als absolute gemeinsame Häufigkeit. Wir haben hier also die verschiedenen h, hij allgemein gesprochen. Und das Ganze kann man natürlich auch für relative Häufigkeiten machen. Wobei wie immer gilt, fij=hij/n. Also, die relative Häufigkeit ist die absolute Häufigkeit geteilt durch den Stichprobenumfang. Wir haben dann also hier unsere Einträge f11 bis f1k, haben hier fij und natürlich hier auch hl1 und hlk und natürlich alle anderen, die dazwischen sind. Also, wir können unsere Kontingenztafel auch mit relativen Häufigkeiten füllen, das ist überhaupt kein Problem. Hier muss natürlich auch ein f stehen und kein h. Wir können natürlich auch unsere Randhäufigkeiten umschreiben. Wir können dann auch statt h.1 f.1 schreiben. Wohingegen natürlich f.1 definiert ist als 1/n×h.1 oder, wenn wir jetzt noch einmal die Definition von h.1 weiter aufdröseln, 1/n× die Summe über alle i von hi1. Also, wir summieren alle absoluten Häufigkeiten der 1. Spalte, teilen das durch den Stichprobenumfang n und haben unsere relative Spaltenhäufigkeit der 1. Spalte. Natürlich genau so für f.j und f.k und f1., fi. und fl.. Hier steht natürlich n. n ist die Summe der Zeilenhäufigkeiten und n ist auch die Summe der Spaltenhäufigkeiten. Hier steht natürlich nicht n. Wir befinden uns ja hier im relativen Bereich, also hier steht 100 Prozent oder 1. Das ist wichtig, wenn ihr mit relativen Häufigkeiten arbeitet, steht hier eine 1 und nicht unser Stichprobenumfang. Nun ist natürlich n, in so einer Kontingenztafel, auch definiert. Wir haben also, wie ich gerade schon erwähnt habe, n= die Summe über alle i, aller verschiedenen Zahlenhäufigkeiten, also aller hi., oder n= die Summe über alle j von allen Spaltenhäufigkeiten, also aller h.j, oder auch n= die doppelte Summe über alle i und alle j aller Einträge unserer Matrix. Das gilt natürlich adäquat auch hier für 1, wenn wir jeweils ein 1/n davor setzen. Also, wir können unsere Kontingenztafel, um das mal festzuhalten, mit absoluten Häufigkeiten füllen, können sie auch mit relativen Häufigkeiten füllen, das rechnet man genau so um, wie sonst auch. Bei absoluten Häufigkeiten steht hier unten natürlich unser Stichprobenumfang n als Summe und bei relativen Häufigkeiten steht der Stichprobenumfang 1. Die größte Schwierigkeit, die sehr viele Leute mit Kontingenztafeln haben, ist nicht sie zu interpretieren oder mit ihnen zu arbeiten, mit ihnen zu rechnen, sondern sie aufzustellen aus einem Text. Genau das werden wir jetzt mal zusammen machen. Und dann solltet ihr hoffentlich wissen, wie so etwas funktioniert, wenn ihr nur einige Ansatzpunkte aus dem Text habt, eine ganze Kontingenztafel aufzustellen. Ok, wir wollen jetzt also mal eine Kontingenztafel aufstellen, aus einem Text heraus. Wenn man so eine Aufgabe hat, gibt es immer 2 Arten der Einträge. Zum einen die Einträge, die sich direkt aus dem Text erschließen und zum anderen die Einträge, die sich nachher noch ergänzen lassen. Ich mache mal die Einträge, die sich direkt aus dem Text erschließen mit Rot und die anderen mit Schwarz. Ich lese den Text jetzt mal vor, ihr solltet es hier dann auch eingeblendet sehen. Und wir versuchen mal, ob wir diese Kontingenztafel füllen können. Wir haben als Merkmale x eine Apfelsorte, die getestet werden soll und als y die jeweilige Bewertung der Tester. Unser 1. Texthinweis: Wir haben eine Gesamtzahl der getesteten Äpfel von 200. Also, Gesamtzahl lässt darauf schließen, dass es sich hierbei um den Stichprobenumfang handelt. Also haben wir ein n von 200. Ok, 2. Texthinweis: 15 Prozent der getesteten Äpfel, waren Äpfel der Sorte A, 15 Prozent. Wir wollen hier mal die absoluten Häufigkeiten eintragen, also schreiben wir hier hin, wir haben jetzt 15 Prozent der getesteten Äpfel, waren Äpfel der Sorte A, sagt uns also etwas über diese Randhäufigkeit aus. Wir haben hier also 0,15×200, wir wollen ja die absoluten Häufigkeiten haben. Also haben wir: 30 Äpfel gab es insgesamt der Sorte A, die getestet wurden. Ok, 3. Hinweis im Text. Es wurden insgesamt 100 Äpfel für gut befunden. Scheint sich wieder um eine Randhäufigkeit zu handeln. Die Randhäufigkeit von gut, 100 Äpfel wurden für gut befunden, also haben wir hier diese Randhäufigkeit 100. Ok, also jetzt unser Punkt 4. Von den getesteten Äpfeln der Sorte C, waren 25 gut und 15 schlecht. Ganz eindeutig, es geht nur um die Äpfel der Sorte C. Wobei jetzt direkt gesagt wird, 25 waren gut und 15 waren schlecht. Ok, relativ simpel. Kommen wir zum nächsten Hinweis. Von der Sorte A wurden 5 mit mittel bewertet. Also, wir befinden uns nur wieder bei den Äpfeln der Sorte A und 5 davon wurden mittelmäßig bewertet. Nächster Texthinweis. Von Sorte C wurden genau so viele für gut befunden, wie von Sorte A. Aha, wir wissen also, dass von Sorte A gut der Eintrag, genau so groß sein muss wie von Sorte C und gut. Also haben wir bei der A auch 25. So 7. Texthinweis. Insgesamt wurden nur 10 Prozent aller Äpfel schlecht bewertet, 10 Prozent. Wir haben also wieder eine Randhäufigkeit, und die Randhäufigkeit, wie viele insgesamt schlecht bewertet wurden. 10 Prozent. Also 0,1×200=20. Damit haben wir schon einiges erreicht und können noch mal ein paar weitere Sachen hier ausfüllen. Wir haben noch einen letzten Texthinweis, und zwar, von Sorte A und Sorte B zusammen, wurden so viele Äpfel getestet wie von Sorte C. Also A+B=C, das heißt auf A und B entfällt die Hälfte der getesteten Äpfel und auf C noch mal die Hälfte. Das heißt wir haben hier also die Hälfte aller, macht 100 und bei B, da ja A+B auch 100 sein müssen, haben wir hier 70. Ok, das waren jetzt also die Informationen, die wir aus dem Text direkt ableiten konnten. Ihr seht, unsere Kontingenztafel sieht noch relativ leer aus. Wollen wir das also noch ein bisschen füllen. Fangen wir mit den Randhäufigkeiten an. Wir haben ja unsere Randhäufigkeit für unsere Bewertung mittel noch nicht. Wissen aber, dass alle Randhäufigkeiten zusammen 200 ergeben müssen. Können also jetzt sagen, 200-100-20. Also Gesamtstichprobenumfang minus Randhäufigkeit für schlecht minus Randhäufigkeit für gut macht 80. Also Randhäufigkeit 80. Ok, gucken wir weiter. Gehen wir mal in die 1. Spalte für gut. Insgesamt sollen wir eine Häufigkeit von 100 haben. Wir haben bisher bei A=25, bei C=25, also 50. Bleibt hier also noch 100-50=50. So weit, so gut. Gehen wir mal weiter. Wir gucken uns immer die Spalten oder Zeilen an, wo wir schon 2 Einträge haben. Trifft für Spalte A zu. Wir haben also eine Gesamthäufigkeit, also wie viele Äpfel von A wurden überhaupt getestet, 30. Davon 25 gut, 5 mittel, bleibt also für schlecht keiner mehr übrig. Haben hier also eine dicke 0. Wir können uns jetzt ein bisschen hier im Kreis bewegen. Wir haben hier eine 0 und hier eine 15, also insgesamt bisher 15, die schlecht bewertet wurden. Am Ende sollen es 20 sein. Das heißt, von B müssen auch nochmal 5 mit schlecht bewertet werden, oder worden sein, damit diese Randhäufigkeit zutrifft. Gut, machen wir weiter. Wir haben von C 25, die für gut befunden wurden, 15 die schlecht bewertet wurden und insgesamt sollen es 100 werden. 25+15=40, also ist hier unser Eintrag 100-40=60. Damit können wir auch unsere letzte Häufigkeit, die uns noch fehlt, eintragen. Das heißt, wir haben hier 5+60=65, insgesamt wurden 80 für mittel befunden, oder mittelmäßig bewertet. Macht also 80-65=15. So haben wir also aus unserem Text, unsere Kontingenztafel aufgestellt und ausgefüllt. Das macht relativ vielen Probleme, gerade wenn es etwas komplizierter wird. Hier waren jetzt die Texthinweise alle noch sehr eindeutig, aber es wird sicherlich noch Texte geben, die nicht so leicht zu durchschauen sind. Da könnte es eventuell Probleme bereiten, aber ihr wisst ja jetzt, wie ihr vorgehen müsst. Es ist alles immer sehr logisch, auch eigentlich sehr simpel. Das war auch schon die Übung, die Vorlesung für heute, zum Thema Kontingenztafel und gemeinsame Häufigkeit, relative Häufigkeit, Randhäufigkeit und wir haben hier unsere Kontingenztafel aus einem Text ausgefüllt. Im nächsten Video beschäftigen wir uns dann mit bedingten relativen Häufigkeiten. Ich erkläre, was das ist, wir gucken uns ein Beispiel an, wie man das macht. Wir bleiben also noch in den Kontingenztafeln. Ich bedanke mich für das Zuschauen, hoffe ihr habt einiges mitgenommen, sage bis zum nächsten Mal und tschüss.  

Informationen zum Video