Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 33: Kontingenztafel (bedingte relative Häufigkeiten)

Hallo! Schön, dass ihr alle wieder zuguckt. Wir sind heute immer noch bei Kontingenztafeln, also bei mehrdimensionalen Daten und beschäftigen uns heute mit bedingten relativen Häufigkeiten. Damit ihr erst einmal versteht, was das ist und wofür man das braucht, kommt erst einmal ein kleines Beispiel. Sagen wir mal, wir haben die Ergebnisse einer Statistikklausur. An dieser Statistikklausur haben 2 verschiedene Studiengänge teilgenommen, VWLer und BWLer. Und zwar haben 165 VWLer teilgenommen und 70 BWLer. In dieser Statistikklausur sind jetzt 61 Leute durchgefallen und 174 haben bestanden. Wir wollen uns jetzt also die Frage stellen: Welcher der Studiengänge ist besser? Oder: Die Studenten welchen Studiengangs haben besser in dieser Statistikklausur abgeschnitten? Um das mal formal korrekt zu sagen. So, wie gucken wir uns das an? Sagen wir, wir haben 61 Durchfaller. Also wir sagen erst einmal, die Leute die durchgefallen sind, gucken wir uns an. Und zwar wieder nach Studiengängen, VWL und BWL. Wir haben insgesamt 61 Leute, die durchgefallen sind. Davon sind 48 VWLer und 13 sind BWLer. Wir haben hier also 48/61 und hier 13/61. Das heißt, die Quote der VWLer an den gesamten Durchfallern ist deutlich größer als die der BWLer. Können wir jetzt daraus schließen, dass die VWLer auch insgesamt viel schlechter abgeschnitten haben in dieser Statistikklausur oder nicht? Können wir natürlich nicht, sonst würde ich dieses Beispiel ja nicht bringen. Wir müssen natürlich auch noch berücksichtigen, dass ja viel mehr VWLer an der Statistikklausur überhaupt teilgenommen haben als BWLer und es deswegen auch wenig verwunderlich ist, dass natürlich auch mehr VWLer durchgefallen sind als BWLer. Wenn jetzt 1000 VWLer teilnehmen und nur 5 BWLer, rechnen wir ja auch damit, dass mehr VWLer durchfallen als BWLer in den absoluten Zahlen. Okay, da das hier noch nicht die Lösung auf unsere Frage sein kann, welche Studenten haben besser abgeschnitten, müssen wir jetzt also gucken, wie können wir diese Frage beantworten? Was müssen wir dafür noch an Vorleistungen haben? Das sind also bedingte relative Häufigkeiten. Bedingte relative Häufigkeiten bedeuten, ich setze eine Ausprägung des einen Merkmals voraus und möchte dann den relativen Anteil des anderen Merkmals in dieser einen Ausprägung wissen. Das heißt, ich möchte den Anteil aller ai, also der i-ten Ausprägung des Merkmals x wissen, gegeben, dass ich mich in der Spalte bj befinde. Also, wenn wir mal an das Beispiel von gerade denken, ich möchte den Anteil der VWL-Studenten wissen, also hier wäre das ja VWL, gegeben, dass ich mich in der Spalte "bestanden" befinde. Das hier liest man: Die relative Häufigkeit fx von ai gegeben bj. Dieser Strich steht für "gegeben". Das rechnet sich folgendermaßen: Ich nehme die absolute Häufigkeit meiner Zelle, die ich haben möchte, also hij und teile durch die Randhäufigkeit der Spalte, in der ich mich befinde, also das, was ich als gegeben voraussetze. Hier seht ihr, die bedingte Häufigkeit berechnet sich nicht als absolute Häufigkeit durch Gesamtstichprobenumfang, sondern ich nehme hier die Randhäufigkeit, weil mich nur diese interessieren, die sich auch in dieser Spalte befinden. Das Ganze kann ich natürlich auch für mein Merkmal y machen. Dann sage ich, okay, mich interessiert bj|ai, also mich interessiert der Anteil der Leute, die bestanden haben, gegeben ich gucke mir nur die VWLer an. Und das berechnet sich auch im Prinzip analog. Also, ich nehme die absolute Häufigkeit hij und teile diesmal durch die Zeilenhäufigkeit der Zeile, in der wir uns befinden. Klingt jetzt alles noch sehr theoretisch - Zeilenhäufigkeit, Spaltenhäufigkeit, was war das noch mal? Wo war das? Kann man sich vielleicht noch nicht so bildlich vorstellen. Deshalb kommt ja jetzt noch einmal das gleiche Beispiel von eben, da berechnen wir das alles und dann werdet ihr sehen, das ist eigentlich alles geschenkt. Gut, dann wissen wir, was bedingte relative Häufigkeiten sind. Wir haben wieder das Beispiel von gerade. Bwler, VWLer, bestanden und nicht bestanden. Die Zahlen sind auch gleich geblieben. Und wir wollen jetzt unsere bedingten relativen Häufigkeiten berechnen. Wir können, wie wir das gerade gesehen haben, das quasi in 2 Richtungen machen. Wir können den Anteil von unserem Merkmal x gegeben y wissen wollen oder y gegeben x.  Wir fangen mal mit fx an. Also, wir suchen fx von VWL gegeben bestanden. Was heißt das jetzt? Das heißt, uns interessiert der Anteil an VWL-Studenten an allen Studenten, die bestanden haben. Wir sehen hier vorne: hij÷h Punkt j. Also, unsere absolute Häufigkeit für VWL und bestanden geteilt durch die Randhäufigkeit für bestanden. Macht also: VWL und bestanden=117÷174 und das ergibt 0,67. Das Gleiche machen wir jetzt natürlich auch noch für BWL-Studenten. Also, der Anteil der BWL-Studenten an allen Studenten, die bestanden haben. Das sind also 57 BWL-Studenten haben bestanden, 174 Studenten haben überhaupt bestanden, macht also ungefähr 0,33. Das ist als der Anteil der BWL-Studenten an allen Studenten, die bestanden haben.  Das Gleiche machen wir jetzt auch noch einmal für die Studenten, die nicht bestanden haben. Also wir sagen: Okay, uns interessiert der Anteil an VWL-Studenten unter allen Studenten, die nicht bestanden haben. Ich mache hier ein b mit einem Strich drüber, vielleicht kennt ihr das schon aus irgendeiner Mathevorlesung, so was wie Algebra oder vielleicht auch aus der Informatik. Dieser Strich über einen Variablen bedeutet quasi eine Negation. Das heißt, wir haben unser b=Leute bestanden, b-Strich, die Negation davon, bedeutet nicht bestanden. Das ist eine vereinfachte Darstellungsform. Also, wir haben 48 VWL-Studenten, die nicht bestanden haben und wir haben 61 Studenten insgesamt, die nicht bestanden haben, macht also eine Quote von 0,79. Und das Gleiche jetzt auch noch einmal für die BWL-Studenten. Uns interessiert, welchen Anteil die BWL-Studenten an den Studierenden haben, die nicht bestanden haben. Also: 13 BWL-Studenten haben nicht bestanden, 61 Studenten insgesamt haben nicht bestanden, macht also 21 Prozent. Wie wir das ja gerade schon bemerkt haben, helfen uns diese Zahlen nicht so richtig weiter, denn da wird nicht in Betracht gezogen, wie viele Studenten überhaupt aus jedem Studiengang an dieser Klausur teilgenommen haben. Jetzt helfen uns also wohl nur die anderen bedingten Häufigkeiten. Wir bedingen also y nach x. Uns interessiert der Anteil von Leuten, die bestanden haben unter allen VWL-Studenten. So: fy (bestanden unter VWL). Das heißt, wir wollen den Anteil der VWL-Studenten wissen, die bestanden haben. Gegeben, wir gucken uns nur die VWL-Studenten an, interessiert uns der Anteil der Leute, die bestanden haben. Da haben wir wieder unser hij, also die VWL-Studenten, die bestanden haben, geteilt durch die Zeilenhäufigkeit der VWL-Studenten, also 165, und das macht 0,71. Das heißt, 71% der VWL-Studenten haben bestanden. Jetzt natürlich noch mal das Gleiche für nicht bestanden. Welcher Anteil der VWL-Studenten hat nicht bestanden? Und da gucken wir: Insgesamt haben 48 VWL-Studenten nicht bestanden und wir haben, wie gesagt, 165 VWL-Studenten. Das macht 0,29, ungefähr. Also, ungefähr 29% der VWL-Studenten haben diese Klausur nicht bestanden. Wenn wir das jetzt noch für die BWL-Studenten ausrechnen, haben wir vergleichbare Zahlen. Wir sagen: Ungefähr, grob gerundet 30% der VW-Studenten sind durchgefallen, wie viel Prozent der BWL-Studenten sind durchgefallen? Also: fy (bestanden gegeben wir gucken uns nur BWL-Studenten an). Wir haben also 57 BWL-Studenten, die bestanden haben, 70 BWL-Studenten insgesamt. Also, 57÷70, macht 0,81. Und das Gleiche jetzt auch für den Anteil der BWL-Studenten, die nicht bestanden haben. Macht also hier 13 BWL-Studenten haben nicht bestanden, von insgesamt 70. Macht also 0,19. Und das sind jetzt Zahlen, die wir tatsächlich vergleichen können. Wir haben 71% der VWL-Studenten haben bestanden, wohingegen von den BWL-Studenten glatte 81% bestanden haben. Das heißt, die BWL-Studenten waren deutlich erfolgreicher als die VWL-Studenten in dieser Klausur. Eine Tatsache, die wir aus diesen Zahlen nicht herauslesen können. Hier haben wir gesagt: Ungefähr 67% der Leute, die bestanden haben, waren VWL-Studenten und nur 33% der Leute, die bestanden haben, waren BWL-Studenten, aber diese Zahlen sind natürlich verzehrt; verzehren unsere Wahrnehmung, weil sie nicht berücksichtigen, wie viele Studenten von jedem Studiengang tatsächlich teilgenommen haben. Das hier sind die Quoten, die uns tatsächlich interessieren. Das hier sind die Erfolgsquoten und das hier sind die Durchfallquoten, jeweils nach dem jeweiligen Studiengang. Wenn also so eine Frage gestellt wird anhand einer Kontingenztafel: Welcher Studiengang war besser, welcher war erfolgreicher in dieser Klausur, dann reicht es nicht, einfach irgendwelche relativen Häufigkeiten zu berechnen, sondern man muss erst einmal bedingte relative Häufigkeiten berechnen und dann muss man gucken, dass man die richtigen berechnet, sodass die Zahlen auch vergleichbar sind. Das war es für heute. Das waren die bedingten relativen Häufigkeiten. Ich bedanke mich fürs Zuschauen, hoffe, ihr habt einiges mitgenommen und freue mich auf das nächste Mal. Tschüss.   

Informationen zum Video
5 Kommentare
  1. Default

    könnte hiernach nicht ein video kommen zum mittelwert berechnen aus einer kontingenztafel wo nur %-sätze drin stehn? leider fehlt das :(

    Von M Dormans, vor mehr als 2 Jahren
  2. Default

    Stimmt, danke für den Hinweis.

    Von Statistik Jona, vor fast 3 Jahren
  3. Default

    ...zur Testfrage: wenn nur 300 Studenten teilgenommen haben, wie können dann 250 bestehen und 150 durchfallen? :)

    Von Friefrie, vor fast 3 Jahren
  4. Default

    Nein, prinzipiell macht es keinen Unterschied.

    Von Statistik Jona, vor fast 4 Jahren
  5. Default

    Macht es einen Unterschied, ob man die BWl, VWLer der statistischen Größe X oder Y zuordnet?

    Von Tina4444, vor fast 4 Jahren