Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 41: Mehrdimensionale Kontingenztabelle

Guten Tag, schön, dass ihr alle wieder zuguckt! Nachdem wir im letzten Video die zweidimensionalen Daten abgeschlossen haben, kommen wir heute zu den mehrdimensionalen Daten und dabei zur mehrdimensionalen Kontingenztabelle. Bisher hatten wir mal so was. Wir hatten 2 Merkmale, X und Y, und eine zweidimensionale Kontingenztabelle. Ja? Wir wollen heute mal gucken, was wir denn machen, wenn wir noch eine 3. Dimension dazufügen wollen oder eine 4. oder eine 5. Also, wir haben einen Eisverkäufer und dieser Eisverkäufer hat an 100 Tagen mal geguckt, wie gut sein Verkauf war und wie das Wetter an dem Tag war, um vielleicht zu gucken: Gab es Zusammenhänge zwischen dem Wetter und meinen Verkaufszahlen? So, er hat jeweils 2 Kategorien gemacht. Er sagt: "Okay, es war entweder nasses Wetter oder es war trocken." Das heißt also, es hat geregnet oder es hat nicht geregnet. "Und mein Verkauf war gut oder mein Verkauf war schlecht." Und daraus ergibt sich jetzt also diese Kontingenztafel. Das heißt er hatte 23 Tage, an denen er gut verkauft hat und das Wetter regnerisch oder nass war. Dann hatte er 33 Tage, an denen er gut verkauft hat bei trockenem Wetter. 34 Tage, an denen er schlecht verkauft hat bei nassem Wetter und 10 Tage, an denen er bei trockenem Wetter schlecht verkauft hat. Okay, das sind jetzt also die Ergebnisse, die unser Eisverkäufer hat. Aber vielleicht reicht ihm das noch nicht, vielleicht möchte er noch eine weitere Kategorie hinzufügen - er hat nämlich auch noch verschiedene Standplätze. Wir nennen das Ganze jetzt mal Z und sagen, Z ist unser Standplatz, und zwar steht er immer entweder auf dem Marktplatz mit seinem Eiswagen oder er steht auf dem Parkplatz von einem Baumarkt. So, und jetzt möchte er also gucken, wie das denn aussieht mit seinen verschiedenen Standplätzen. Wir erweitern also unsere Kontingenztabelle und machen daraus eine dreidimensionale. So, wie geht das? Na ja, irgendwo müssen wir jetzt hier also noch eine zusätzliche Dimension einfügen. Das können wir im Prinzip machen, wo wir wollen, wir müssen uns nur entscheiden. Und wir sagen, wir unterteilen hier unser Y im Prinzip noch mal um die neue Kategorie. So, machen wir das hier also alles mal weg und fügen quasi eine weitere Spalte ein. So, und wir sagen jetzt, okay, es gab zwei Möglichkeiten des Standplatzes. Also entweder stand er auf dem Marktplatz oder auf dem Parkplatz. Also MP steht für Marktplatz und PP für Parkplatz. So, und jetzt können wir das also wieder ausfüllen. Natürlich haben wir die Zahlen, die vorher hier drinnen standen, also zum Beispiel die 23, die, wo er gut verkauft an einem nassen Tag, müssen wir jetzt natürlich auf Marktplatz und Parkplatz aufteilen. So, ich habe jetzt gesagt, von den 23 Tagen, an denen er gut verkauft hat an einem nassen Tag, stand er 12-mal auf dem Marktplatz und 11-mal auf dem Parkplatz des Bauhauses. So, an den trockenen Tagen, an denen er gut verkauft hat, stand er 21-mal auf dem Marktplatz und 12-mal auf dem Parkplatz. An den Tagen, an denen er schlecht verkauft hat bei nassem Wetter, stand er 30-mal auf dem Marktplatz und lediglich 4-mal auf dem Parkplatz. Und an den trockenen Tagen, an denen er schlecht verkauft hat, stand er 4-mal auf dem Marktplatz und 6-mal auf dem Parkplatz. Wir sehen also, an diesen Zahlen hier ändert sich nichts, die bleiben gleich, aber hier, dadurch, dass wir natürlich zusätzliche Spalten haben, kommen natürlich neue Zwischensummen raus. Also hier die Tage, an denen er gut verkauft hat, wo er auf dem Marktplatz stand, sind jetzt 33 gewesen. Die Tage, an denen er gut verkauft hat und auf dem Parkplatz stand, sind 23. Die Tage, an denen er schlecht verkauft hat und auf dem Marktplatz stand, sind 34. Und an 10 Tagen hat er schlecht verkauft und stand auf dem Parkplatz. Gut, so haben wir jetzt also in unsere zweidimensionale Kontingenztabelle eine weitere Dimension hinzugefügt. Jetzt also die Frage: Können wir da noch mehr zufügen? Natürlich, wir können im Prinzip so viele Dimensionen zufügen, wie wir wollen. Wir können in die 4., in die 5., in die 6. gehen, wird natürlich mit jedem Mal etwas unübersichtlicher. Wir haben ja gerade gesehen, gerade hatten wir hier noch 4 Einträge, jetzt haben wir schon 8. Wenn wir jetzt natürlich noch eine weitere Dimension da zufügen, werden es entsprechend mehr. Aber gucken wir uns doch einfach an, wie das funktioniert. Gut, ich habe jetzt also mal einen kleinen Sprung gemacht und das Ganze jetzt schon mal vierdimensional gemacht. Wir haben jetzt also als zusätzliches Merkmal noch unser V - die Jahreszeit. Also unser Eisverkäufer verkauft sowieso nur im Frühling und im Sommer, sobald es Herbst wird, wird es zu kalt, geht er irgendwie nach Italien, wird da Skilehrer. So, und wir haben jetzt hier also zusätzliche Zeilen bekommen. Ich habe mal die, die jetzt blau sind, waren in der vorherigen Tabelle eine Zahl, also hier die 5 und die 7 waren vorher halt die 12, die auf dem Marktplatz bei gutem Verkauf und nassen Tagen beobachtet wurden und die 13 und die 8 waren halt vorher die 21, das waren 21 gute Verkaufstage auf dem Marktplatz bei trockenem Wetter. Die sind jetzt halt noch mal aufgeteilt in Frühling und in Sommer. An den Spaltenhäufigkeiten ändert sich natürlich nichts, weil wir ja keine zusätzlichen Spalten dazubekommen haben, aber natürlich haben wir jetzt doppelt so viele Zeilen, also da hat sich auch wieder was geändert. Jetzt ist natürlich die Frage nach der Aussagekraft: Ist diese mehrdimensionale Kontingenztabelle jetzt wirklich so übersichtlich, wie wir es gerne hätten und können wir daraus wirklich alles ablesen, was wir wissen wollen? Vierdimensional geht das ja vielleicht noch, wir haben 4 Merkmale, 4 Spalten, 4 Zeilen, 16 Einträge. Kann man vielleicht noch überblicken. Wie sinnvoll das jetzt ist, wie gut das auszuwerten ist, sei mal dahingestellt. Aber sagen wir mal, wir wollen jetzt noch ein 5. Merkmal machen. Nennen wir das ganze mal W und W wäre jetzt die Tageszeit, also da wären die Tage noch mal unterteilt in vormittags und nachmittags. Habe ich vormittags gut verkauft, habe ich nachmittags gut verkauft? Habe ich vielleicht vormittags schlecht verkauft und dafür nachmittags gut? So, und wenn wir jetzt hier die Tageszeiten noch einfügen, also sagen wir mal, wir fügen das einfach hier noch ein, bauen hier also noch mal 4 extra Spalten mit rein, dann können wir uns vorstellen, wird das Ganze schon etwas unübersichtlicher, also es artet aus. Je mehr Dimensionen wir haben, umso unübersichtlicher wird das Ganze natürlich. Bei 4, 5, 6 ist dann irgendwann, vielleicht auch logisch gesehen, Schluss. Theoretisch können wir so viele Dimensionen reinpacken, wie wir wollen. Wir können das auch 100 machen, aber irgendwann verliert ja das Ganze auch an Aussagekraft und vor allem auch an Übersichtlichkeit. So, das als kleiner Exkurs zur mehrdimensionalen Kontingenztabelle. Das war's auch schon wieder für heute. Im nächsten Video beschäftigen wir uns noch einmal mit den mehrdimensionalen Daten, bevor wir dann den großen Block der Wahrscheinlichkeitsrechnung anfangen und also wirklich mal zum Kern der Statistik vordringen, zu dem wirklich wichtigsten Part. Ich bedanke mich fürs Zuschauen, sage bis zum nächsten Mal - und tschüss!

Informationen zum Video
1 Kommentar
  1. Default

    Gibt es auch ein Video das Odds ratio erklärt?

    Von Kim Morgaine, vor fast 3 Jahren