Textversion des Videos

Transkript Statistik Video 38: Grafische Darstellung zweidimensionaler Daten

Hallo, schön, dass ihr alle wieder zuguckt. Wir beschäftigen uns heute mit der grafischen Darstellung zweidimensionaler Daten, vor allem mit dem Streudiagramm. Das Streudiagramm ist die grafische Darstellung von beobachteten Wertepaaren von 2 Merkmalen. D. h., heißt wir haben, wie schon in den letzten Videos, 2 Merkmale und bekommen dazu Wertepaare, also x(i) und y(i), die zusammengehören, weil sie an dem gleichen Merkmalsträger erhoben wurden. Diese Wertepaare werden dann in ein kartesisches Koordinatensystem eingezeichnet. D. h., wir haben auf der einen Achse y und auf der anderen Achse x. Und wenn wir das machen, dann entsteht dadurch eine sogenannte Punktwolke, was ein wichtiger Begriff ist, solltet ihr euch merken, Punktwolke. Also im Prinzip: Wir haben dann hier ein Koordinatensystem y und x und haben dann hier unsere Einträge, natürlich als Punkte. Schauen wir uns das Ganze mal genauer an. Wenn wir metrische Daten haben, haben wir also hier unser kartesisches Koordinatensystem mit der y-Achse und der x-Achse und darauf tragen wir jetzt unsere Wertepaare ab. D. h. unser Wertepaar x(i), y(i), sagen wir hier ist unser x(i) und hier ist unser y(i), führt uns also zu einem Punkt hier. Wenn wir das jetzt für unsere gesamte Stichprobe machen, egal von welchem Umfang, bekommen wir also hier überall Punkte mit jeweils einem x-Wert und einem y-Wert, so. Das hier bezeichnen wir dann also als Punktwolke, unsere Punkte, die wir hier haben. Wofür eignet sich jetzt diese Darstellung? Wir haben ja, anders als bei eindimensionalen Daten, hier keine Häufigkeitsverteilung, sondern einfach nur unsere x-Werte und unsere y-Werte aufeinander aufgetragen und können uns jetzt hier also unsere Punktwolke angucken. Wir haben erst einmal alle unsere Wertepaare auf einen Blick und können die sehen und natürlich sehen wir auch sofort Ausreißer. D. h., wenn wir jetzt noch einen Wert haben, der irgendwie so gar nicht dazu passt, der irgendwo hier liegt, sehen wir sofort: Aha, da haben wir einen Ausreißer, woran könnte das denn liegen? Zum anderen können wir natürlich vielleicht einen Trend erkennen. Wir hatten ja in den letzten Videos immer schon die Frage: Unabhängig? Abhängig? Vielleicht auch in welche Richtung abhängig? Und vielleicht können wir auch so einen Trend hier erkennen. Wenn jetzt also z. B. unsere Punkte nicht irgendwie verteilt sind, machen wir noch mal das x(i) und das y(i) weg, sondern wir haben, sagen wir, 10 Wertepaare und die sind so verteilt: 7,8,9,10. Da können wir ja schon sagen: Aha, da scheint eine Abhängigkeit zu bestehen, und zwar eine lineare Abhängigkeit. Weil das ja schon so aussieht, als wenn da ein sehr klarer linearer Zusammenhang besteht. Könnte natürlich auch ganz anderes aussehen, es könnte auch irgendwie so aussehen, dann könnten wir sagen: Aha, es scheint auch irgendwie ein Zusammenhang zu bestehen, der ist aber nicht linear, sondern vielleicht quadratisch, also parabolisch. Wir werden in dem folgenden Video uns mal mit der Regressionsanalyse beschäftigen und da ist das nicht so, dass man sich alle Daten anguckt, wie bisher bei der Korrelationsanalyse, und dann sagt "Aha, da scheint ein Zusammenhang zu bestehen", sondern bei der Regressionsanalyse setzt man schon einen bestimmten Zusammenhang voraus, also z. B. einen linearen Zusammenhang oder auch einen quadratischen Zusammenhang und baut darauf seine Analyse auf. D. h., man muss überhaupt erst einmal eine Idee davon bekommen, wie denn die Wertepaare verteilt sind, um dann den richtigen Ansatz zu wählen, um dann noch eine geeignete Analyse zu machen. Und für so etwas ist so ein Streudiagramm immens wichtig. So gut funktioniert das natürlich nur bei metrischen Daten. Bei metrischen Daten haben wir, wie gesagt, einfach unsere stetigen Achsen, d. h., wir haben hier beliebig viele Zwischenschritte, können also x und y schön auftragen und haben kein Problem mehr. Wenn wir jetzt nur, sagen wir, ordinal skalierte Daten haben, haben wir natürlich ein Problem. Dann können wir das nicht mehr so schön aufzeichnen. Wenn wir jetzt, sagen wir, ordinale Kategorien haben, sagen wir Schulnoten. Auf der x-Achse und auf der y-Achse, also hier ist die 1, die 2, die 3, die 4, die 5 und die 6 und auf der y-Achse das Gleiche und wir wollen jetzt unsere Wertepaare auftragen. Also wer hatte in der einen Klausur eine 1 und in der anderen Klausur? Okay, dann gibt es hier einen Punkt. Wer hatte in der einen Klausur eine 1 und in der zweiten eine 2? Machen wir hier einen Punkt. Das Problem ist jetzt: Wenn, sagen wir mal, wir 5 Wertepaare haben, also 5 Personen, die sowohl in der einen Klausur eine 1 geschrieben haben als auch in der anderen Klausur, liegen sie alle genau auf diesem Punkt. Wir müssten also noch so etwas wie eine Häufigkeitsverteilung einbauen, damit diese Darstellung bei ordinalen Daten überhaupt Sinn macht. Wenn wir das natürlich dreidimensional zeichnen würden, könnten wir einfach eine Säule machen. Wäre nicht sonderlich übersichtlich, könnte man aber machen. Aber kein Problem ohne Lösung, auch bei ordinal skalierten Daten gibt es Ideen, wie man das in so einem Streudiagramm darstellen kann. Zwei davon stelle ich euch jetzt vor. Die erste Möglichkeit, die sich ein findiger Statistiker ausgedacht hat, ist das sogenannte Sonnenblumenstreudiagramm. Wir nehmen mal das Beispiel von gerade, wir haben also 2 Klausuren mit den Schulnoten 1 bis 6 und wollen jetzt mal gucken, wie denn da die gemeinsame Häufigkeitsverteilung aussieht. Und dafür machen wir also an jedem Punkt hier so einen Kreis. Ich mach das jetzt einfach mal für alle Einsen, also für alle gemeinsamen Häufigkeiten, bei denen bei der ersten Klausur eine 1 geschrieben wurde. Die Idee von dem Sonnenblumendiagramm ist jetzt, dass man quasi die Häufigkeit, die gemeinsame Häufigkeit, jetzt einzeichnet mit Strichen. Also: Wir bilden an diesen Kreis - zeichnen wir Striche daran für die gemeinsame Häufigkeit. Wenn es also 3 Leute gibt, die sowohl in der 1. als auch in der 2. Klausur eine 1 geschrieben haben, versehen wir also diesen Kreis mit 3 Strichen. Wenn es sagen wir mal 5 Leute gibt oder 6, die in der 1. Klausur eine 1 geschrieben haben, in der 2. eine 3, machen wir also 6 Striche an diesen Kreis. So und ihr seht schon, das Ganze sieht jetzt aus wie eine Sonne. Ich weiß auch nicht, warum es Sonnenblumenstreudiagramm heißt, könnte auch Sonnenstreudiagramm heißen, aber so wird es gemacht. Wir können jetzt noch sagen, okay, Leute, die in der 1. Klausur einen 1 geschrieben haben, in der 2. eine 6, davon gab es 2, also machen wir hier 2 Striche dran. Und so könnte man das jetzt quasi für alle möglichen Kombinationen durchziehen, vielleicht auch nur für alle, die tatsächlich aufgetreten sind, also wenn es niemanden gab, der in der 1. Klausur eine 1, in der 2. eine 2 geschrieben hat, kann man vielleicht diesen Kreis einfach wegnehmen für die bessere Übersichtlichkeit. So sieht man im Prinzip die gemeinsame Häufigkeitsverteilung unserer beiden Merkmale relativ übersichtlich. Man muss dann natürlich noch die Striche auszählen, ist vielleicht etwas blöd, aber wenn man unbedingt ein Streudiagramm haben will und nur ordinale Daten hat, kann man es so machen. Gut, es gibt natürlich auch noch andere Möglichkeiten, dazu komme ich jetzt. Eine andere Möglichkeit, die wir haben, um ordinale Daten in einem Streudiagramm darzustellen, ist ein sogenanntes verwackeltes Streudiagramm oder auf Englisch jittered scatterplot zu erstellen. Und dabei tun wir so, als ob unsere Achsen x und y eigentlich metrisch wären, und bauen uns pseudometrische Daten. Das Ganze ist schon deutlich übersichtlicher, wie ich finde als das Sonnenblumenstreudiagramm, aber ob es wirklich so sinnvoll ist, darüber lässt sich natürlich trefflich streiten, man kann seine ordinal skalierten Daten natürlich auch weiterhin in einer Kontingenztafel darstellen und einfach die gemeinsamen Häufigkeiten eintragen, wäre vielleicht auch nicht so schlecht. Dann haben wir also z. B. ein Wertepaar von 1,1 und 0,9, ein Wertepaar von vielleicht 1,05 und 1,05 und ein Wertepaar von sagen wir 0,8 und 0,8. Und dann haben wir also hier unsere 3 Punkte, die eigentlich alle auf 1 1 liegen, ein bisschen im Raum verteilt, um so auch so eine Art Punktwolke zu bekommen und auch auf einen Blick zu sehen, was für eine gemeinsame Häufigkeitsverteilung wir hier haben. Man muss sich natürlich permanent dabei im Klaren sein, dass die eigentlich alle auf einem Punkt liegen. Also ich darf da jetzt nicht irgendetwas herausinterpretieren, sondern muss immer wissen, dass die eigentlich alle auf dem Punkt 1 1 liegen. Das Ganze ist natürlich auch nicht metrisch, sondern nur pseudometrisch. Wir tun einfach so, also wenn unsere Daten metrisch wären, um es dann also in so ein Streudiagramm einzuzeichnen. Wenn wir jetzt, wie wir gerade gesagt haben, hier 1 und 3 6 Mal haben, hätte man also hier um den Punkt 1 3 auch 6 Punkte, die wie gesagt eigentlich auch alle auf dem gleichen Punkt liegen, aber jetzt durch dieses verwackelte Streudiagramm, also man tut so, als ob die Punkte ein bisschen auseinander gewackelt wären, alle hier so um diesen Punkt herumliegen. Das Ganze ist schon deutlich übersichtlicher, wie ich finde, als das Sonnenblumenstreudiagramm, aber ob es wirklich so sinnvoll ist, darüber lässt sich natürlich trefflich streiten, man kann natürlich seine ordinal skalierten Daten auch weiterhin in einer Kontingenztafel darstellen und einfach die gemeinsamen Häufigkeiten eintragen, wäre vielleicht auch nicht so schlecht. Aber oft möchte man vielleicht auch eine grafische Darstellung davon haben, und wenn die nun mal zweidimensional sein soll, wie gesagt im dreidimensionalen Raum, könnten wir hier einfach so Säulen für die Häufigkeit machen. Wenn sie nun mal zweidimensional sein soll, bietet sich das Streudiagramm an. Muss man sehen, jeder hat da seine eigene Meinung zu, ich finde es nicht besonders praktikabel, aber ihr solltet es wenigstens mal gesehen haben. Gut, das war auch schon das Video zur grafischen Darstellung von zweidimensionalen Daten, ich bedanke mich fürs Zusehen. Wie gesagt, beim nächsten Mal wird das Ganze auch noch eine Rolle spielen, wenn wir uns dann die Regressionsanalyse ansehen, dann wird man sich zuerst einmal immer die grafische Darstellung angucken, um dann die entsprechende Regressionsanalyse zu wählen, aber das nur als kleiner Ausblick. Ich freue mich, wenn ihr auch beim nächsten Mal dabei seid, und sage tschüss.

Informationen zum Video