Textversion des Videos

Transkript Statistik Video 19: Darstellungsformen

Hey, schön, dass ihr alle wieder zuguckt. Wir machen heute mal einen kleinen Exkurs. Ein bisschen weg von all den statistischen Kennwerten, die wir in den letzten Videos kennengelernt und berechnet haben, hin zu Darstellungsformen. Wir haben ja in den bisherigen Videos schon ganz viele Darstellungsformen kennengelernt und uns immer dabei auch gefragt: "Wann sind sie sinnvoll anzuwenden? Wann darf man sie anwenden und wann nicht?" Damit das nicht in Vergessenheit gerät, machen wir jetzt noch einmal eine kompakte Übersicht über die wichtigsten Darstellungsformen.  Ich stelle heute noch einmal vor: das Kreisdiagramm, das Balkendiagramm, das Stabdiagramm, das Histogramm und den Boxplot. Ihr seht, ich habe hier den Boxplot etwas abgetrennt. Das liegt daran, dass die ersten 4 ja Häufigkeiten darstellen, wohingegen der Boxplot eher eine Übersicht ist: Wie sind die Daten verteilt? Wo liegen die mittleren 50 %? Also eher für die Streuung da ist. Wir gucken uns jetzt also einmal jede der einzelnen Darstellungsformen an und sagen genau, wann man sie verwenden darf, wann sind sie sinvoll und wann nicht. Ok, wir beginnen also einmal mit dem Kreisdiagramm. Da haben wir öfter einmal so etwas. Wir kennen das zum Beispiel aus der Politik, wenn wir jetzt irgendwie Wahlergebnisse sehen. Dann wird das oft in einem Kreisdiagramm dargestellt. Das ist deshalb sinnvoll, weil man halt genau sieht, wann eine Mehrheit zustande kommt. Man kann halt genau diese 50%-Marke, die immer wieder wichtig ist, sehr schön einzeichnen. Hier habe ich mir mal ein Beispiel gemacht. Hier, SPD, CDU, Grüne, wie wir das so kennen und das hier ist jetzt irgendwie so ein fiktives Wahlergebnis, bei dem halt dann die SPD grade so die absolute Mehrheit erreicht hat. Deshalb macht man das. Deshalb zeigt man oft auch nur die relativen Häufigkeiten an in so einem Kreisdiagramm, weil man dann halt die Mehrheit anzeigen will. Das ist relativ uninteressant, wie viele Stimmen jetzt tatsächlich auch welche Partei entfallen sind. Es ist wichtig, die SPD hat die absolute Mehrheit erreicht, aber ob die jetzt 1 Million oder 8 Millionen Stimmen erreicht hat interessiert am Ende niemanden. Das Kreisdiagramm - kommen wir einmal zu den formalen Details - kann man bei allen Skalenniveaus anwenden, das heißt, wir können hier, wie in diesem Fall, nominalskalierte Daten anschreiben, also die Grünen, CDU, SPD, nominalskaliert. Wir können ordinalskalierte Daten darstellen in einem Kreisdiagramm. Wir können sogar metrische Daten darstellen. Wie sinnvoll das ist, das muss man immer ein bisschen selbst für sich entscheiden. Ich habe ja schon gesagt, meistens werden die relativen Häufigkeiten dargestellt. Man macht das auch gerne, wenn man irgendwie Verhältnisse darstellen will, also das ist ein viel größerer Block als der andere, dann greift man oft zu einem Kreisdiagramm und gerade, wenn man Umfragen hat, wo man wirklich alle 100 % darstellen will, greift man auch häufig zu einem Kreisdiagramm. Man hat ja auch schon einmal Umfragen, wo mehrere Antworten möglich sind, wo also das Ganze sich nicht auf 100 % aufaddiert, dann ist ein Kreisdiagramm natürlich relativ unsinnig, aber wenn man nur eine Auswahlmöglichkeit hat und sich das Ganze wirklich auf 100 % aufaddiert, ist ein Kreisdiagramm oft eine ziemlich gute Möglichkeit, das Ganze darzustellen. Als nächstes betrachten wir jetzt also das Balken- bzw. Säulendiagramm. Das Balkendiagramm, da haben wir halt Querbalken und wir haben auf der y-Achse die realisierten Ausprägungen unseres Merkmals und auf der x-Achse die Häufigkeit und beim Säulendiagramm ist das halt unsere gewohnte Ansicht. Wir haben auf der y-Achse die relative Häufigkeit und auf der x-Achse unsere realisierten Ausprägungen. Die beiden sind im Prinzip das Gleiche, stellt man auch gleich auf, nur halt, dass das Balkendiagramm horizontale Balken hat und das Säulendiagramm vertikale Säulen. Bei beiden ist es aber so, dass die Höhe bzw. beim Balkendiagramm die Länge der jeweiligen Balken oder Säulen, der Häufigkeit entspricht. Das heißt, wenn diese Säule höher ist als diese, dann hat diese Säule auch eine höhere Häufigkeit als diese. Und beim Balkendiagramm ist das natürlich auch so, je länger ein Balken ist, desto höher ist seine Häufigkeit. Das Ganze machen wir bei ordinal- oder nominalskalierten Daten. Das ist wichtig, das machen wir nämlich nicht bei metrischen Daten. Sobald wir metrische Daten haben, haben wir die Auswahl. Entweder machen wir ein Stabdiagramm oder wir bauen uns ein Histogramm, aber ein Balken- oder Säulendiagramm dürfen wir dann nicht mehr machen. Das ist nämlich hier wichtig, dass wir hier keine Abstände definiert haben, das heißt, auch wenn die realisierten Ausprägungen Zahlen sind, - sagen wir zum Beispiel Schulnoten, die wie wir gelernt haben ordinalskaliert sind - dann dürfen wir das hier auftragen, aber ohne klare Abstände und Differenzen zu definieren. Also merkt euch, bei ordinal- oder nominalskalierten Daten verwenden wir das Balken- oder Säulendiagramm. Welches wir davon wählen ist übrigens relativ egal. Es kommt nur auf die Ansicht an, was man jetzt gerade veranschaulichen möchte. Wenn wir aber metrische Daten haben, dann bauen wir entweder ein Histogramm oder wir nehmen ein Stabdiagramm, wenn wir diskrete Daten haben und sich auch ein Stabdiagramm noch eigenen würde. Sobald wir also kardinalskalierte Daten haben, gibt es 2 Möglichkeiten. Wenn wir kardinalskalierte Daten haben, die nicht gruppiert sind, dann zeichnen wir ein Stabdiagramm. Nicht gruppiert bedeutet in diesem Fall auch, es handelt sich um diskrete Merkmalsausprägungen. Das heißt, wir haben so was wie Tore in einem Fußballspiel mit diskreten Ausprägungen, also 0, 1, 2, 3, von mir aus bis 15 und dann zeichnen wir hier unser Stabdiagramm. Wir haben hier wieder die Höhe entspricht der Häufigkeit, das heißt auf der y-Achse ist die Häufigkeit aufgetragen. Es ist wiederum egal, ob es die Absolute oder die Relative ist, aber es ist die Häufigkeit und nicht die kumulierte Häufigkeit, die aufgetragen ist. Wir sind nicht bei der empirischen Verteilungsfunktion. Auf der x- Achse sind wiederum die Merkmalsausprägungen aufgetragen, also x. So und dann haben wir halt an jeder Merkmalsausprägung, die wir beobachten, einen Stab der Höhe der entsprechenden Häufigkeit und hier ist, anders als beim Balkendiagramm, die Lage der Stäbe zueinander wichtig. Jetzt befinden wir uns in einem Bereich, wo wir metrische Daten haben, also kardinalskalierte Daten. Das heißt, wir können klare Differenzen bilden. Das heißt, wenn x2 näher an x1 ist als an x4, bedeutet das, dass die Differenz kleiner ist. Also könnte jetzt zum Beispiel, - wenn wir das Beispiel von Toren in einem Fußballspiel nehmen - sagen wir x1 wäre 0 Tore, x2 1 Tor, x3 wären dann 3 Tore und x4 vielleicht 10 Tore. Das heißt, wenn hier ein großer Abstand ist, bedeutet das, dass auch tatsächlich bei unseren Beobachtungen dazwischen ein großer Abstand liegt. Wir haben jetzt klare Differenzen und zeichnen deshalb ein Stabdiagramm. Auch hier dürfen wir kein Balkendiagramm zeichnen. Sobald wir kardinalskalierte Daten habe, fällt alles was die Darstellung zu einfach macht, raus. Das heißt, wir müssen diesmal die Differenzen wirklich beachten und müssen also ein Stabdiagramm zeichnen. Haben wir hingegen nicht nicht gruppierte Daten, sondern gruppierte Daten, zeichnen wir ein Histogramm. Gut, kommen wir jetzt also zum Histogramm. Das Histogramm benutzt man, wenn wir metrische Daten haben, die zumeist gruppiert werden. Wir haben hier das Prinzip der Flächentreue. Das heißt, anders als beim Stab-, Säulen- oder Balkendiagramm ist jetzt nicht mehr die Höhe entscheidend, sondern der Flächeninhalt. Wir können also nicht sagen: "Ok, diese Gruppe hier in der Mitte hat die höchste Häufigkeit, weil sie die größte Höhe hat." Das funktioniert nicht mehr, sondern wir müssen uns den Flächeninhalt der einzelnen Abschnitte angucken. Hier haben wir also die Fläche, die der Häufigkeit entspricht. Wir haben auch nicht mehr die Häufigkeit auf der y-Achse aufgetragen, sondern die empirische Dichtefunktion. Die empirische Dichtefunktion f~(x)=hj/bj, also unsere absolute Häufigkeit geteilt durch die Gruppenbreite. Man könnte natürlich auch, wie so oft, statt der absoluten Häufigkeit, die relative Häufigkeit nehmen. Das würde an den Relationen der einzelnen Gruppen untereinander nichts ändern. Wenn wir also metrische Daten haben, dann können wir eigentlich nur eine Sache machen, sobald sie gruppiert sind, nehmen wir ein Histogramm, um diese grafisch darzustellen. Wenn sie nicht gruppiert sind, sondern zum Beispiel sortiert, könnten wir ein Stabdiagramm nehmen, aber sobald wir gruppierte metrische Daten haben, müssen wir uns ein Histogramm bauen und dabei müssen wir immer den Umweg über die empirische Dichtefunktion wählen, weil wir sonst das Prinzip der Flächentreue nicht einhalten können. Das Histogramm ist eine der wichtigsten grafischen Darstellungen, die euch begegnen werden und das Histogramm wird euch sicherlich auch noch lange verfolgen. Der Boxplot, das habe ich ja bereits gesagt, ist etwas anders, als die anderen Darstellungsformen. Denn er stellt die Verteilung der Daten dar und nicht die Häufigkeiten. Das heißt, wir sehen, wo liegt das untere Quartil, wo liegen die mittleren 50 %, wo liegt darin der Median. Das heißt, wir können darin schon die Verteilung der Daten in unserer Stichprobe ablesen und genau dafür ist er auch gut. Wir machen das weiterhin mit kardinalskalierten Daten, also allen metrischen Daten - sonst macht das ja auch keinen Sinn, wir müssen ihn ja irgendwie berechnen können - und der Boxplot besteht, wie wir bereits wissen, aus 5 Punkten, xmin; x0,25; x~, also unserem Median, x0,75 und xmax. Was wir also dafür brauchen, ist unsere Spannweite, xmax und xmin bilden unsere Spannweite, wir erinnern uns, unser unteres Quartil: x0,25, unser oberes Quartil: x0,75 und unseren Median. 5 Punkte, die wir dann hier so auftragen. Wichtig ist immer dieser zentrale Datenkörper, der also die mittleren 50 % bildet. Wenn wir unseren Boxplot bestimmt haben, wissen wir schon einiges über die Verteilung der Daten. Wir können aus ihm allerdings keine Häufigkeit ablesen, das sollte man sich immer merken. Wie wir die einzelnen Quartile berechnen können, sollte spätestens seit der Übung, dem letzten Video, eindeutig klar sein. Das war auch schon die kurze Übersicht über die bisher wichtigen Darstellungsformen. Ich bedanke mich fürs Zuschauen und sage: Beim nächsten Mal wird es wieder wichtig, denn dann kommt die Varianz. Das war es für heute und tschüss.

Informationen zum Video
5 Kommentare
  1. Default

    Also in das Streudiagramm kann man nur die Regressionsgerade einzeichnen, Kennziffern wie Standardabweichung oder Korrelation nicht.

    Das Video zur Regressionsanalyse ist bei mir die Nummer 39 (Statistik Video 39: Regressionsanalyse)

    Wenn du noch weitere Fragen hast, schreib mich einfach per Nachricht an, dann müssen wir das nicht über die Videokommentare hier machen.

    Von Statistik Jona, vor mehr als 4 Jahren
  2. Default

    Angenommen du hast ein Streudiagramm und für dieses hast du dann Werte wie z. B. Stichprobenstandardabweichung, Regressionsgerade, Stichprobenkorrelation...
    Die gegebenen Werte sollen dann in einem der Streudiagramme eingezeichnet werden. Hoffe du verstehst in etwa was ich meine, bin im Erklären furchtbar schlecht ;-)

    Von Ling, vor mehr als 4 Jahren
  3. Default

    Kannst du genauer erklären was du meinst? Welche Kennzahlen sollen in einem Diagramm dargestellt werden?

    Von Statistik Jona, vor mehr als 4 Jahren
  4. Default

    Super Videos und ideal zur Vorbereitung auf die Statistikklausur.
    Hast du auch noch ein Video (welches ich bisher noch nicht gefunden habe) wo Kennzahlen geschätzt werden anhand von einem Diagramm?

    Von Ling, vor mehr als 4 Jahren
  5. Default

    Thumbs up.
    Sehr aufschlussreich und übersichtlich.
    Mysterium "Darstellungsformen in der Statistik" aufgelöst.
    Danke Jona

    Von Smoky, vor etwa 5 Jahren