Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 6: absolute und relative Häufigkeit

Schön, dass ihr alle wieder zuguckt, bei unserem Statistikkurs. Wir fangen heute mit einem neuen Gebiet an, und zwar mit den Häufigkeitsverteilungen. Dabei schauen wir uns heute die absolute und die relative Häufigkeit an, im nächsten Video dann die kumulierten Häufigkeiten und danach dann noch die Häufigkeitsdichte. Über die absolute Häufigkeit haben wir in der Vergangenheit schon häufiger geredet. Heute zeige ich euch, was überhaupt dahinter steckt und wofür man das benutzt. Doch zuerst noch ein Wort zu Häufigkeitsverteilungen generell. Häufigkeitsverteilungen stellen dar, wie häufig eine bestimmte Merkmalsausprägung in einem Datensatz, also meistens in einer Stichprobe, vorkommt. Wenn man nicht so sonderlich viele unterschiedliche Merkmalsausprägungen hat, dann bieten die Häufigkeiten oft schon einen ziemlich guten Überblick über den Datensatz, aus dem man schon einiges herauslesen kann. Relative und absolute Häufigkeiten sind die grundlegenden Dinge in der Statistik, das heißt: wichtig. Schauen wir uns daher einmal den Unterschied zwischen absoluten und relativen Häufigkeiten an. Absolute Häufigkeiten sagen, wie häufig eine bestimmte Ausprägung, also die, die mich interessiert, unveränderlich, also absolut, in meinem Datensatz vorkommt. Es ist eine klare Zahl. Die Werte, die die absolute Häufigkeit annehmen kann, liegt logischerweise zwischen 0 und n, wobei n hier, wie immer, unser Stichprobenumfang ist. Die relative Häufigkeit dagegen sagt, wie häufig tritt meine Merkmalsausprägung, die wir ab jetzt immer mit klein aj - wobei j natürlich der Laufindex ist - bezeichnen, relativ zum Stichprobenumfang in meinem Datensatz auf. Die relative Häufigkeit ist also immer ein Anteil. Deshalb rangieren die Werte, die die relative Häufigkeit annehmen kann, zwischen 0 und 1. 0, wenn meine Ausprägung aj überhaupt nicht in meinen Datensatz vorkommt, und 1, wenn jede Beobachtung meines Datensatzes aj entspricht. Die relative Häufigkeit kann ich natürlich auch in Prozent angeben. Dann rangieren die Werte logischerweise zwischen 0 und 100%. Die Definition der relativen Häufigkeit eines bestimmten Merkmals ist also deren absolute Häufigkeit durch den Stichprobenumfang klein n. Beziehungsweise, wenn wir das Ganze in Prozent angeben wollen, die absolute Häufigkeit einer Ausprägung geteilt durch klein n, den Stichprobenumfang, und das Ganze noch mal 100. Kommen wir also zur Notation. Das ist etwas tricky. In der Statistik gibt es nämlich keine durchgehende und verbindliche Notation. Deshalb macht das jeder irgendwie ein bisschen so, wie er gerade möchte. Es könnte also durchaus sein, dass ihr andere Bezeichner für die Häufigkeiten habt als ich. Bei der Notation unterscheide ich in sortierte Daten und gruppierte Daten. Die absolute Häufigkeit von sortierten Daten ist klein h(aj). Die relative Häufigkeit von sortierten Daten ist klein f(aj). Bei gruppierten Daten ist die absolute Häufigkeit bei mir, mit klein hj bezeichnet, j ist wieder das Laufindex, und die relative Häufigkeit mit klein fj. Was euch eventuell auch in Lehrbüchern oder vielleicht in eurer Vorlesung begegnen könnte, ist für die absolute Häufigkeit groß H(aj) beziehungsweise groß Hj und für die relative Häufigkeit öfter auch mal ein anderer Buchstabe, wir zum Beispiel R(aj), Rj oder auch einfach groß F(aj) und groß Fj. Nun die Frage: Warum machen wir einen Unterschied zwischen sortierten und gruppierten Daten? Schauen wir uns dazu mal 2 kurze Beispiele an. Uns ist erst mal völlig egal, welches Merkmal aj beschreibt. Wir haben aber folgende Tabelle: aj, also unsere Ausprägung, sind 1, 2, 3 und h(aj) sind 5, 5, 10. Ich kann also nach der absoluten Häufigkeit der Ausprägung 3 fragen, das wäre hier 10. Bei gruppierten Daten sieht es immer ganz anders aus. Wir haben hier Intervalle von ... bis unter ...: Von 0 bis unter 5, von 5 bis unter 10 und von 10 bis unter 15. hj, also unsere absoluten Häufigkeiten, sind die Links: 5, 5, 10. Unsere Intervalle haben hier auch den Laufindex, also die Gruppe 1, die Gruppe 3, die Gruppe 3. Demnach ändert sich auch j, j der Gruppe 1 ist natürlich 1, j der Gruppe 2 ist 2 und j der Gruppe 3 ist 3. Wenn ich jetzt also nach der absoluten Häufigkeit der Merkmalsausprägung 3 fragen will, dann bekomme ich kein Ergebnis, weil 3 irgendwo im 1. Intervall ist, irgendwo zwischen 0 und 5. Ich weiß aber nicht, ob irgendeine meiner Beobachtungen auch 3 enthält. Deshalb kann ich das nicht angeben. Ich kann aber nach der absoluten Häufigkeit der Gruppen 3 fragen, also h3. Das wäre in diesem Fall 10. Verdeutlichen wir die ganze Theorie einmal an einem Beispiel. In meinem Beispiel ist das Merkmal X die Parteizugehörigkeit. Sagen wir mal, ich habe 25 Leute befragt. Die möglichen Ausprägungen hierbei sind: CDU, SPD, FDP, Grüne, Linke und Andere. Das ist übrigens ein beliebter Trick bei Statistikern. Man bildet so viele Gruppen, von denen man denkt, dass sie einige Ergebnisse erzielen werden, und alles, wovon man sich nicht sicher ist, packt man einfach unter Andere. Damit ist das komplette Feld abgedeckt. Nun stellen wir uns einmal vor, ich habe jetzt also 25 Leute befragt und Strichliste geführt. So sieht meine Strichliste für meine Parteien aus. Diese Strichliste ist eine absolute Häufigkeit. Meine absolute Häufigkeit h von aj ist also für die CDU 6, für die SPD 5, für die FDP 3, für die Grünen 7, für die Linke 2 und für Andere auch 2. Dies, zusammenaddiert, ergibt natürlich wieder unseren Stichprobenumfang n=25. Nun die Frage: Wie kommen wir zu unseren relativen Häufigkeiten. Wir haben ja gesagt, die relative Häufigkeit einer Ausprägung ist deren absolute Häufigkeit geteilt durch den Stichprobenumfang. Die absolute Häufigkeit der Ausprägung CDU ist hier 6, der Stichprobenumfang 25, für die relative Häufigkeit der Ausprägung CDU teilen wir also 6/25 und erhalten unser Ergebnis. In diesem Fall 0,24. Das machen wir jetzt auch noch für alle anderen Ausprägungen. Für die SPD teilen wir 5/25, weil die absolute Häufigkeit für die SPD nur 5 war, für die FDP 3/25, bei den Grünen 7/25, bei den Linken 2/25 und bei den Anderen auch 2/25. Dann bekommen wir die relative Häufigkeit, hier als Anteil. Würden wir sie jetzt gerne als Prozent haben, müssten wir jeweils mit 100 multiplizieren. Als kleiner Test, ob man richtig gerechnet hat, kann man auch noch mal alle Anteile zusammenrechnen, und wenn 1 rauskommt, hat man richtig gerechnet. Wenn irgendetwas anderes als 1 rauskommt, hat man falsch gerechnet. Gucken wir uns noch mal einige Häufigkeiten an. Die absolute Häufigkeit der FDP. Gucken also in die Spalte h(aj), gucken bei der FDP und finden das Ergebnis 3. In unserer Umfrage von 25 Leuten haben also 3 Leute als Parteizugehörigkeit FDP angegeben. Suchen wir die relative Häufigkeit der CDU, gucken wir in die Spalte der relativen Häufigkeiten, also in die Spalte f(aj). Dort finden wir das Ergebnis 0,24 oder 24%. In unserer Stichprobe mit dem Umfang 25 haben also 24% der Befragten als Parteizugehörigkeit CDU angegeben. Als Diagramm würde das Ganze so aussehen. Unten sind jeweils die Ausprägungen CDU, SPD, FDP, Grüne, Linke und Andere - und das ist also aj. Die Bezeichnung für unsere Y-Achse, das ist unsere Häufigkeit, wobei es hierbei egal ist, ob man absolute oder relative Häufigkeit nimmt, am Bild ändert das nichts, wir nehmen mal zuerst absolute Häufigkeit. Dann ist also der höchste Wert, also da, wo die Grünen sind, 7. Genauso gut könnten wir es aber auch als relative Häufigkeit f(aj) bezeichnen, dann müssten wir natürlich nicht 7 schreiben, sondern 0,28, weil das dann der Wert für die Grünen ist. Das Ganze nennt man Balkendiagramm. Ein Balkendiagramm darf man nur bei nominal oder ordinal skalierten Daten zeichnen, also genau dann, wenn die Differenzen nicht klar definiert sind. Das nächste Beispiel sollte deutlich machen, warum man nicht immer ein Balkendiagramm zeichnen darf. In diesem Beispiel interessiert mich als Merkmal die Anzahl der Tore, meinetwegen die pro Spiel geschossen werden. Sagen wir, ich habe 50 Spiele beobachtet und in jedem Spiel gab es zwischen 0 und 3 Tore. Ich habe hier schon mal die relative Häufigkeit hingeschrieben: 0,2 für 0 Tore, 0,3 für 1 Tor, 0,4 für 2 Tore und 0,1 für 3 Tore. Natürlich können wir nicht nur aus der absoluten Häufigkeit die relative berechnen, sondern das geht auch andersherum. Wenn wir also h(0) haben wollen, also die absolute Häufigkeit von 0 Toren, schauen wir uns die relative Häufigkeit an: 0,2. Also in 20% der Spiele sind genau 0 Tore gefallen. Wir multiplizieren den Anteil 0,2 mit dem Stichprobenumfang 50, dann bekommen wir die absolute Häufigkeit, also 10. Genauso können wir das mit den anderen Ausprägungen machen. Bei einem Tor ist es 0,3×50=15, bei 2 Toren ist der Anteil 0,4 mal dem Stichprobenumfang 50 gleich 20. Und bei 3 Toren ist es 0,1×50=5. Zeichnen wir also auch hier ein Diagramm. Diesmal dürfen wir kein Balkendiagramm zeichnen. Würden wir nämlich ein Balkendiagramm zeichnen, sagen wir mit Balken jeweils 1 breit, würde das bedeuten, dass wir ein Intervall einzeichnen. Wir haben aber keine Intervalle, deshalb dürfen wir nur Stäbe einzeichnen. Das Ganze nennt man dann Stabdiagramm. Wir zeichnen hier also jeweils an der Stelle unserer Ausprägung 0, 1, 2, 3 die Häufigkeit als Stab an, hier die absolute Häufigkeit. Auch hier könnten wir genau so gut die relative Häufigkeit nehmen. Wir haben also an der Stelle 0 einen Stab mit der Höhe 10, an der Stelle 1 einen Stab mit der Höhe 15, an der Stelle 2 einen Stab mit der Höhe 20 und an der Stelle 3 einen Stab mit der Höhe 5. Bei kardinal skalierten Daten, die nicht gruppiert sind, müssen wir also ein Stabdiagramm zeichnen. Bei gruppierten kardinal skalierten Daten zeichnen wir ein Histogramm, aber das ist Thema eines späteren Videos. Das war es auch schon wieder für dieses Video. Im nächsten Video kümmern wir uns um kumulierte Häufigkeiten. Ich bedanke mich für das Zuschauen sage bis zum nächsten Mal und tschüss!                                                  
                                                                                             

Informationen zum Video
11 Kommentare
  1. Felix

    @Eva Zefi 1: In diesem speziellen Fall gibt das Merkmal X die Parteizugehörigkeit an. Die dazugehörigen Merkmalsausprägungen werden als aj bezeichnet und sind hier CDU, SPD, FDP, Grüne, Linke und Andere. Ich hoffe, dass ich dir helfen konnte. Bei weiteren Fragen hilft dir auch gerne der Hausaufgaben-Chat, der Mo-Fr von 17-19 Uhr verfügbar ist.

    Von Martin B., vor etwa einem Jahr
  2. Default

    ist dann ai = X für Partei?

    Von Eva Zefi 1, vor etwa einem Jahr
  3. Default

    Also ich finde es nicht gut dass für die Darstellung ein Balkendiagramm verwendet wird. Meiner Meinung nach ist das sogar schlichtweg falsch.

    Von Fabian 10, vor fast 2 Jahren
  4. Default

    Hilfe! Das Video hängt bei mir bei 7:06...

    Von Hendry Angela, vor mehr als 2 Jahren
  5. Default

    Jona, bitte erklär mir genau was ai bedeutet? Ich kann es überhaupt nicht zuordnen.
    Danke

    Von Ho Me28681, vor mehr als 2 Jahren
  1. Default

    Auch hängt das Video leider:(
    Min8:48

    Von Ho Me28681, vor mehr als 2 Jahren
  2. Default

    Hallo Jona,
    vielen Dank für die Erklärung. Jetzt habe ich es verstanden.
    Gruss J. Pongracz

    Von J Pongracz, vor fast 4 Jahren
  3. Default

    Stimmen für eine Partei sind "nominal" skaliert, weil es eben keine Rangfolge der Parteien gibt (ordinal wären sie, wenn es eine klare Rangfolge, aber keine einheitlichen Abstände gibt, wie bei Militärrängen).

    Die Tore sind kardinal (metrisch) skaliert weil man sie zählen kann, Abstände klar definiert sind (3 Tore mehr) und auch die Verhältnisse klar definiert sind (Mannschaft A hat doppelt so viele Tore geschossen wie Mannschaft B).

    Von Statistik Jona, vor fast 4 Jahren
  4. Default

    Hallo zusammen
    mir ist nicht klar geworden warum Stimmabgaben für eine Partei ordinal skalierte Daten sind und die Tore kardinal.

    Von J Pongracz, vor fast 4 Jahren
  5. Default

    Bei einer Anzahl sind unterschiede immer eindeutig definierbar.

    Von Anotherbrick000, vor fast 5 Jahren
  6. Default

    hallo, warum ist denn die Anzahl der Tore eine kardinal? Hier sind doch die Unterschiede nicht eindeutig definierbar, oder?
    Danke fürs Helfen!

    Von Frauschuh, vor mehr als 5 Jahren
Mehr Kommentare