Textversion des Videos

Transkript Statistik Video 7: kumulierte Häufigkeiten

Hallo! Schön, dass ihr alle wieder zuschaut. Wir sind immer noch in unserem Themengebiet Häufigkeitsverteilung. Nachdem wir im letzten Video die absolute und relative Häufigkeit behandelt haben, behandeln wir heute die kumulierte absolute und kumulierte relative Häufigkeit. Über die absolute Häufigkeit haben wir ja in der Vergangenheit schon häufiger geredet. Heute zeige ich Euch, was überhaupt dahinter steckt und wofür man das benutzt. Jetzt wird auch klar, warum wir beim letzten Mal für absolute und relative Häufigkeiten die Kleinbuchstaben verwendet haben. Jetzt haben wir nämlich die Großbuchstaben noch übrig und können diese eindeutig den kumulierten Häufigkeiten zuordnen, wobei x bei der Bezeichnung immer für einen speziellen Wert steht, der uns interessiert. Die absolute kumulierte Häufigkeit sagt: Wie viele unserer Beobachtungen im Datensatz sind kleiner oder gleich unserem Wert x, den wir willkürlich festlegen. Das ist der Wert, der uns interessiert. Unsere relative kumulierte Häufigkeit gibt uns wieder, welcher Anteil des Datensatzes, beziehungsweise wie viel Prozent des Datensatzes, unter unserem Wert x liegt. Schön und gut! Jetzt werden sich wahrscheinlich viele von euch fragen: Wofür brauchen wir eigentlich kumulierte Häufigkeiten? Kumulierte Häufigkeiten braucht man, wenn einem bestimmte Fragen interessieren, und zwar Fragen nach Anteilen im Datensatz, die über oder unter einem bestimmten Grenzwert liegen. Wenn ich zum Beispiel - sagen wir - Studenten befrage nach ihrer Klausurnote und mich interessiert hinterher: Wie viele davon haben die Klausur bestanden, oder: Wie viel Prozent der Studenten haben die Klausur bestanden? Dann kann ich das ganz einfach aus einer Tabelle ablesen, wenn ich vorher meine kumulierten Häufigkeiten eingetragen habe. Oder das statistische Bundesamt macht eine Erhebung und fragt sich, wie viele Personen in Deutschland mindestens einen Realschulabschluss haben. Wenn sie vorher schon die kumulierten Häufigkeiten aufgestellt haben, müssen sie das nicht mehr extra berechnen, sondern können es einfach aus ihrer Tabelle ablesen. Was einen auch interessieren könnte, oder zumindest das statistische Bundesamt: Welcher Anteil der Bevölkerung lebt von weniger als 1000 Euro im Monat. All dies sind Fragen, für die wir kumulierten Häufigkeiten brauchen. Schauen wir uns also einmal die Definition der kumulierten Häufigkeiten an. Die kumulierten Häufigkeiten werden übrigens auch oft als empirische Verteilungsfunktion bezeichnet, weil sie halt eine Funktion von x sind und die Verteilung der Daten im Datensatz beschreiben. Auch bei der Definition unterteilen wir wieder in absolut und relativ. Die absoluten kumulierten Häufigkeiten werden, wie schon erwähnt, mit groß H(x) bezeichnet und sind die Summe aller klein h(aj), also allen absoluten Häufigkeiten unserer Ausprägung, und zwar solange wie das aj ≤ unserem Wert x ist. An der Definition, genauer gesagt an dem ≤ in der Definition, sieht man schon, dass kumulierte Häufigkeiten nur für mindestens ordinal skalierte Daten Sinn machen. Bei nominal skalierten Daten können wir ja keine Zuordnung im Sinne von kleiner oder größer machen. Da sind also kumulierte Häufigkeiten nicht möglich. Unsere relativen kumulierten Häufigkeiten, groß F(x), sind dann natürlich die Summe aller relativen Häufigkeiten, solange wie unser aj auch ≤x ist. Machen wir mal ein ganz kleines Beispiel, nur um die erste Verwirrung aufzulösen. Wenn wir jetzt aj von 0, 1, 2, 3 haben, und absolute Häufigkeiten von 5, 4, 8, 10, dann ergeben sich daraus folgende kumulierte absolute Häufigkeiten. Groß H(2) ist also die Summe von allen absoluten Häufigkeiten klein h, bei denen das aj noch ≤2 ist, also h(0)+h(1)+h(2), also 5+4+8, und das ergibt 17. Und unser H(3)=5+4+8+10, also 27. So einfach sind kumulierte Häufigkeiten. Schauen wir uns das Ganze also mal in Tabellenform an. Wir hatten ja schon in der letzten Woche eine Tabelle mit links den Ausprägungen, dann der absoluten Häufigkeit, und dann der relativen Häufigkeit, und jetzt erweitern wir diese Tabelle um zwei Spalten, nämlich um die absolute kumulierte Häufigkeit H(x) und um die relativen kumulierten Häufigkeiten F(x). Unser groß H(x) ist bei h(a1) also noch klein h(a1). Da ist also die kumulierte Häufigkeit das Gleiche wie die absolute Häufigkeit. Ist ja klar, es gab ja vorher noch keine Werte, mit denen wir das addieren konnten. Unser H(aj) ist also unser h(a1)+h(a2) plus jedes h bis h(aj). Und wir hatten ja bei den absoluten und relativen Häufigkeiten gesehen, dass wenn man alle aufaddiert, bei den absoluten ganz am Ende n rauskommt, also unser Stichprobenumfang, und bei den Relativen am Ende 1 rauskommt. Bei den kumulierten Häufigkeiten ist n, beziehungsweise 1, der letzte Eintrag unserer Spalte. Ist ja auch klar, dann sind ja alle aufaddiert. Schauen wir uns einmal ein richtiges Beispiel an. Sagen wir mal: Wir haben 500 Schüler nach ihrer letzten Klausurnote befragt, wobei es immer nur darum ging, ob sie eine 1, 2, 3, 4, 5 oder 6 geschrieben haben, und zwar ohne Zwischenschritte. Dann sind unsere Ausprägungen aj also 1, 2, 3, 4 bis 6. Wir haben die vorgegebenen absoluten Häufigkeiten von 25, 40, 100, 150, 140, 45, und die relativen Häufigkeiten von 0,05, 0,08, 0,2, 0,3, 0,28 und 0,09. Wie wir von den absoluten Häufigkeiten zu den relativen Häufigkeiten kommen, sollte ja seit dem letzten Video klar sein. Wer damit noch Probleme hat, geht noch einmal zurück. Unsere kumulierten absoluten Häufigkeiten H(x) bekommen wir jetzt also ganz einfach. Für unseren ersten Eintrag H(1) nehmen wir einfach unser h(1), also die absoluten Häufigkeiten unserer Note 1. Das sind 25. Für jede weitere absolute kumulierte Häufigkeit H nehmen wir also das Ergebnis der Zeile davor und addieren es mit der absoluten Häufigkeit dieser Zeile. Für H von unserer Note 2 also unsere kumulierte absolute Häufigkeit von 1, 25, plus die absolute Häufigkeit von 2, 40, ergibt 65. Wenn wir es so machen, müssen wir nicht immer alle absoluten Häufigkeiten aufeinander addieren, sondern müssen einfach immer nur 2 Zahlen miteinander addieren: die aktuelle absolute Häufigkeit und die kumulierte absolute Häufigkeit aus der Vorzeile. Für unser H(3) ist es also genau das Gleiche. Wir nehmen unser Ergebnis aus der Vorzeile, 65, addieren die absolute Häufigkeit dieser Zeile, 100, und erhalten unser Ergebnis 165. Für die nächste Zeile addieren wir dann die 165 plus die 150 und landen bei 315. Genauso in den nächsten beiden Zeilen. In der Zeile 5 nehmen wir unsere 315, addieren 140 und landen bei 455. Diese nehmen wir dann wieder für die sechste Zeile, addieren die 45 und landen bei 500, bei unserem Stichprobenumfang. Wenn wir nicht bei unserem Stichprobenumfang landen würden, hätten wir einen Fehler gemacht. Das ist also immer ein guter Test, ob man auch richtig gerechnet hat. Das Gleiche gilt für die kumulierten relativen Häufigkeiten. In der ersten Zeile übernehmen wir einfach die relative Häufigkeit, 0,05. In der zweiten Zeile addieren wir das Ergebnis aus der ersten Zeile plus die relative Häufigkeit dieser Zeile, also 0,05+0,08, und unser Ergebnis ist damit 0,13. Das gleiche Spiel natürlich auch in den weiteren Zeilen. In Zeile 3: Wir nehmen die 0,13, addieren 0,2 und sind bei 0,33. Für F(4) nehmen wir F(3), 0,33, addieren f(4), 0,3 und sind bei 0,63. Für die nächste Zeile nehmen wir diese 0,63, addieren 0,28 und sind bei 0,91. Und für die letzte Zeile nehmen wir diese 0,91, addieren die relative Häufigkeit 0,09 und landen bei 1. Auch hier ist es so, wir müssen bei 1 landen. Bei den kumulierten Häufigkeiten landet man immer bei dem Stichprobenumfang, wenn es die absoluten Häufigkeiten sind, oder bei 1, wenn es die relativen Häufigkeiten sind. Das Ganze können wir jetzt einmal schön zeichnen. Auf der y-Achse haben wir die kumulierten relativen Häufigkeiten. Man könnte hier theoretisch auch die kumulierten absoluten Häufigkeiten nehmen. Das ist aber unüblich. Bei den kumulierten relativen Häufigkeiten hat man einfach den Vorteil, dass es immer bis 1 geht, und deshalb kann man immer schon quasi die komplette y-Achse bis 1 einzeichnen, und damit liegt man immer richtig. Auf der x-Achse haben wir wieder unsere Ausprägungen 1 bis 6. Wir zeichnen das jetzt also so ein, und wichtig sind immer diese Sprünge. Wir springen bei der 1 von 0 auf 0,05. Das zieht sich dann durch bis zur 2, und dort springen wir wieder bis 0,13. Wichtig ist auch die Darstellungsform. Man sieht immer, dass am Ende eines Striches ein leerer Kreis ist und am Anfang ein ausgefüllter Kreis. Das soll darstellen, dass der leere Kreis nicht mehr mit dazu gehört, weil wenn wir bei 1, bei 0,05 sind, geht das ja solange bis zum Punkt 2 und genau der Punkt 2 gehört ja nicht mehr mit dazu, sondern ab da fängt ja das 0,13 an. Von 2 bis gerade 3 bleiben wir also auf dem Niveau 0,13, und dann springen wir auf 0,33. Auf dem Niveau 0,33 bleiben wir bis zur 4 und springen auf 0,63. Bei der 5 springen wir dann von 0,63 auf 0,91 und bei der 6 von 0,91 auf 1. Danach ändert sich nichts mehr. Wir bleiben also auf unserem Niveau 1. Wir haben jetzt alle Daten unseres Datensatzes aufaddiert. Nun können wir also unsere Fragen stellen. Wenn uns jetzt interessiert: Wie viele haben die Klausur bestanden, haben also mindestens eine 4 geschrieben? Dann gucken wir: Wie viel Prozent hat die 4? Aha, 0,63! Das ist schon mal ein schönes Ergebnis, aber noch nicht genau das, was uns interessiert. Uns interessiert ja die Anzahl und nicht der Anteil. Wir müssen also die 0,63 noch mal ×500, also mal unserem Stichprobenumfang, nehmen und erhalten 315, unser Ergebnis. Noch eine weitere Frage: Wie viel Prozent unserer befragten Schüler haben mindestens eine 2 erreicht? Wir gucken also wieder bei der 2. Aha, da hatten wir den Sprung auf 0,13. Da jetzt aber nach Prozent gefragt wird und wieder nicht nach Anteil, müssen wir die 0,13 noch mit 100 multiplizieren und bekommen als Ergebnis: 13% unserer befragten Schüler haben mindestens eine 2 erreicht. So, das war auch schon der Stoff, beziehungsweise die Theorie, zu kumulierten Häufigkeiten. Wenn ihr das Gefühl habt, das alles ging jetzt noch viel zu schnell und ihr habt das noch nicht so richtig verstanden, keine Sorge: Im nächsten Video machen wir noch mal eine Übung nur zu diesem Thema. Da stelle ich noch mal kumulierte Häufigkeiten detailliert vor und was für Fragen man alles stellen kann und wie man diese aus dem Datensatz heraus liest. Ich bedanke mich für das Zuschauen, hoffe, wir sehen uns beim nächsten Mal wieder und sage tschüss!  

Informationen zum Video
4 Kommentare
  1. Default

    So wie das für mich aussieht, löst diese Klammer quasi schon alle möglichen Rechnungen auf.

    Du hast also für jede Beobachtung h1...hk schon die Ergebnisse und musst dann nur in der entsprechenden Zeile nachsehen.

    Wenn du dir das Beispiel anguckst, ist die Tabellenspalte ja nichts anderes als deine Klammer. oben könnte man noch 0 hinschreiben (also wenn x kleiner ist als dein kleinster Wert) und unten muss immer n stehen.

    Von Statistik Jona, vor mehr als 3 Jahren
  2. Default

    Hallo Jona, danke für dein super Video zu kumulierten Häufigkeiten.
    Etwas verwirrend ist für mich, dass in meinem Skript die abs. kum. Häufigkeit formal so geschrieben wird: H(x) = (große Klammer und dann untereinander:)0,h1... h1+h2+...+hk-1, n. Kannst du mir da weiterhelfen?

    Von Andrea H., vor mehr als 3 Jahren
  3. Default

    H(14) kann man schon berechnen, da die kumulierten Häufigkeiten die die Anzahl oder den Anteil aller Beobachtungen <=14 gefragt, was bei den realisierten Ausprägungen 8, 10 und 15 alle Beobachtungen a1=8 oder a2=10 sind. Wir haben 10 mal a1 und 12 mal a2 in der Summe also 22 Beobachtungen die kleiner gleich 14 sind.

    Von Statistik Jona, vor etwa 4 Jahren
  4. Default

    Ich habe ein Kommentar zur Frage nach dem Video.
    Die Merkmalsausprägung a=14 gibt es nicht, weder a1, a2 noch a3 sind gleich 14. Ist es dann nicht richtig, dass man H(14) gar nicht berechnen kann, weil es diese Ausprägung eben nicht gibt? Oder wie kommt man auf die angeblich richtige Antwort 22.

    Von Beth, vor etwa 4 Jahren