Textversion des Videos

Transkript Statistik Video 10: empirische Dichtefunktion Übung

Hallo! Herzlich willkommen zur Übung zur empirischen Dichtefunktion! Unsere Aufgabe heute: Wir wollen ein Histogramm erstellen. Im letzten Video haben wir ja gesehen, was ist ein Histogramm, wie erstellt man ein Histogramm - und genau das üben wir heute. Alles, was wir dazu haben, sind eine empirische Verteilungsfunktion und eine leere Tabelle. So etwas könnte man durchaus auch mal in einer Klausur finden, dass man nur die empirische Verteilungsfunktion angegeben hat und eine leere Tabelle, und aus der Verteilungsfunktion muss man dann alles ablesen. Wir haben hier x: Alter in Jahren, was wir auch noch angegeben haben, ist unser Stichprobenumfang, n=100. Fangen wir also an. Das Erste, was wir aus unserer Verteilungsfunktion ablesen können, sind die verschiedenen Gruppen. Wir wissen ja, die Punkte, wo die Verteilungsfunktion miteinander verbunden ist, sind immer unsere rechten Gruppengrenzen. Unsere 1. Gruppe fängt bei 0 an und geht, 1. Punkt bei 10, bis 10. Die 10, also der Endpunkt der 1. Gruppe, ist gleichzeitig der Startpunkt der 2. Gruppe. Diese geht bis hier, wir gucken, aha, 25, also 10-25, unsere 2. Gruppe. Das ist dann natürlich wieder der Startpunkt unserer 3. Gruppe. Wir gucken, bis wohin geht die? Hier oben ist der Punkt, aha, bis 40. Die vorletzte Gruppe geht dann von 40 bis 50 und die letzte Gruppe geht dann von 50 bis 60. So weit, so gut. Wir haben also die 1. Spalte unserer Tabelle schon ausgefüllt. Das Nächste, was wir eintragen können, ist das, was wir direkt aus der empirischen Verteilungsfunktion ablesen können, und zwar die kumulierten relativen Häufigkeiten, F(x). Unsere 1. Gruppe, 0-10, hat eine kumulierte Häufigkeit, hier ist der Punkt, 0,2, können wir also in unsere Tabelle eintragen, 0,2. So, die 2. Gruppe, 10-25, kumulierte relative Häufigkeit: 0,4. Die 3. Gruppe, 25-40, da gehen wir ganz schön weit hoch, bis zu 0,8. Unsere vorletzte Gruppe, 40-50, dieses Stück, bis 0,95. Und die letzte Gruppe, logischerweise, 1, wie immer. Um unser Histogramm zu erstellen, brauchen wir ja f-Schlange (x), was ja nichts anderes war als hj/bj. Wir brauchen also unser hj, unsere absoluten Häufigkeiten. Können wir jetzt erst mal noch nicht bestimmen, bestimmen wir deshalb unsere relativen Häufigkeiten aus den kumulierten relativen Häufigkeiten. Bei der 1. Gruppe können wir ja die kumulierten relativen Häufigkeiten immer einfach übernehmen, also sind hier unsere relativen Häufigkeiten 0,2. Für die 2. Gruppe ist es ja: 0,4 kumulierten relativen Häufigkeiten der 2. Gruppe minus die kumulierten relativen Häufigkeiten der 1. Gruppe, 0,2, also 0,4-0,2, macht 0,2. Bei der 3. Gruppe wieder, aha, 0,8, die kumulierte relative Häufigkeit der 3. Gruppe, minus die, der 2. Gruppe, 0,8-0,4, also 0,4. Im Diagramm wäre es also genau von hier bis hier, diese Steigung, dieses Stück, was innerhalb der 3. Gruppe überwunden wird. Für die 4. Gruppe: 0,95-0,8: 0,15. Und die letzte Gruppe: 1-0,95: 0,05. So, daraus rechnen wir jetzt unsere absoluten Häufigkeiten aus, mit dem Stichprobenumfang n=100. Wir rechnen also: 0,2, die relative Häufigkeit, ×n, Stichprobenumfang, ×100: 0,2×100=20. Für die 2. Gruppe genauso, auch wieder 0,2×100, wieder 20. Hier 0,4×100: 40. Bei der vorletzten Gruppe, 40-50, relative Häufigkeit, 0,15, ×n, Stichprobenumfang, 0,15×100: 15. Und 0,05×100=5. So, damit haben wir auch schon fast alles, was wir brauchen, um die empirische Dichtefunktion auszurechnen, unser f-Schlange (x). Was wir noch brauchen, ist bj. Wir erinnern uns, bj, die Gruppenbreite. Wir rechnen also rechter Gruppenrand minus linker Gruppenrand, ist unsere Gruppenbreite. Bei 0-10, Gruppenbreite, logischerweise, 10. Bei der 2. Gruppe rechnen wir 25-10, macht 15. 3. Gruppe: 40-25: 15. Vorletzte Gruppe: 50-40, Gruppenbreite: 10. Genauso bei der letzten Gruppe, 60-50 macht auch wieder 10. Wir können jetzt also hier unsere f-Schlange (x) ausrechnen, das ist hj/bj. Das machen wir jetzt. So, wir rechnen also für jede Gruppe: absolute Häufigkeit geteilt durch die Gruppenbreite. Für die 1. Gruppe: absolute Häufigkeit, 20, geteilt durch die Gruppenbreite, 10, macht 2, f-Schlange unserer 1. Gruppe: 2. Für die 2. Gruppe: hj wieder 20, diesmal ist die Gruppenbreite aber nicht 10, sondern 15, also 20/15, macht 1,33. Ich stelle mich mal auf die andere Seite, dann verdecke ich das Bild nicht. Für die 3. Gruppe: Wir haben unsere absolute Häufigkeit von 40, unsere Gruppenbreite von 15, also 40/15, macht ein f-Schlange von 2,67. Bei unserer 3. Gruppe: Wir haben hj, absolute Häufigkeit, 15, geteilt durch bj, Gruppenbreite, 10, also 15/10, macht 1,5. Und für die letzte Gruppe: 5/10, macht 0,5. So, aus dieser Spalte, f-Schlange (x), können wir jetzt also, wie wir es im letzten Video gelernt haben, unser Histogramm erstellen - und das machen wir jetzt auch. Kommen wir also dazu, unser Histogramm zu zeichnen. Ich habe unsere Tabelle mal wieder auf das Wesentliche reduziert, unsere Gruppen und f-Schlange (x). Tragen wir das also ein. Unsere 1. Gruppe: 0-10, also in diesem Bereich, hat einen Wert, f-Schlange (x), von 2. So, nächste Gruppe. Gruppen: 10-25, f-Schlange (x): 1,33. Also, 10-25, der Wert 1,33, also fängt es hier an, geht bis 25, ungefähr so, sehr schön. 3. Gruppe: 25-40, geht also bis hier, und zwar mit einer Höhe von 2,67, also hier oben, fange mal hier an, so, bis 40, ja. Vorletzte Gruppe: 40-50, mit einem Wert: 1,5. 1,5, etwa hier, bis 50, so. Und die letzte Gruppe: 50-60, mit einem Wert von 0,5. Also hier, bis 60. So, und damit ist unser Histogramm gezeichnet, ja, sieht ja ganz ansprechend aus, würde ich sagen. Wie viel kann man denn jetzt wirklich da rauslesen? Hat denn tatsächlich diese Gruppe, die ja die höchste Ausprägung hat, mit 2,67, auch wirklich die höchste Häufigkeit? Wir gucken, aha, 15 Gruppenbreite, ist auch die breiteste Breite, die es gibt, zusammen natürlich mit der Gruppe davor, hat also die breiteste Gruppe und den höchsten Ausschlag, folglich hat es auch die höchste Häufigkeit. Gucken wir weiter, aha, hier 1,33, 1,5, haben also ungefähr die gleiche Höhe, haben sie denn auch die gleiche Häufigkeit? Da muss man sagen, haben sie nicht! Denn hier haben wir 1,5 bei einer Gruppenbreite von 10, also eine Häufigkeit von 15. Hier haben wir 1,33 auf einer Gruppenbreite von 15, also eine Häufigkeit von 20. Die beiden, obwohl sie ungefähr die gleiche Höhe haben, haben also nicht die gleiche Häufigkeit. Man muss sich hier also immer den Flächeninhalt angucken und nicht die Höhe, ganz wichtig! So, das war auch schon die Übung zu der empirischen Dichtefunktion. Ich hoffe, ihr habt das Thema jetzt alle so weit verstanden und seht, wie wir von der empirischen Verteilungsfunktion über die Tabelle auf das Histogramm gekommen sind und wie man das zu interpretieren hat. Ich muss noch dazu sagen, wenn man ein Histogramm sieht, sollte man immer Vorsicht walten lassen, in der Interpretation, so etwas wird nämlich gerne manipuliert. Ihr seht ja, die Höhe hat ja was mit der Gruppenbreite zu tun. Nun gibt es einige findige Leute, die erheben Daten und sagen, okay, ich baue mir daraus ein Histogramm. Bauen sich also ihr Histogramm mit, sagen wir, guten Gruppenbreiten und sagen dann, aha, das sieht ja ganz schön aus, untermauert aber nicht den Punkt, den ich gerne beweisen würde. Dann, sie sind ja ganz schlau, gucken sie also, wo genau die Daten liegen, und bauen sich andere Gruppen zusammen, damit das Histogramm vielleicht schöner aussieht, damit man vielleicht hier einen höheren Ausschlag hat, der dann irgendwie so gehen würde, und dafür halt eine kleinere Gruppe. Das kann man ja alles machen, ist aber natürlich schlechte Statistik. Man sollte sich vorher überlegen, welche Gruppen man nimmt, man sollte dann die Daten erheben und dann die Gruppen beibehalten und sein Histogramm zeichnen. Wer nachträglich die Gruppenbreite ändert, um sein Histogramm anders aussehen zu lassen, macht schlechte Statistik. So, das war's für heute. Ich bedanke mich fürs Zuschauen - und tschüss!

Informationen zum Video