Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 9: empirische Dichtefunktion

Hallo, schön, dass ihr alle wieder zuguckt. Das Thema des heutigen Videos ist die empirische Dichtefunktion, mit dem Untertitel "Die grafische Darstellung gruppierter Daten". Wir fangen nämlich nicht mit der empirischen Dichtefunktion an, sondern mit der empirischen Verteilungsfunktion. Die empirische Verteilungsfunktion kennen wir ja schon aus dem letzten Video. Das war diese Darstellung, dieses Stufendiagramms, immer mit diesen Sprüngen. Wir haben jetzt allerdings gruppierte Daten, und bei gruppierten Daten möchte man die empirische Verteilungsfunktion gerne etwas anders darstellen. Wie kann man das machen? Nun ja, man könnte ja jetzt einmal eine Annahme treffen. Wir wissen ja, wir haben eine bestimmte Anzahl von Daten in unserer ersten Gruppe, die Gruppe von 0 bis 10, und zwar genau 30 %. Wenn wir jetzt einmal davon ausgehen, unser Stichprobenumfang wäre, sagen wir einmal 1000, hätte wir also genau 300 Daten in unserer ersten Gruppe. Wenn wir jetzt die Annahme treffen, dass in dem Intervall 0 bis 10 diese 300 Daten genau gleichmäßig verteilt sind, das heißt jedes Datum hat den gleichen Abstand zum Nächsten, dann können wir unsere Darstellung der empirischen Verteilungsfunktion auch approximieren und anders darstellen, und zwar schöner. Dazu verbinden wir einfach die Punkte. Wir fangen natürlich bei 0 an, das wird ja ein Graph, und zeichnen das jetzt einmal bis zu unserem ersten Punkt 0,3. So, wir haben jetzt also die empirische Verteilungsfunktion unserer gruppierten Daten anders dargestellt, und zwar so, dass man für jeden Wert x auch einen Wert der kumulierten Häufigkeit ablesen kann, weil wir eben davon ausgehen, dass sie in der Gruppe exakt gleichmäßig verteilt sind. Natürlich machen wir das jetzt auch für die anderen Gruppen. Sieht jetzt nicht so schön aus, wenn ich das aus der Hand zeichne, aber ihr könnt das bestimmt besser. Damit haben wir jetzt hier einen schönen Graphen, bei dem wir für jeden Wert x unsere kumulierte Häufigkeit ablesen können. Wir können jetzt also fragen, uns interessiert jetzt nicht unser Wert 20, 20 Euro Taschengeld, sondern unser Wert 15, der wäre also ungefähr hier. Wir gehen also hoch und landen dann so vielleicht bei, ja was ist das, 0,45. Das ist schon einmal ein entscheidender Vorteil. Wir haben jetzt also nicht mehr dieses Stufendiagramm und können also nur diese Daten angeben, sondern wir können jetzt die kumulierte Häufigkeit von jedem Wert x angeben, unter der Annahme, dass die Daten in den Gruppen exakt gleichmäßig verteilt sind. Das ist ganz wichtig. Ab und zu sieht man auch diesen Graphen dargestellt mit einer gestrichelten Linie. Das bedeutet dann, dass die Ausgangsdaten nicht gruppierte Daten sind, sondern sortierte Daten, und es eigentlich keine Zwischenschritte gibt. Das heißt, es würde dann das hier mit gestrichelten Linien verbunden werden. Das bedeutet, es sind sortierte Daten, und im Prinzip handelt es sich um ein Stufendiagramm. Man kann also keine Zwischenschritte ablesen, aber man nimmt trotzdem so einen Graphen gestrichelt, damit es halt schöner aussieht. Findet man nicht so häufig, aber kommt unter Umständen vor. So, dann können wir jetzt weitermachen mit der empirischen Dichtefunktion. Also, wir haben ja gerade gesehen, wie man die kumulierte Häufigkeit bei gruppierten Daten zeichnen kann. Und jetzt müssen wir uns also noch überlegen, wie kann man denn die absolute oder die relative Häufigkeit gruppierter Daten einzeichnen. Wir hatten ja bisher ein Stabdiagramm gesehen bei sortierten Daten, das ist ja jetzt eher ungünstig, denn wir haben ja Intervalle und wir würden auch gerne diese Intervalle berücksichtigen. Dann hatten wir ja noch ein Balkendiagramm. Das ist auch nicht so gut, weil es nicht die Gruppenbreite berücksichtigt. Wir überlegen uns also, wir müssten irgendwie die Gruppenbreite der einzelnen Gruppen mit in Betracht ziehen. Also hat man sich überlegt, wir bauen uns eine empirische Dichtefunktion. Empirisch deshalb, weil es eine Dichtefunktion ist, die aus den Daten, die wir bereits erhoben haben, berechnet wird. Es wird später auch noch einmal eine theoretische Dichtefunktion geben, aber wir sind heute bei der empirischen Dichtefunktion. Das ist grob gesagt die Funktion für die grafische Darstellung der Häufigkeit gruppierter Daten, also nicht der kumulierten Häufigkeit, sondern der richtigen Häufigkeit. Und zwar setzt diese Funktion unsere Häufigkeit hj in Relation zu bj. bj führen wir neu ein, ist unsere Gruppenbreite. Wir bauen uns also einen Quotienten, der unsere Häufigkeit und die Gruppenbreite in Reaktion setzt. Das führt uns zum Prinzip der Flächentreue. Wenn wir das also nachher zeichnen in einem Histogramm, wird nicht mehr die Höhe für die Häufigkeit stehen, wie wir es bisher immer hatten bei Balkendiagramm oder Stabdiagramm, sondern der Flächeninhalt. Deshalb nennt man das Prinzip der Flächentreue. Je mehr Fläche ein bestimmter Balken hat, umso mehr Häufigkeit ist auf diese Gruppe entfallen. Die Voraussetzungen dafür sind, dass wir gruppierte Daten haben. Wenn wir keine gruppierten Daten haben, können wir keine Gruppenbreite bestimmen, können wir das Ganze nicht durchführen. Die zweite Voraussetzung ist, dass wir keine offenen Gruppen haben. Da heißt, wenn wir sagen, wie bei Taschengeld in Euro, die letzte Gruppe wäre nicht 30 bis 50 gewesen, sondern 30+, also 30 und mehr, können wir ja wieder keine Gruppenbreite bestimmen, weil wir keinen Endpunkt haben. Also, keine offenen Gruppen. Die erste und die letzte Gruppe muss abgeschlossen sein. Klingt jetzt alles erst einmal ein bisschen theoretisch. Wir wissen noch nicht genau, was das Ganze soll, aber dazu komme ich. Erst einmal zeige ich jetzt, wieso man das eigentlich braucht und warum wir nicht einfach Spaltendiagramme einführen können. Einige von euch werden sich jetzt vielleicht fragen, ach, wozu brauche ich eigentlich den Quatsch, das ist doch alles nur Schikane. Ich habe euch einmal ein Beispiel gemacht, wie es aussieht, wenn wir es nicht benutzen. Wir haben hier auf der y-Achse unsere absolute Häufigkeit hj, auf der x-Achse wie immer unser Merkmal x. Wir haben zwei Gruppen, die tatsächlich eine Häufigkeit haben, also wirklich ausgeprägt sind, und zwar die Gruppe 0 bis 30 hat die Häufigkeit 50, die absolute Häufigkeit, und die Gruppe 45 bis 50 hat auch die absolute Häufigkeit 50. So jetzt guckt man sich einmal diesen Graphen an, und die Gruppe von 0 bis 30, die erste Gruppe wirkt schon ziemlich mächtig, hat einen ziemlich großen Flächeninhalt. Die zweite Gruppe 45 bis 50 wirkt dagegen eher mickrig. Jetzt überlegen wir uns doch einmal, diese Gruppe hat eine Gruppenbreite von 30, in diesen 30 haben wir 50 Daten, die in diese Gruppe reinfallen. Hier haben wir nur eine Gruppenbreite von 5, und trotzdem fallen auch wieder 50 Daten in diese Gruppe rein. Sollte nicht eigentlich diese Gruppe irgendwie größer dargestellt werden oder höher oder mächtiger als diese Gruppe, weil hier in ein viel kleineres Intervall die gleiche Anzahl an Daten fällt? Genau das ist der Punkt, und genau das machen wir, wenn wie die empirische Dichtefunktion benutzen und ein Histogramm zeichnen. Es hat also Sinn und es ist keine reine Schikane. Schauen wir uns also einmal an, wie es in der Praxis aussieht, wie man die empirische Dichtefunktion berechnet. Ich habe einmal wieder ein Beispiel gemacht. Sagen wir, unser x ist immer noch unser Taschengeld in Euro. Wir fangen diesmal bei 5 an, unsere erste Gruppe 5 bis 10 Euro, 10 bis 20 Euro, 20 bis 30 Euro und 30 bis 50 Euro, und hier haben wir die absoluten Häufigkeiten und die kumulierten absoluten Häufigkeiten. Die relativen Häufigkeiten habe ich einmal herausgelassen. Aber wie die zu berechnen sind, solltet ihr ja inzwischen bereits wissen. Wir erweitern unsere Tabelle also um zwei Spalten, einmal bj und FSchlange(x), was ja hj, unsere absoluten Häufigkeiten durch unsere Gruppenbreite sind. So einfach geht das. Mehr brauchen wir nicht, um die empirische Dichtefunktion aufzustellen. Bauen wir uns also erst einmal unser bj. Die Gruppenbreite unserer ersten Gruppe, die von 5 bis 10 geht, ist also 10-5=5. Die Gruppenbreite unserer zweiten Gruppe 20-10=10. Die Gruppenbreite unserer dritten Gruppe, sie beginnt von 20 bis 30, also auch 10, und unsere dritte gruppe von 30 bis 50 ist etwas größer und hat die Gruppenbreite 20. Wenn man die wieder zusammenrechnet, sollte man auf das gesamte Spektrum kommen. Wir fangen bei 5 an, enden bei 50, haben also ein Spektrum von 45, 5+10+10+20=45, also Test bestanden, funktioniert, richtige Gruppenbreiten gewählt. Berechnen wir also unser FSchlange(x). Das ist unsere absolute Häufigkeit geteilt durch unsere Gruppenbreite. Wir teilen also für die erste Gruppe 5 bis 10. Unsere absolute Häufigkeit 30 durch unsere Gruppenbreite 5, also 30/5=6. So einfach geht das. Unsere zweite Gruppe, absolute Häufigkeit 30, Gruppenbreite 10, also 30/10=3. Unsere dritte Gruppe, absolute Häufigkeit 25, Gruppenbreite wieder 10, 25/10=2,5. Und bei der letzten Gruppe, unsere absolute Häufigkeit 15 geteilt durch 20 macht ein Ergebnis von 0,75. So, das sind unsere Werte für FSchlange(x). Die werden wir jetzt gleich noch einzeichnen in ein Histogramm. Und dann sind wir mit der empirischen Dichtefunktion auch schon fertig. Kommen wir also dazu, das Ganze zu zeichnen. Die Zeichnung nennte man übrigens Histogramm. Wichtiger Begriff, merken! Ich habe die Tabelle wieder auf das Wesentliche reduziert. Was wir noch brauchen, sind die Gruppen, wir müssen ja wissen, von wo bis wo wir zeichnen müssen, und unser FSchlange(x). Und das tragen wir jetzt genauso ein, wie wir die kumulierten relativen Häufigkeiten bei der empirischen Verteilungsfunktion eingezeichnet haben. Wir starten also mit der ersten Gruppe, die Gruppe 5 bis 10. Also haben wir ein Intervall hier von 5 bis 10 und FSchlange(x) hat einen Wert von 6. Sieht jetzt etwas unschön aus, wenn ich das so frei Hand zeichne, aber ihr könnt das natürlich besser, wenn ihr schön Lineal und Stift nehmt. So, das ist unsere erste Gruppe, die wir hier eingezeichnet haben. Machen wir weiter mit der zweiten Gruppe 10 bis 20. Da haben wir einen Wert FSchlange(x), unserer empirischen Dichtefunktion von 3. Wir sind also hier bei 3, gehen bis 20. Man muss jetzt darauf achten, die beiden haben den gleichen Flächeninhalt. Diese Gruppe ist nur halb so breit, deshalb ist der Graph doppelt so hoch. Aber eigentlich sollte man, wenn man sich diese Darstellung anguckt, sehen, aha, sie haben den gleichen Flächeninhalt, ist also die gleiche Häufigkeit. Ob man das wirklich immer so sieht, ist schwierig, weil, die Höhe einer Säule ist nun mal markanter als der Flächeninhalt, das ist für das Auge schneller zu erfassen. Man sollte also deshalb mit Histogrammen immer vorsichtig umgehen. Es gilt zwar das Prinzip der Flächentreue, also je mehr Flächeninhalt, umso mehr Häufigkeit. Die Höhe ist aber markanter, deshalb gibt es viel Trickserei mit Histogrammen, nur dass ihr es einmal gehört habt. Man sollte sich darauf nicht immer so eindeutig verlassen und vielleicht einmal den Flächeninhalt ausrechnen, um die Häufigkeit zu bestimmen. Aber wir machen weiter mit der nächsten Gruppe 20 bis 30, FSchlange(x) 2,5. Wir sind also hier bis hier. So, und unsere letzte Gruppe, das ist unsere breiteste Gruppe von 30 bis 50, hat dementsprechend auch einen relativ kleinen Wert FSchlange(x), denn je breiter die Gruppe, umso kleiner dieser Wert. Wir starten hier bis 50. Nun kann man sich natürlich darüber streiten, wie übersichtlich so ein Histogramm eigentlich ist, wie aussagekräftig es auch ist. Ja, da gibt es verschiedene Meinungen. Tatsache ist aber, wenn man die Häufigkeit gruppierter Daten angeben will, dann ist FSchlange(x) so ziemlich die einzige sinnvolle Möglichkeit, diese darzustellen. Es führt also kein Weg an einem Histogramm vorbei, auch wenn man es selber unübersichtlich findet. Kann ja sein. Aber, will man die Häufigkeit darstellen, muss man ein Histogramm zeichnen, braucht man die empirische Dichtefunktion und damit FSchlange(x). So, das war das Thema für heute. Im nächsten Video machen wir zu dem Thema noch eine Übung. Dann wird alles hoffentlich noch mal ein bisschen klarer, wir tauchen noch einmal tiefer in den Stoff ein und ihr werdet danach hoffentlich keine Probleme mehr damit haben. Das war es für heute. Ich bedanke mich fürs Zuschauen und tschüss.  

Informationen zum Video
4 Kommentare
  1. Default

    Das ist das nächste Video das hakt. Stelle13:34.

    Das ist leider nicht das erste, wär ganz toll wenn ihr das mal beheben könntet

    Von Ho Me28681, vor mehr als 2 Jahren
  2. Default

    Bei einem Polygonzug verbindet man in der empirischen Verteilungs- oder Dichtefunktion die Häufigkeiten mit geraden und erhält so einen Polygonzug bzw. einen Summenpolygonzug.

    Bei einem Balkendiagramm (also bei diskreten Daten) verbindet man die Mittelpunkte der Balkenobergrenze, bei Histogrammen (gruppierten Daten) die Grenzen (meistens die linken).

    Beispiel Diagramme findest du hier:
    http://www.pflegewiki.de/wiki/Polygonzug

    Von Statistik Jona, vor fast 4 Jahren
  3. Default

    Hallo Jona,
    ich hatte um Hilfe gebeten bezüglich des Polygonzuges. Kannst Du mir da helfen???
    Liebe Grüsse
    Jutta

    Von J Pongracz, vor fast 4 Jahren
  4. Default

    Hallo,
    bezüglich der empirischen Verteilungsfunktion aus gruppierten Daten, wird in meinem Lehrbuch noch von einer Näherungslösung gesprochen, die man mit dem Polygonzug berechnet. Kann mir da jemand weiterhelfen?
    Liebe Grüsse
    Jutta

    Von J Pongracz, vor fast 4 Jahren