Textversion des Videos

Transkript Statistik Video 25: Lorenzkurve Übung

Hallo! Schön das ihr alle wieder zuguckt. Wir sind heute bei der Übung zur Lorenzkurve und wir steigen gleich mal richtig schön ein, Wir haben unser Merkmal Umsatz in Millionen Euro und wir betrachten 5 Unternehmen. Unternehmen A, B, C, D und E. Und zwar jeweils nicht nur auf einem Markt sonder auf 2 Märkten. Wir gucken also was für ein Umsatz machen die in Europa und was für einen Umsatz machen die in den USA. Das kann teilweise stark abweichen. Unternehmen A zum Beispiel macht in Europa 7 Millionen Euro Umsatz und in den USA 3 Millionen. Unternehmen B macht in Euro 15 Mio. Euro Umsatz und in den USA gar nichts. Das heißt, wahrscheinlich sind sie da gar nicht präsent. Unternehmen C macht in Europa 9 Mio. Euro Umsatz und in den USA 7. Unternehmen D in Europa 2 und in den USA 21 und Unternehmen E in Europa 7 Mio. und in den USA 9 Mio. Euro Umsatz. Natürlich, wenn wir jetzt unsere Lorenzkurven aufstellen wollen, müssen wir wieder unsere komplette Tabelle durcharbeiten, wie wir das immer gemacht haben. Jetzt aber natürlich für 2 Märkte, nicht nur für 1. Wir fangen mal an mit Europa. Ich habe schon ein bisschen Vorarbeit geleistet. Also erst einmal die realisierten Ausprägungen, obwohl wir 5 Beobachtungen haben sind, das nur 4. 2, 7, 9 und 15. Mit den absoluten Häufigkeiten 1, 2, 1 und 1. Die 7 taucht zweimal auf. Daraus resultieren dann die relativen Häufigkeiten und die relativen kumulierten Häufigkeiten. Wir erinnern uns F(x) war ue. Gut, jetzt steigen wir also richtig ein. Während wir unsere Spalte aj×h(aj). Also für die erste 2×1=2, 7×2=14, 9×1=9 und 15×1=15. Hier unten als Summe, wir erinnern uns, steht dann das Gesamtvolumen V. V ist in diesem Fall 40. Hier haben wir dann jetzt also aj×h(aj) die Spalte davor geteilt durch das Gesamtvolumen. Also den Anteil der jeweiligen realisierten Ausprägung multipliziert mit ihrer Häufigkeit am Gesamtvolumen. Also haben wir hier 2÷40 macht 1/20. 14÷40=7/20, 9÷40=9/40 und 15/40=15/40. Gut, die letzte Spalte, die noch übrig bleibt, das ganze aufkumuliert. Also, wir fangen an mit 1/20. 1/20+7/20=8/20. 9/40+8(20=25/40 und hier steht natürlich die dicke fette 1. Gut, das war unsere Tabelle für Europa. Jetzt machen wir weiter mit den USA. Für die USA machen wir jetzt also genau das Gleiche. Wir haben wieder die realisierten Ausprägungen aufgeschrieben, 0, 3, 7, 9 und 21. Die haben diesmal alle die absolute Häufigkeit von 1, jedes tritt einmal auf. Alle die relative Häufigkeit von 0,2 und die daraus kumulierende relative Häufigkeit natürlich auch in diesen 0,2er Schritten. Wir haben jetzt also unsere Spalte aj×h(aj). Also immer unsere realisierte Ausprägung ×1. Können wir also direkt so übernehmen diese Spalte. Also haben wir hier 0, 3, 7, 9 und 21. Macht wieder ein Gesamtvolumen von 40. Jetzt nehmen wir also diese Spalte und teilen durch das Gesamtvolumen und erhalten diese Spalte. 0÷40=0, 3÷40=3/40, 7÷40=7/40, 9÷40=9/40 und 21÷40=21/40. Das Ganze jetzt in der letzten Spalte aufsummiert. Also 0, 0+3/40=3/40, 3/40+7/40=10/40 oder auch 0,25, also 1/4. 10/40+9/40=19/40 und hier unten muss immer die 1 stehen. Wenn hier die 1 nicht steht, habt ihr irgendetwas falsch gemacht. Gut, jetzt haben wir alle Daten die wir brauchen. Wir haben ue, wir haben Ve jeweils von den USA und Europa. Können jetzt also unsere Lorenzkurve zeichnen. Gut zeichnen wir also die Lorenzkurven. Einmal für Europa und einmal für die USA. Ich habe hier noch mal die beiden wichtigen Spalten jeweils für jeden Markt rausgenommen. Also Ue und Ve und das können wir jetzt einfach eintragen. Fangen wir mal mit Blau, mit Europa, an. Wir haben hier also Ue, also der relative Anteil unserer beobachteten Population. Also unser Unternehmen, 0,2, haben wir einen Anteil am Gesamtvolumen von 5%, 0,05. Das liegt hier. Dann gibt es einen Sprung auf 0,6. Da haben wir dann einen relativen Anteil am Marktvolumen von 0,4. 0,4 liegt hier. So, wenn wir jetzt also von 0,6 hochgehen, dann landen wir hier. Gut, bei 0,8 sind wir bei 0,625, also hier und bei 1 sind wir natürlich bei 1. Kein Problem. Das können wir jetzt also, wenn wir die Punkte miteinander verbinden erhalten wir unsere Lorenzkurve für unseren Markt Europa bei unseren 5 beobachteten Unternehmen. Und jo. So, das ist die Lorenzkurve für Europa. Machen wir weiter mit der für die USA. Bei 0,2, also 20% der beobachteten Population unserer beobachteten Unternehmen sind wir bei 0. Also immer noch hier unten. Bei 40% sind wir dann bei 0,075, das ist hier. Also sind wir hier. Bei 60% sind wir dann bei 0,25, also hier. Bei 80% sind wir dann bei 0,475 und bei 100% sind wir dann also bei 100%. Gut, auch hier können wir wieder unsere Punkte miteinander verbinden und haben dann auch die Lorenzkurve für die USA.  Jetzt also wieder die Frage: Wie können wir die beiden Lorenzkurven miteinander vergleichen? Was für Aussagen können wir treffen? Wir haben ja beim letzten Mal gesagt, wenn die eine immer näher an den 45 Grad Linie entlang läuft, als die andere, dann können wir daraus schließen, o.k. hier ist das Volumen gerechter verteilt. Das können wir auch sagen. Wir können sagen, in Europa haben wir eine weniger, also der Markt von Europa ist weniger stark konzentriert und der gesamte Umsatz ist gerechter verteilt als in den USA. Würden die beiden sich jetzt kreuzen, könnten wir diese Aussage nicht treffen. Sondern müssten den Gene Koeffizienten ausrechnen. Natürlich kann man auch eine Lorenzkurve aufstellen, wenn man gruppierte Daten hat. Das machen wir jetzt mal. Wir haben unser Merkmal Taschengeld in Euro und wir haben 50 Schüler befragt. Wir haben dann die Daten in 3 Kategorien eingeteilt, 0-4 Euro, 4-8 Euro und 8-24 Euro und haben dann herausgefunden, je 25 Schüler kriegen 0-4 Euro Taschengeld, 15 Schüler kriegen 4-8 Euro Taschengeld und 10 Schüler bekommen 8-24 Euro Taschengeld. Das führt dann zu den relativen Häufigkeiten von 0,5, 0,3 und 0,2. Und zu den kumulierten relativen Häufigkeiten von 0,5, 0,8 und 1. Da wir ja jetzt mit gruppierten Daten haben, also nicht mehr die Urliste und auch nicht die sortierte Liste haben, haben wir auch keine realisierten Merkmale, Ausprägungen mehr. Uns fehlt also unser aj, was wir immer für diese Spalte gebraucht haben. Wie immer bei gruppierten Daten ersetzen wir also unser aj durch mj und rechnen also mit der Gruppenmitte weiter. Wir rechnen also die Gruppenmitte mal der absoluten Häufigkeit der Gruppe. Also Gruppenmitte der ersten Gruppe ist 2, absolute Häufigkeit 2×25=50. Zweite Gruppe, wir haben die Gruppe von 4-8, Gruppenmitte ist also 6, die absolute Häufigkeit ist 15, also 90. Und hier bei der Gruppe von 8-24 liegt die Gruppenmitte bei 16, die absolute Häufigkeit bei 10, also 160. Ergibt ein Gesamtvolumen von 300. Gut, jetzt können wir also hier mj×hj/V rechnen, also den Anteil am Gesamtvolumen. Kommen hier 50/300, 90/300 und 160/300. Letzter Schritt, das Ganze zu Ve verdichten, also zusammenrechnen. Wir haben hier 1/6, also ungefähr 0,17. Wir haben dann hier, wenn man das zusammenrechnet, 7/15?0,47 und hier natürlich die dicke, fette 1. Gut, das Ganze können wir jetzt also als Lorenzkurve aufzeichnen. Das mache ich einfach mal in Rot. Ich habe auch schon die entsprechenden Punkte gekennzeichnet. Wir haben also hier unser 0,5 und hier unser 0,8. Das sind ja genau die beiden Werte ue die uns interessieren. Und wir haben hier 0,17 und 0,47. Gut, also 0,5 und 0,17 der Punkt liegt ungefähr hier. Also die ärmsten 50% der Schüler haben 17% des Einkommens. Und 0,8 und 0,47 liegt ungefähr hier, ja. Gut, wenn wir die Punkte also eingezeichnet haben, können wir sie jetzt auch zu einer Lorenzkurve verbinden. Gut, das ist also unsere Lorenzkurve. Was können wir jetzt daraus aussagen? Zuerst einmal können wir aussagen. Das Taschengeld ist nicht gerecht verteilt. Es zeigt sich ein deutlicher Bauch in der Lorenzkurve. Also eine deutliche ungerechte Verteilung. Wir können weiterhin sagen, die ersten 50% haben gerade einmal knapp 17% des gesamten Taschengeldes. Wohingegen die reichsten 20% 53% des Taschengeldes auf sich vereinen. Wir können auch, wenn uns die Zwischenschritte interessieren, wie 0,2, diese auch auslesen. Natürlich nur Aproximativ. Also, wenn wir sagen, o.k. 0,2 interessiert uns, dann gucken wir, wo ist hier die Lorenzkurve. Das wären ungefähr vielleicht 4% oder so. Dann könnten wir sagen, die ärmsten 20% der Schüler besitzen ungefähr 4% des gesamten Taschengeldes. Das dürfen wir allerdings nur, wenn wir gruppierte Daten haben. Wenn wir nur sortierte Daten haben, dann sind die Zwischenschritte zwischen den Punkten, obwohl wir sie verbinden, nicht interpretierbar. Sobald sie aber gruppierte Daten haben, können wir wieder die Annahme treffen, dass die Daten in der Gruppe gleichmäßig verteilt sind. Können den Strich wieder durchziehen und auch die Zwischendaten interpretieren. Ja, das war es für heute. Ich bedanke mich fürs Zuschauen und freue mich aufs nächste Mal. Tschüss!

Informationen zum Video
1 Kommentar
  1. Default

    4*15= 60 und nicht 90. also wieso 90 ?

    Von Priscila, vor etwa 4 Jahren