Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 26: Gini-Koeffizient

Guten Tag! Schön das ihr alle wieder da seid. Wir sind heute bei unserem Video zum Gini Koeffizienten. Der Gini Koeffizient, benannt nach einem italienischen Statistiker Gini, ist eine quantitative Maßzahl für die Konzentration nach Lorenz. Das heißt, er nimmt die Lorenzkurze und zieht daraus eine quantitative Maßzahl, mit der wir die Konzentration von verschiedenen Stichproben miteinander vergleichen können. Der Gini Koeffizient, ist als Formel, A, also die Fläche zwischen der Lorenzkurve und der Diagonalen, geteilt durch A+B, also geteilt durch die Gesamtfläche. Der Gini Koeffizient liegt demnach logischerweise zwischen 0 und 1. 0 ist der Gini Koeffizient genau dann, wenn unsere Lorenzkurve auf der Diagonalen liegt, also alles perfekt gleichmäßig verteilt ist. Es also eine Gleichverteilung gibt, und es also alles gerecht verteilt ist. 1 dann, wenn alle nichts besitzen, und einer alles. Also können wir uns also merken: Von 0 bis 1, wird es in diese Richtung immer ungerechter. Je größer der Gini Koeffizient ist, umso ungerechter ist, was auch immer wir gerade untersuchen, Vermögen, Einkommen, das verteilt. Wenn wir uns das jetzt aber einmal genauer angucken, und überlegen, dann sehen wir auch, dass der Gini Koeffizient, die 1, niemals erreichen kann. Machen wir das einmal weg. Wenn nämlich genau 1 alles besitzt, dann laufen wir also, wenn wir die Lorenzkurve zeichnen, sehr lange auf der 0. So, und zwar genau bis zu einem Punkt (n-1)/n, also der Anteil, wo wir hier sind. Sagen wir mal wir haben 100 Leute. 99 davon besitzen nichts und 1 besitzt alles. Dann wären wir hier bei 99/100, also 0,99 und würden dann von hier, bis hier oben zeichnen. Unser Gini Koeffizient wäre dann ja A/(A+B), also kleiner als 1. Das Maximale, was unser Gini Koeffizient erreichen kann, Gini max schreibe ich mal, ist (n-1)/n. Größer kann der nicht werden, solange n, endlich ist. So, das waren die ersten Einführungen zum Gini Koeffizienten. Stürzen wir uns also gleich rein in die Materie. Schauen wir uns einmal die Formel für den Gini Koeffizienten noch etwas genauer an. Wir haben ja als Gini Koeffizienten die Formel A/(A+B). Gucken wir also, was A+B ist. Wir haben ja üblicherweise hier irgendwo eine Lorenzkurve drinliegen, irgendeinen Polygonzug. Mit den beiden Bereichen A und B. Wir wissen ja, unsere Lorenzkurve geht immer durch den Punkt (1/1), hier ist der Punkt (1/1). Das heißt, der gesamte Flächeninhalt, der hier von dem Blauen aufgespannt wird, ist 1, und natürlich der Halbe, der durch die Diagonale abgetrennt wird, ist 1/2. A+B ergibt also in der Summe immer 1/2. Das können wir natürlich jetzt einmal einsetzen. Wir haben also daraus folgernd, der Gini Koeffizient ist also A/(1/2), oder auch 2A. Gut, wir haben jetzt also 2A, damit kann man das schon berechnen. Unser Problem ist jetzt, wir haben, wenn wir den Flächeninhalt A ausrechnen wollen, dann könnten wir das hier ja tun und unseren Bereich A in verschiedene Teile teilen. Ihr seht schon, das sieht nicht so richtig gut aus. Wir haben da Dreiecke, die auch nicht rechtwinklig sind, wie wir es ja gerne haben, wenn wir den Flächeninhalt von Dreiecken berechnen wollen. Und wir haben hier so etwas wie ein Trapez, und das sieht alles nicht so gut aus. Deshalb würden wir eigentlich lieber B berechnen. Weil da haben wir, zumindest wenn wir Dreiecke haben, rechtwinklige Dreiecke, da wissen wir sehr genau, dass man die einfach berechnen kann. Ok, wir haben ja hier oben auch eine Formel, wo A und B drinstehen, also können wir mal A in Abhängigkeit von B aufschreiben. Und sagen dann, aus dieser Formel folgt, dass: A=(1/2)-B. Das können wir jetzt hier einsetzten, und bekommen dann als Formel für  Gini Koeffizienten die neue Formel: 1-2B. Das ist auch die Formel, die man meistens benutzt. Das heißt, man berechnet den Flächeninhalt unter der Lorenzkurve, multipliziert den mit 2, und zieht das Ergebnis von 1 ab, und bekommt damit seinen neuen Gini Koeffizienten. Wir machen das jetzt mal an einem kleinen Beispiel. Gut wir haben jetzt also mal ein kleines Beispiel. Wir haben hier die relevanten Daten, Anteil an der Bevölkerung, Anteil am Vermögen. Haben hier ein Ue von 0,4 ein damit verknüpftes Ve von 0,2. Ein Ue von 0,6, Ve 0,4 und hier unten natürlich jeweils eine 1. So, wie berechnen wir jetzt den Gini Koeffizienten? Naja, wie gesagt, wir wollen ja unsere Fläche B berechnen. Dazu teilen wir die Fläche unter der Lorenzkurve erst einmal in 3 Teile auf. Wir haben jetzt also ein Dreieck und 2 Trapeze. Das gefällt uns eigentlich auch noch nicht so richtig. Sondern wir teilen die beiden Trapeze noch einmal auf, in ein Rechteck und ein Dreieck. Und sagen einmal, das hier ist Part 1, Part 2, Part 3, Part 4 und Part 5. Einzeln können wir die alle ganz locker berechnen. Dann können wir die einfach zusammen addieren und haben unsere Gini Koeffizienten. Zumindest sind wir dann schon einen guten Schritt weiter. Fangen wir mal an mit 1: 1 ist ein Dreieck, das heißt, der ganze Flächeninhalt wird ×(1/2) gerechnet. Wir haben also eine Breite von 0 bis 0,4 und eine Höhe von 0 bis 0,2. Also 1/2×0,4×0,2. Das ergibt einen Flächeninhalt von 0,04. Unser 2. Dreieck ist hier. Wir haben also eine Breite von 0,2 und eine Höhe von 0,2. Also 1/2×0,2×0,2=0,02. Unser 3. Dreieck, das hier oben, hat eine Breite von 0,4 und eine Höhe von 0,6. Ergibt also einen Flächeninhalt von 0,12. Gut, das waren die Dreiecke. Jetzt also die Rechtecke. Unser Part 4 ist also die Breite 0,2, die Höhe 0,2. Also 0,2×0,2=0,04. Teil 5, wieder ein Rechteck, hat eine Breite von 0,4 und eine Höhe von 0,4. Ergibt also 0,16. Das sind also unsere einzelnen Teile, und wenn wir die zusammenrechnen kommen wir auf B. B ist als: 0,04+0,02=0,06, ich mache das mal in 3 Etappen. 0,12+0,04 ergibt 0,16 und dann bleibt noch die 0,16 von hier übrig. B ist also: 0,16+0,16+0,06=0,38. Das ist also die Fläche unter unserer Lorenzkurve. Wenn wir uns jetzt also erinnern, unser Gini Koeffizient war 1-2×B. Also in unserem Fall ist unser Gini Koeffizient: 1-(2×0,38). 2×0,38 ist 0,76 also haben wir einen Gini Koeffizienten von 0,24. So das war die aufwendige Art es zu rechnen, welche aber oft auch in Klausuren durchaus verlangt wird. Es gibt aber auch noch eine einfachere Art es zu rechnen, die sich besonders bei großen Datensätzen besonders gut eignet. Um den Gini Koeffizienten zu berechnen, können wir auch hier oben von den Ue's und Ve's ausgehen. Es gibt da nämlich so eine Art Kreuzprodukt, was ihr vielleicht schon aus der linearen Algebra kennt. So ähnlich kann man das hier auch rechnen. Und zwar baut man sich hier eine neue Spalte, wo man immer das Ue der aktuellen Spalte mit dem Ve der nächsten Spalte multipliziert. Nennen wir es mal Ue×Ve+1. Also in diesem Fall 0,4 aus der ersten Spalte, mal 0,4 aus der 2. Spalte, also 0,16. 0,6 aus der 2. Spalte mal 1 aus der 3. Spalte, 1 aus dem Ve der 3. Spalte wohlgemerkt, also 0,6. So und für die 1 gibt es keinen Wert in der nächsten Spalte, also wird das rausgelassen. Man könnte jetzt auch 1×0 schreiben, würde das Gleiche rauskommen. So, genau das machen wir jetzt auch noch mal quasi entgegengesetzt. Also wir multiplizieren Ue+1×Ve. Also das aktuelle Ve mit dem Ue der nächsten Spalte. Also hier 0,2×0,6=0,12 und 0,4×1=0,4. Und hier wieder 1×0. Was wir jetzt machen, wir summieren beide Spalten miteinander auf. Also 0,16+0,6=0,76 und 0,12+0,4=0,52. Wenn wir jetzt die Differenz aus beiden Spalten ziehen, also 0,76-0,52 kommt daraus 0,24, also unser Gini Koeffizient. Wie gesagt, gerade bei sehr großen Datensätzen lohnt sich vielleicht diese Vorgehensweise. Denn wir haben ja gesehen, allein schon wenn wir 3, sagen wir mal Streckenpunkte haben, haben wir hier 5 Teilflächen zu berechnen. Mit jedem Punkt werden es 2 Teilflächen mehr. Sagen wir, wir haben 15 unterschiedliche Punkte, wären es ganz schön viele unterschiedliche Teilflächen, die wir dann von Hand berechnen müssen. So geht es manchmal deutlich schneller. Nun ist der Gini Koeffizient natürlich auch nicht das Allheilmittel und so gibt es auch Probleme mit ihm. Ein Problem ist, dass beim Gini Koeffizienten alle Daten, alle Beobachtungen in 1 Maßzahl komprimiert werden. Das heißt, dass macht das Ganze etwas ungenau. Also alle Beobachtungswerte, aus denen wir dann die Lorenzkurve zeichnen können, aus der wir ja doch einiges ablesen können. Wie viel % der Ärmsten haben wie viel Einkommen, wird beim Gini Koeffizient in einer einzigen Maßzahl komprimiert. Hat natürlich dann auch nur eine begrenzte Aussagekraft. Das 2. Problem ist, dass unterschiedliche Lorenzkurven den gleichen Gini Koeffizienten liefern können, obwohl sie vielleicht nicht gleich gerecht sind nach unserem Gefühl. Schauen wir uns dazu mal ein Beispiel an. Also hier im 1. Fall, besitzen die Ärmsten 50% der Bevölkerung so gut wie nichts des Vermögens und die restlichen 50% besitzen so gut wie das gesamte Vermögen. Im 2. Fall besitzen fast alle 50% des Vermögens. Also der Großteil der Bevölkerung hat 50 % des Vermögens und ein Einzelner oder eine ganz kleine Gruppe hat die restlichen 50% auf sich vereint. Nun lässt sich natürlich fragen, ist das beides gleich gerecht, oder gibt es da doch einen Fall, den wir als gerechter empfinden würden. Egal, was ihr dazu sagen würdet, beide liefern den gleichen Gini Koeffizienten, weil jeweils der Flächeninhalt hier, der Gleiche ist, der ja für den Gini Koeffizienten ausschlaggebend ist. Gut, das war es für dieses Video. Im nächsten Video machen wir noch eine Übung zum Gini Koeffizienten und kommen dann zur absoluten Konzentrationsanalyse, mittels des Herfindahls Index. Das war es von mir. Ich bedanke mich für das Zuschauen und sage tschüss.

Informationen zum Video
1 Kommentar
  1. Default

    hallo Jona, ich habe dein Video verstanden und bin deswegen leider verwirrt...In meinem Buch steht LKM(Lorenzsches Konzentrationsmaß)=2A=(Σ(Fj-1+Fj)*gj)-1
    j und j-1 sind als index geschrieben
    ausgehend von deiner Formel würde man doch erwarten das es andersherum steht, also:1-(Σ(Fj-1+Fj)*gj)
    das bringt einen aber zum falschen Ergebnis. Das verstehe ich nicht. Wie kommt das?

    Von Malinalina, vor etwa 2 Jahren