Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 13: Arithmetisches Mittel

Ja, hallo! Schön, dass ihr wieder alle zuguckt. Wir sind heute bei unserem zweiten Teil der Mittelwerte und beschäftigen uns also mit dem arithmetischen Mittel, dem geometrischen Mittel und dem harmonischen Mittel. Und wir beginnen mit dem arithmetischen Mittel, wird dargestellt als x quer, also x mit einem Querstrich da drüber. Und das ist die Summe aller Beobachtungswerte, die wir in unserer Stichprobe haben, geteilt durch die Anzahl. Klingt jetzt erst mal ein bisschen komisch, aber, ihr werdet schon sehen, ist ganz einfach. Es gibt hier 4 Definitionen. Lasst euch davon bitte nicht abschrecken. Es ist eigentlich immer genau das Gleiche, nur halt die Herangehensweise ist etwas anders. Wenn wir eine Urliste haben, das heißt, wir haben hintereinander alle Zahlen, die wir beobachtet haben, dann summieren wir einfach alle Zahlen miteinander auf. Hier das Summenzeichen von i=1 bis n. Das heißt, x1 bis xn summieren wir auf. Und wir teilen dann durch den Stichprobenumfang n, also ×1/n. Das machen wir bei der Urliste. Wenn wir jetzt schon sortierte Daten haben, also, ihr wisst: 2 Spalten, links aj, also unsere Ausprägung, rechts daneben die Häufigkeit unserer Ausprägung, h(aj), dann summieren wir wieder, und zwar immer, unsere Merkmalsausprägung mal die Häufigkeit unserer Merkmalsausprägung und teilen das Ganze dann wieder durch unseren Stichprobenumfang 1/n. Wir können auch direkt mit der relativen Häufigkeit arbeiten. Also aj, unsere Merkmalsausprägung, mal die relative Häufigkeit dieser Merkmalsausprägung, f(aj), das wieder summieren. Dann müssen wir nicht ×1/n rechnen, weil f(aj) ist ja schon h(aj)/n. Das heißt, dieser Term, 1/n, zusammen mit h(aj), bildet genau dieses f(aj). Das hier ist also die Formel für sortierte Daten. Wenn wir jetzt gruppierte Daten haben, haben wir wieder unser arithmetisches Mittel, bildet sich wieder 1 durch den Stichprobenumfang - also man teilt im Prinzip am Ende alle durch den Stichprobenumfang - mal eine Summe. Und hier haben wir ja keine richtigen Daten mehr, sondern wir haben Gruppen, sagen wir mal 10 bis 20. Was wir jetzt machen, wir nehmen immer die Gruppenmitte und multiplizieren mit der absoluten Häufigkeit der Gruppe. Wir gehen wieder davon aus, dass die Daten gleichmäßig verteilt sind. Das heißt, wir können mit der Gruppenmitte multiplizieren und treffen damit im Prinzip alle, weil es ein paar gibt, die kleiner sind als die Gruppenmitte, aber es gibt genau so viele, die sind größer als die Gruppenmitte. Das heißt, wenn wir immer mit der Gruppenmitte multiplizieren, werden wir es so ungefähr treffen. Hier ist wichtig, dass man weiß, wenn man gruppierte Daten hat und nur gruppierte Daten, also man bekommt direkt die Tabelle, wo die gruppierten Daten angegeben sind, die Urliste ist weg und die sortierten Daten sind auch weg, verliert man an Genauigkeit. Man weiß nicht mehr, ob das arithmetische Mittel, was man aus den gruppierten Daten berechnet, tatsächlich das ist, was man auch aus der Urliste berechnet hätte. Weil man ja immer nur mit der Gruppenmitte multipliziert. Man geht zwar davon aus, dass die Daten gleichmäßig in der Gruppe verteilt sind, aber das ist ja eine Annahme, und man weiß ja gar nicht, ob das stimmt. Aber man muss diese Annahme treffen, damit diese Formel gilt. Also 1/n mal die Summe, die Gruppenmitte mal die absolute Häufigkeit der Gruppe. Wieder kann man hier das 1/n und das hj zusammenziehen und einfach die Gruppenmitte mal die relative Häufigkeit der Gruppe rechnen. Dann landet man bei dem Gleichen. Es gibt jetzt auch noch ein gewichtetes arithmetisches Mittel. Wofür genau man das braucht, dazu kommen wir in der Übung. Man rechnet hier also 1 durch die Summe aller Gewichte mal die Summe den Beobachtungswert mal das jeweilige Gewicht. Vielleicht wird es etwas klarer, wenn ich das anders erkläre. Denn dieses arithmetische Mittel, diese Formel und diese Formel sind im Prinzip auch nichts anderes als gewichtete arithmetische Mittel. Die Summe aller Gewichte ist hierbei halt unser Stichprobenumfang, und das Gewicht, was jeweils verteilt wird, ist ja die absolute Häufigkeit, die wir in der jeweiligen Gruppe haben. Weil, wenn wir die absolute Häufigkeit jeder Gruppe aufmultiplizieren, also Summe h(aj), bekommen wir ja genau n. Das heißt, das arithmetische Mittel bei sortierten Daten und das arithmetische Mittel bei gruppierten Daten sind im Prinzip schon gewichtete arithmetische Mittel. Ich gebe zu, der Einstieg war jetzt vielleicht noch etwas theoretisch, aber kein Problem, wir füllen das Ganze mit Leben und dann werdet ihr das ganz locker verstehen. Wir haben hier mal ein Beispiel. Wir haben eine sortierte Urliste -2, 4, 6, 8, 11, fünf Daten - und wir wissen, bei einer Urliste haben wir für das arithmetische Mittel folgende Formel: 1/n mal die Summe aller Beobachtungswerte. N ist hier 5, wir haben 5 Daten, Stichprobenumfang 5. Unser arithmetisches Mittel berechnet sich also wie folgt: Wir haben 1/5, 1/n, mal die Summe aller Beobachtungswerte. Und das ist wirklich ganz simpel. Wir rechnen einfach nur Plus bei allen Beobachtungswerten, haben also 2+4+6+8+11. So, das sind 31. Wir rechnen also 1/5×31. Unser arithmetisches Mittel x quer ist also 6,2. So einfach ist das. Die ganzen Formeln sehen immer etwas kompliziert aus, aber wenn man weiß, was sich dahinter verbirgt, ist es eigentlich total einfach. Gucken wir uns also die zweite der 4 Formeln an, das arithmetische Mittel bei sortierten Daten. Die Formel ist hier 1/n, also 1 durch den Stichprobenumfang, mal Summe aj, Merkmalsausprägung, mal h(aj), absolute Häufigkeit dieser Merkmalsausprägung. Ich habe hier mal ein Beispiel gemacht. Wir haben den Stichprobenumfang von 15, die Merkmalsausprägung 1, 2, 3 und 4 mit unterschiedlichen Häufigkeiten. Unser x quer ist also erst einmal 1/n, n 15, also 1/15×. Und jetzt summieren wir wieder etwas auf, kann man also hier schon einmal Pluszeichen hinsetzen. Und zwar was summieren wir auf? Aj×h(aj), also 1×5+2×4+3×2+4×4. Das ist alles, was hinter dieser Formel steckt. Unser x quer ist also 1/15× einmal 5 sind 5, zweimal 4 sind 8, zusammen 13, dreimal 2 sind 6, zusammen 19, viermal 4 16, zusammen 35. Also 1/15×35. X quer ist also 2,333... Das steckt hinter dieser Formel. Sieht kompliziert aus, ist es aber nicht. Wollen wir also auch noch die dritte der Formeln entschlüsseln. Wir haben die Formel x quer, unser arithmetisches Mittel, ist 1/n mal die Summe mjhj. Mj hatten wir bisher noch nicht, ist die Gruppenmitte unserer Gruppe. Wir sind also bei gruppierten Daten und fügen mj als eigene Spalte ein. Und alles, was wir jetzt machen, um unser x quer zu berechnen, ist jeweils die Gruppenmitte mit der absoluten Häufigkeit der jeweiligen Gruppe zu multiplizieren und natürlich durch den Stichprobenumfang zu teilen. Fangen wir mal damit an. Wir haben 1 durch den Stichprobenumfang, n=20, mal, fangen wir an. M1, die Mitte der ersten Gruppe, ist 5. H1, die absolute Häufigkeit der ersten Gruppe, ist 7. Das Ganze plus m2, die Mitte der zweiten Gruppe, mal h2, die Häufigkeit der zweiten Gruppe. Plus die Mitte der dritten Gruppe, 25, mal 1. So, das ergibt 1/20×(35+15×12, 180, +25×1, 25) Wir haben also 1/20×240. Unser arithmetisches Mittel ist also, schreiben wir mal da drunter, x quer gleich 12. So bekommen wir das arithmetische Mittel auch aus gruppierten Daten. Als Nächstes schauen wir uns schöne Eigenschaften des arithmetischen Mittels an. Das arithmetische Mittel hat einige Eigenschaften. Manche sind gut für uns, manche eher nicht. Ich habe hier mal 4, die großen 4, aufgeschrieben. Nummer 1: die Summe xi-x quer gleich 0. Was bedeutet das? Das bedeutet, x quer, unser arithmetisches Mittel, liegt genau in der Mitte von allen Daten. Das heißt, die Abstände zu allen Daten, die links davon liegen, sind genau so groß wie die Abstände von allen Daten, die rechts davon liegen. Also, wenn man alle aufeinander addiert, sind es 0, weil ja die Hälfte davon negativ ist und die andere Hälfte positiv. Das führt uns gleich zu Eigenschaft 2. Die Summe aller Abstände zum Quadrat ist immer kleiner gleich die Summe der Abstände meiner Beobachtungswerte zu jeder anderen Zahl. Das heißt, es gibt keinen Wert, der besser ist als mein arithmetisches Mittel, wenn es darauf ankommt, die Abstände zu berechnen. Und hier sind die Abstände ja nicht 0, weil wir nehmen ja das Quadrat, wir nehmen also quasi das Vorzeichen raus. Das heißt, alle aufsummierten, quadrierten Abstände von meinen Beobachtungswerten zum arithmetischen Mittel sind immer kleiner gleich den Abständen meiner Beobachtungswerte zu irgendeinem anderen Punkt. Das heißt, es kann quasi keinen Punkt geben, der besser liegt als mein arithmetisches Mittel. Nummer 3. Das arithmetische Mittel ist linear transformierbar. Was bedeutet das? Ich habe hier mal eine Definition aufgeschrieben, die sehr mathematisch aussieht. Ist sie auch, ich erkläre das auch gleich. Bedeutet, wenn ich jeden Beobachtungswert, den ich habe, xi, jedes xi, mit einem Faktor, von mir b, multipliziere für alle i zwischen 1 und n, also für alle Beobachtungswerte x1 bis xn, bedeutet das, dass sich mein ursprüngliches arithmetisches Mittel auch genau um den Faktor b vergrößert. Was heißt das für uns und wie können wir das benutzen? Wenn wir jetzt nur Beobachtungswerte haben, die 0,1 ,0,4 ,0,5 sind und wir sagen, ah, ist mir zu blöd, immer mit diesem 0 Komma zu rechnen, dann heißt das, wir können alle unsere Beobachtungswerte mit einem Faktor, logischerweise hier 10, multiplizieren, können dann ganz schön mit 2, 3, 4, 5 rechnen statt mit 0,2 ,0,3 ,0,4 ,0,5, rechnen aus den neuen Werten unser arithmetisches Mittel aus. Und wenn wir das dann wieder durch unseren Faktor, also durch 10, teilen, haben wir genau das gleiche arithmetische Mittel, was wir bekommen hätten, wenn wir mit unseren ursprünglichen Daten gearbeitet hätten. Das ist eine sehr praktische Eigenschaft, wenn man unbequeme Daten hat. Es könnte ja auch sein, dass wir Daten haben, die zum Beispiel zu groß sind, um, sagen wir mal, 100. Wir haben also Daten 100, 101, 102, 103, und würden aber gerne mit 1, 2, 3 rechnen. Dann können wir das genauso machen. Wir können von jedem Beobachtungswert xi einfach einen Betrag abziehen, hier 100, können daraus dann das neue arithmetische Mittel ausrechnen und dann halt am Ende dafür das wieder zurück rechnen. Also wenn wir vorher 100 abgezogen haben, würden wir jetzt, bei dem neuen arithmetischen Mittel, wieder 100 darauf addieren, um zum arithmetischen Mittel unserer Ausgangsdaten zu kommen. Kommen wir zur vierten Eigenschaft. Unser arithmetisches Mittel ist ausreißerempfindlich. Was bedeutet das? Das sagt uns, wenn wir viele Daten haben, 1, 2, 3, 4, 5, und da sind, sagen wir mal 60 Daten. Und jetzt haben wir aber noch eine 1 mehr, und das ist, sagen wir mal, 3000. Dann zieht dieses eine Datum unser arithmetisches Mittel sehr weit nach rechts, weil unser arithmetisches Mittel alle Daten betrachtet. Das heißt, wenn wir einen Ausreißer haben, der einen sehr großen Unterschied zu so ziemlich allen anderen Daten hat, beeinträchtigt das das arithmetische Mittel ganz stark. Wir hatten ja vorher den Median und den Modus, und die sind überhaupt nicht ausreißerempfindlich. Das heißt, wenn da eine Zahl rausfällt und irgendwo nach rechts raus bricht, interessiert die das überhaupt nicht. Weil es ja beim Median darauf ankommt, dass links genau so viele sind wie rechts. Dem Median ist das ja völlig egal, wie weit die jetzt links oder rechts davon liegen. Und der Modus ist ja sowieso nur der Wert, der am häufigsten vorkommt. Dem ist es also auch völlig egal, wenn ganz rechts irgendwo ein einzelner Wert liegt. Interessiert den nicht die Bohne. Unser arithmetisches Mittel ist aber ausreißerempfindlich. Das heißt, alle Daten werden in Betracht gezogen, und ein Wert, der aus der Reihe fällt, kann es teilweise stark verfälschen. Ok, damit haben wir jetzt also das arithmetische Mittel in all seinen Formen durchexerziert. Im nächsten Video gucken wir uns dann noch mal 2 weitere Mittelwerte, nämlich das geometrische und das harmonische Mittel, an, und wozu man sie benutzt.                                                                

Informationen zum Video
4 Kommentare
  1. Default

    Wo erfahre ich etwas zu Ersatzwerteigenschaft (kommt ja schon dem nahe, was du hier gerechnet hast), Schwerpunkteigenschaft, Minimumeigenschaft und dem Verhalten bi Lineartransformation?

    Von Dennis Schweitzer, vor fast 3 Jahren
  2. Default

    Hast du kein Bild oder hast du inhaltliche Einwände?

    Von Statistik Jona, vor mehr als 3 Jahren
  3. Default

    Wenn man etwas sehen würde wäre es besser als wenn man es nur hört

    Von Deleted User 56562, vor mehr als 3 Jahren
  4. Default

    In den Formeln bei sort. und gr. Daten sowie
    in den Formeln von Bsp. 2 und 3
    muss unter dem Summenzeichen j=1 stehen.

    Von Beth, vor etwa 4 Jahren