Textversion des Videos

Transkript Statistik Video 11: Median und Modalwert

Ja, hallo! Schön, dass ihr wieder da seid. Wir fangen heute mit einem neuen Thema an, und zwar mit Kennwerten eindimensional verteilter Daten, also mit den Daten, die wir bisher kennengelernt haben, die nur ein Merkmal haben. Und am Anfang bei den Kennwerten fangen wir an mit Mittelwerten.

Wie der Name schon sagt, es gibt mehrere Mittelwerte. Ich werde euch davon fünf vorstellen. Eigentlich so die fünf wichtigsten, und zwar in diesem Video gucken wir uns den Modalwert und den Median an. Dann machen wir eine kleine Übung dazu. Und dann, im nächsten Vorlesungsvideo, gucken wir uns das arithmetische, das geometrische, das harmonische Mittel an.

Was unterscheidet all diese Mittelwerte? Nun ja, natürlich einmal die Art, wie sie erhoben werden. Einige davon sind Durchschnittswerte, andere davon sind eher tatsächlich Mittelwerte, also von der Lage her in der Mitte. Und manchmal unterscheidet sie auch die Art und Weise, wann sie gebraucht werden und vor allem auch, wie sie gebraucht werden können. Dazu aber später.

Fangen wir also an mit dem Modalwert oder auch Modus genannt. Das ist im Prinzip der häufigste Wert. Also die Merkmalsausprägung, die am häufigsten auftritt in meiner Stichprobe. Die Notation für den Modus ist x Kreis oder auch D. Wie so oft gibt es auch hier in der Statistik leider keine durchgehende Notation, das heißt, jeder kann es im Prinzip machen, wie er will, Hauptsache, er definiert es vorher einmal klar und zieht es dann stringent durch. Ich werde in Zukunft für den Modus immer x Kreis benutzen.

Für die Voraussetzungen für den Modus – es gibt keine. Das heißt, wir können den Modus aus jeder Stichprobe bestimmen, ganz egal, wie die Daten skaliert sind. Wir können den Modus immer bestimmen. Das ist eine schöne Eigenschaft des Modus.

Ich habe ein Beispiel mitgebracht, und zwar haben wir hier farbige Kärtchen, 6 an der Zahl. So, und daraus bestimmen wir jetzt einfach mal die absoluten Häufigkeiten. Ist ja nicht so schwer. h, absolute Häufigkeit von (rot)=3, h(gelb)=2  und h(blau)=1. Wir suchen also unseren Modus. Der Modus ist der häufigste Wert, also 3. So, x Kreis ist aber nicht 3, danach suchen wir ja nicht. Sondern der Modus ist die Merkmalsausprägung, die am häufigsten vorkommt. Die Merkmalsausprägung ist rot. Also ist unser Modus in diesem Beispiel rot. So einfach geht das.

Jetzt zeige ich euch noch, wie man allgemein aus sortierten und gruppierten Daten den Modus bestimmt und was es für Sonderfälle und Regeln gibt. So, die nächste Frage: Wie bestimmen wir ganz allgemein unseren Modus? Bei sortierten Daten, wie wir es ja hier haben, haben wir ja gesehen, es ist die Merkmalsausprägung, die am häufigsten vorkommt. Wir können den Modus also im Prinzip direkt aus der Häufigkeitsverteilung ablesen. Hier ist unser Modus, unsere Merkmalsausprägung 2. Also, x Kreis, unser Modus, =2. Denn wir suchen ja nicht nach der absoluten Häufigkeit, sondern nach der Merkmalsausprägung, die die höchste absolute Häufigkeit hat.

Nehmen wir jetzt einmal an, wir haben bei 5 nicht die absolute Häufigkeit 1, sondern 3. Dann haben wir ja die höchste Merkmalsausprägung 2-mal. Unser xKreis' ist also entweder gar nichts, weil wir keinen eindeutigen Modus haben. Das macht man meistens, wenn mehr als 2 Ausprägungen die gleiche absolute Häufigkeit haben, oder aber wir geben beide an. Wir sagen also xKreis' wäre ja in diesem Fall 2 oder x Kreis Strich wäre, unsere andere Ausprägung, 5.

So, machen wir ein weiteres Beispiel. Gehen wir mal davon aus, unsere 5 hätte wieder die absolute Häufigkeit von 1 und stattdessen hätte unsere 3 auch die absolute Häufigkeit von 3. Auch da können wir entweder sagen, okay, der Modus ist nicht eindeutig, wir geben gar keinen an. Oder aber wir sagen, okay, es gibt 2-mal den häufigsten Wert, wir geben also beide an. Oder, was man auch manchmal findet, wenn es benachbarte Werte sind wie in diesem Fall, dass man die beiden quasi mittelt. Wir sagen also xKreis'', also das vom 2. Beispiel, ist also die eine Merkmalsausprägung plus die andere Merkmalsausprägung geteilt durch 2. Also 2+3/2, also in diesem Fall 2,5. Das geht, wie gesagt, nur bei benachbarten Werten. Meistens wird es so nicht gemacht, aber es gibt einige Professoren oder einige Statistiker, die sagen "Bei benachbarten Werten mit der gleichen absoluten Häufigkeit bestimmt man den Modus als Mittel aus diesen beiden Merkmalsausprägungen". Vielleicht seht ihr das mal.

Wenn uns jetzt allerdings gruppierte Daten gegeben sind, dann können wir natürlich auch den Modus angeben. Wie wir sehen, hat hier die Gruppe 15 bis 20 die höchste absolute Häufigkeit, nämlich 15. Wir geben also als Modus an, nicht etwa einfach Gruppe 15 bis 20, nein, wir machen es genauer. Und zwar nehmen wir hier als Modus dann die Gruppenmitte. Also (20+15)/2, also im Prinzip rechter Rand plus linker Rand durch 2 ist die Gruppenmitte. Also ist hier unser Modus 17,5, also genau die Gruppenmitte der Gruppe mit der höchsten absoluten Häufigkeit.

Machen wir also weiter mit dem Median, unserem 2. Mittelwert in diesem Video. Der Median ist der Wert in der Mitte, das heißt er halbiert die Rangreihe. Wie können wir uns das vorstellen? Wir haben eine Rangreihe mit verschiedenen Rängen, die wir vergeben haben, das heißt, wir brauchen mindestens ordinal skalierte Daten, weil wenn wir nur nominal skalierte Daten haben, können  wir ja keine ordentliche Rangfolge aufbauen, weil wir keine Größer- oder Kleinerbeziehung haben. Also wir haben eine Rangreihe, die wir uns aus unseren Daten bauen, und der mittlere Wert, der Wert also, wo genauso viele links wie rechts von liegen, ist unser Median. Der Median wird oft bezeichnet mit xSchlange oder auch Z. Z für Zentralwert, steht das. Ich benutze weiterhin die Bezeichnung xSchlange.

Ein kleines Beispiel: Wir haben einen Stichprobenumfang von 5 und folgende Ergebnisse: 1, 3, 5, 7, 13, sind schon sortiert. Wir suchen jetzt also den Wert, bei dem genauso viele links davon liegen wie rechts. Logischerweise hier der Wert in der Mitte, also die 5. Das wäre also unsere xSchlange oder anders ausgedrückt, unser Median xSchlange=5. Wie wir jetzt unseren Median aus sortierten und gruppierten Daten bestimmen, zeige ich euch jetzt.

Gerade haben wir unseren Median aus einer sortierten Urliste erstellt, mit einem ungeraden Stichprobenumfang. Da hatten wir also einen ganz eindeutigen Wert in der Mitte. Wenn wir jetzt aber einen geraden Stichprobenumfang haben, hier 6, haben wir ja keinen Punkt in der Mitte, sondern unser Median müsste eigentlich hier liegen, also genau zwischen 5 und 6. Was wir jetzt machen ist also, wir nehmen den Wert links davon, 5, den Wert rechts davon, 6, und mitteln über die beiden, also teilen durch 2. Das ist dann unser Median. Also 5+6=11/2=5,5. Das ist eigentlich die übliche Art und Weise, wie man das macht. Nun kann es ja auch Daten geben, wo das nicht geht, weil wir keine metrischen Daten haben. Sagen wir mal, wir haben die Ausprägungen gut, mittel, schlecht, hätten also folgende Ergebnisse: Wir hätten gut, gut, mittel und schlecht. So, jetzt suchen wir hiervon unseren Median, der ja hier liegen müsste. Wir können jetzt aber nicht über gut und mittel mitteln, Wir können ja nicht einfach beide aufeinander addieren und durch 2 teilen. Jetzt müsste man also beide angeben oder keinen angeben, genauso, wie wir es beim Modus gemacht hätten. Wenn wir also so etwas haben, können wir unseren Median auch nicht eindeutig bestimmen. Meistens würde man dann sagen, okay, unser Median ist entweder gut oder mittel. Kann man sich aussuchen.

Wir haben ja gerade den Median aus der Urliste bestimmt und jetzt bestimmen wir ihn aus sortierten Daten. Wir haben hier also unsere Merkmalsausprägung 0, 1, 2, 3, unsere absoluten Häufigkeiten und unsere kumulierten absoluten Häufigkeiten, 5, 20, 30, 39. Und folglich auch die Rangplätze, die sie annehmen würden: 1 bis 5, 6 bis 20, 21 bis 30 und 31 bis 39. Jetzt suchen wir also den Median, also den Wert in der Mitte. Formal gesehen ist es, wenn wir ein ungerades n haben, das x an der Stelle (n+1)/2, also in diesem Fall xSchlange, unser Median, ist also das x an der Stelle (39+1)/2, also das x an der Stelle 20. Wo ist jetzt also unser x an der Stelle 20? Wir gucken bei den Rangplätzen. Aha! Das x an der Stelle 20 gehört zur Merkmalsausprägung 1. Also xSchlange=1.

Wenn wir jetzt also unser Beispiel minimal verändern, sodass unser n gerade wird, sagen wir mal, wäre jetzt hier eine absolute Häufigkeit von 10, damit wir einen Stichprobenumfang, n=40, haben, ändert sich natürlich auch die kumulierte Häufigkeit, und die Rangplätze gehen dann auch bis 40. Dann haben wir ja gesehen, müssen wir aus den beiden in der Mitte mitteln. Wir nehmen also unser x an der Stelle/2, also x an der Stelle 20+ unser x an der Stelle n/2+1, also x an der Stelle 21 und teilen das dann durch 2. Wir gucken uns also unsere Tabelle an. Unser x an der Stelle 20 gehört hier zur Gruppe mit der Merkmalsausprägung 1, also 1+, die Nummer 21 gehört zur nächsten Merkmalsausprägung, 2, und das teilen wir dann wieder durch 2. Unser Median xSchlange ist also 1+2=3/2, also hier genau 1,5.

Den Median können wir natürlich auch aus gruppierten Daten bestimmen. Wir haben hier also unsere Klassen (stark, mittel, schwach), unsere absoluten Häufigkeiten, unsere kumulierten absoluten Häufigkeiten, und bauen uns daraus jetzt erst mal unsere Rangplätze. Also unsere 1. Klasse stark hat die Rangplätze 1 bis, kumulierte Häufigkeit, 7. Die 2. dann 8 bis 22 und die 3. dann 23 bis 25. Wir suchen unseren Median. Wir haben ein ungerades n. Die Formel zur Bestimmung unseres Medians ist also hier oben. Unser Median, xSchlange ist das x an der Stelle (n+1)/2. (n+1)/2, also 25+1/2 also 13. Wir suchen also unser x an der Stelle 13, und der wäre dann unser Median. Fällt, wie man sieht in diese Klasse hinein. Das ist also hier xSchlange, also mittel. Diese Klasse nennt man jetzt Medianklasse.

Wenn wir jetzt metrische gruppierte Daten haben, können wir natürlich auch den Median bestimmen. Wir gucken also erst mal, welchen Rangplatz unser Median haben muss. Unser Median ist das x an der Stelle (n+1)/2. n, 41+1, 42/2, 21. Also unser x an der Stelle 21. Ich habe ja auch schon mal die Rangplätze angegeben. In diese Gruppe fällt also unser Median.

Wir können den Median jetzt auch noch genauer angeben als einfach zu sagen, okay, der Median ist in der Gruppe 5 bis 10, das ist also unsere Mediangruppe. Wir können, 1. Alternative, unseren Median angeben als die Gruppenmitte unserer Medianklasse, also xSchlange ist die Gruppenmitte der Gruppe, in die unser Median fällt. Also in diesem Fall die Gruppenmitte der Gruppe 5 bis 10. Also wäre in diesem Fall xSchlange=7,5. Wir können es aber auch noch genauer angeben und das zeige ich jetzt.

Wenn wir es jetzt noch genauer angeben wollen, müssen wir einige Überlegungen treffen. Wir wissen ja, dass die 1. Gruppe, 0 bis 5, die vor unserer Mediangruppe liegt, die Rangplätze 1 bis 5 bei sich vereint. Wir wollen zum Rangplatz 21, müssen also noch 16 Rangplätze weitergehen. Wo liegen diese 16 Rangplätze? Wir haben ja unsere Gruppe 5 bis 10, unsere Mediangruppe mit der absoluten Häufigkeit 20. Wenn wir jetzt also davon ausgehen, dass alle Daten in der Mediangruppe exakt gleichmäßig verteilt sind, haben wir hier also von 5 bis 10 genau 20 gleiche Zwischenschritte. Von denen wollen wir 21-5, also 16 Rangplätze weitergehen. Hier wäre ja Rangplatz 5 unserer vorherigen Gruppe, wobei diese 5 nicht den Rangplatz bedeutet. Diese 5 sagt uns was von unserem Gruppenintervall aus. Wir wollen jetzt also 16 Schritte in unsere Gruppe reingehen, 16 von insgesamt 20, weil wir 20 Daten in dieser Gruppe haben, die sich gleichmäßig über das ganze Intervall verteilen. Wir gehen also weiter: 4, 8, 12, 16, sind also hier. Das hier wäre also unser exakter Median bei der Stelle 9.

Es gibt natürlich auch eine Formel, wie man das ganz einfach berechnen kann, ohne sich immer so einen schönen Strahl aufzeichnen zu müssen. Unser Median xSchlange ist also die obere Grenze der Gruppe, die vor unserer Mediangruppe liegt, xj-1, also genau die Gruppe, die vor der Mediangruppe liegt und davon oben die obere Grenze. +bj, die Gruppenbreite unserer Mediangruppe×, so, und jetzt haben wir nämlich genau das, was wir hier schon ausgerechnet haben, wir haben also (n+1)/2, also 21- die absolute kumulierte Häufigkeit unserer Gruppe, die vor unserer Mediangruppe liegt, geteilt durch die absolute Häufigkeit unsere Mediangruppe. Wenn wir jetzt also die Zahlen einsetzen, dann bekommen wir die obere Grenze der Gruppe, die vor unserer Mediangruppe liegt, 5, finden wir hier. Die Gruppenbreite unserer Mediangruppe, 5, die Gruppe geht von 5 bis 10, Gruppenbreite also 5. ×, das haben wir schon ausgerechnet, (n+1)/2, ist also 21-, die kumulierte Häufigkeit der Gruppe, die vor unserer Mediangruppe liegt, 5, geteilt durch die absolute Häufigkeit unserer Mediangruppe, also 20. Wir bekommen also 5, ich gehe mal auf die andere Seite, dann seht ihr das besser, 5+5×16/20. So, 5×16/20=4+5=9. Unser neuer Median xSchlange ist also 9, wenn wir ihn ganz exakt angeben wollen.

Im nächsten Video machen wir noch mal eine Übung zum Modus und zum Median. Und dann hoffe ich, euch alle Schwierigkeiten damit gezeigt zu haben, damit ihr sie auch alle gut lösen könnt. Das war's für heute. Ich bedanke mich fürs Zuschauen und – tschüss!

Informationen zum Video
5 Kommentare
  1. Default

    Toll.... der Autor versteht alles und findet alles einfach.. toll... soviel habe ich schon mal verstanden...

    Von Jens Aha, vor 6 Monaten
  2. Default

    Aah, okay danke :)

    Von Julia Vosschmidt, vor fast 4 Jahren
  3. Default

    Wie haben also 7 Beobachtungen kleiner als 4 und 7 Beobachtungen größer als 4, 4 liegt hier also direkt in der Mitte und ist damit der Median.

    Von Statistik Jona, vor fast 4 Jahren
  4. Default

    Der Median ist der Wert der die gesamten Daten in der Mitte teilt.

    Hier haben wir die Beobachtungen 2,2,3,3,3,3,3,4,6,6,6,6,6,6,6

    Von Statistik Jona, vor fast 4 Jahren
  5. Default

    Hallo, ich verstehe leider nicht wie bei der Testfrage am Ende des Videos beim Median 4 rauskommen kann. Könntest du mir das bitte erklären?

    Von Julia Vosschmidt, vor fast 4 Jahren