Textversion des Videos

Transkript Statistik Video 16: Verteilungen

Hallo, schön, dass ihr alle wieder zuguckt. Wir sind heute bei unserem letzten Video zum Thema Mittelwerte und wir gucken uns die verschiedenen Formen an, die Verteilungskurven haben können und was diese Formen dann über die Lage der Mittelwerte aussagen. Zunächst einmal, so ein Bild, kennt ihr wahrscheinlich, so Verteilungskurven, die gezeichnet werden. Wird relativ häufig gemacht, weil man es einfach schnell erfassen kann. Die Frage ist aber, was steckt dahinter.  Eigentlich müsst ihr euch überlegen, so eine Verteilungskurve bedeutet immer, eigentlich ist es ein Histogramm. Wir haben also hier unsere Histogrammblöcke, die jetzt, damit es halt schöner aussieht, verbunden werden. Und zwar üblicherweise in der groben Mitte, sind dann immer die Punkte, die miteinander verbunden werden. Oft wird das dann halt noch so schön glatt gezeichnet, dass man das halt in einem durchzeichnen kann. Aber was eigentlich dahinter steckt, ist so ein Histogramm, wie wir es auch schon aufgestellt haben. Und das, diese Verteilungskurve, zeichnet man nur, weil das halt mit einem Blick schnell zu erfassen ist und schöner aussieht, als wenn man jetzt das Histogramm zeichnen würde. Aber im Prinzip steht halt ein Histogramm dahinter, und das wird halt nur benutzt, weil es schöner aussieht. Gucken wir uns also verschiedene Formen dieser Verteilungskurven an, und wo dann die einzelnen Mittelwerte, die wir ja schon kennengelernt haben, liegen. Okay, wir beginnen mit einer eingipflig symmetrischen Verteilung. So etwas. Also wir sagen jetzt mal, dass hier wäre perfekt symmetrisch. Ist jetzt etwas schwierig, weil ich es aus der Hand gezeichnet habe. Aber es wäre jetzt perfekt symmetrisch zu dieser Achse. Und dann überlegen wir uns: Wo sind unsere Mittelwerte? Wir hatten ja x Kreis, unseren Modus, x Schlange unseren Median und x quer unser arithmetisches Mittel. Unser Modus x Kreis ist ja immer da, wo die Häufigkeit oder hier die relative Häufigkeit f(x) am höchsten ist. Aha, hier ist f(x) am höchsten, also liegt hier genau unser Modus, x Kreis. So, dann überlegen wir uns: Wo liegt den unser Median? Median war ja, der Punkt, wo links und rechts jeweils 50% unserer Daten liegen. Wir wissen ja, aha, das ist symmetrisch, das heißt, genau in der Mitte ist der Punkt, wo links 50% der Daten liegen und rechts 50% der Daten liegen. Also ist das auch wieder die Mitte unser Median. Also x Schlange ist an der gleichen Stelle, wie x Kreis, unser Modus. Dann überlegen wir uns: Wo ist unser arithmetisches Mittel? Das waren ja alle Beobachtungswerte aufsummiert geteilt durch den Stichbogenumfang. Jetzt wissen wir auch wieder: Aha, das ist symmetrisch, das heißt links und rechts liegen erst einmal gleich viele Werte - das ist wichtig - und sie liegen aber auch gleich weit vom Mittelpunkt entfernt. Das heißt, wenn wir das jetzt ausrechnen würden, würden wir immer unser arithmetisches Mittel auch in diesem Punkt bekommen, weil wir quasi, wenn wir alle aufaddieren durch die Symmetrie, genau in der Mitte landen. Jetzt Verständnisfrage: Bei einer eingipflig symmetrischen Verteilung haben wir es ja, dass der Modus, der Median und das arithmetische Mittel genau an der gleichen Stelle liegen. Ist das immer so bei symmetrischen Verteilungen, oder nicht? Da könnt ihr jetzt mal kurz darüber nachdenken. Okay, muss reichen. Nein, es ist nicht immer so. Es gibt auch Beispiele wo Modus, Median und arithmetisches Mittel nicht an der gleichen Stelle liegen, obwohl die Verteilung symmetrisch ist. Das zeige ich jetzt. Wenn wir nämlich mehrgipfelig symmetrische Verteilungen haben, dann müssen wir in jedem Fall einzeln gucken, wo die einzelnen Mittelwerte liegen. Wir haben hier jetzt eine zweigipfelige Verteilung. Gehen wir einfach mal wieder davon aus, die wäre perfekt symmetrisch, das ist ein bisschen schwierig aus der Hand zu zeichnen, aber sie ist jetzt perfekt symmetrisch. Stellen wir uns das mal vor. Dann überlegen wir wieder: Wo sind unsere verschiedenen Mittelwerte. Unser Modus da, wo die relative Häufigkeit am höchsten ist. Also da haben wir zwei Punkte: ein Mal hier und ein Mal hier. Wir haben also hier x Kreis und hier auch. Das heißt, nachdem was wir gelernt haben, würden wir sagen: Ok, wir haben zwei Werte für unseren Modus und geben damit beide an, oder wir sagen, ja Modus ist nicht eindeutig definiert. Also geben wir keinen an. Wo liegen jetzt aber unsere anderen beiden Mittelwerte? Der Median und das arithmetische Mittel? Der Median liegt ja wieder da, wo genau 50 links und 50% rechts davon liegen, also genau in der Mitte aller Daten, bei einer symmetrischen Verteilung. Also hier. Hier liegt unser x Schlange. Wo liegt unser arithmetisches Mittel? Unser arithmetische Mittel liegt bei einer perfekt symmetrischen Verteilung auch genau in der Mitte, also hier. Arithmetisches Mittel, x quer ist gleich mit dem Median, x Schlange. Jetzt kann man sich noch fragen: Ist denn bei symmetrischen Verteilungen, der Median immer an der gleichen Stelle, wie das arithmetische Mittel? Da können wir eindeutig sagen, ja. Der Median ist immer gleich dem arithmetische Mittel, wenn wir eine perfekt symmetrische Verteilung haben. Dadurch halt, dass wenn wir alles aufsummieren, beim arithmetischen Mittel immer genau in der Mitte landen, wenn wir dann halt durch den Stichbogenumfang teilen, wo ja auch der Median liegt bei einer perfekt symmetrischen Verteilung. Das können wir also sagen. Bei mehrgipflig symmetrischen Verteilungen können wir aber nicht sagen, dass der Modus an der gleichen Stelle liegt, wie der Median und das arithmetische Mittel. Kommen wir also zu den asymmetrischen Verteilungen. Und da gibt es zwei, die uns besonders interessieren, weil wir halt bei den Aussagen darüber machen können, wie die Mittelwerte liegen. Zum einen die linkssteile Verteilung. Die wird auch rechtsschief genannt. Man muss halt gucken, was man sich anguckt. Also entweder man sagt, sie ist linkssteil, weil halt hier ein sehr steiler Anstieg ist oder sie ist rechtsschief, weil halt hier ein sehr flacher Abfall ist. Ich habe mir immer linkssteil gemerkt, weil - finde ich - es irgendwie eingängiger ist. Könnt ihr natürlich machen, wie ihr wollt, bzw. auch gucken, was euer Prof denn gerade benutzt. Wir gucken also wieder, wo bei der linkssteilen Verteilung unsere Mittelwerte liegen. Als Erstes wie immer der Modus, der liegt da, wo unsere relative Häufigkeit f(x) ihren höchsten Wert erreicht. Also genau hier im Maximum. Und hier haben wir unseren Modus x Kreis. Wo liegt unser Median? Unser Median liegt da, wo 50% der Daten links und 50% der Daten rechts liegen. Wir wissen ja, okay hier haben wir die extrem Daten, aber wir haben hier nicht unbedingt 50% der Daten. Sondern es liegen wahrscheinlich mehr Daten auf diesem langen Stück, als auf diesem kleinen Stück. Das heißt unser Median wird wahrscheinlich irgendwo hier liegen. Also dann haben wir hier x Schlange, wo 50% der Daten links und 50% der Daten rechts liegen. Es wird also von der schieren Anzahl der Daten ein bisschen nach rechts gezogen, in den meisten Fällen. Wo liegt jetzt also unser arithmetisches Mittel? Unser arithmetisches Mittel ist ja ausreißerempfindlich, das heißt, es wird durch einzelne Daten, die sehr weit abweichen, vom Gro der Daten, sehr weit beeinflusst. Das heißt, unser arithmetisches Mittel wird immer noch weiter herausgezogen, als es unser Median schon getan wurde. Das heißt, unser arithmetisches Mittel wird jetzt irgendwo hier liegen, oder so. Und das bringt uns zu einer Beziehung der Mittelwerte untereinander, die bei einer linkssteilen Verteilung ganz eindeutig ist. Das heißt, wir haben zuerst unseren Modus und der ist ≤ unserem Median. Aber es kann natürlich auch sein, dass 50% der Daten alle hier drin liegen. Das heißt, wir können nicht sagen, er ist immer echt kleiner als unser Median, sondern wir sagen er ist ≤ unserem Median. Und das ist wiederum ≤ unserem arithmetisches Mittel. Das heißt, es kann durchaus vorkommen, dass Modus und Median zusammenfallen, was nicht vorkommen kann, ist zum Beispiel, dass der Median einen kleineren Wert annimmt, als der Modus bei einer linkssteilen Verteilung. Das kann nicht passieren. Also das Höchste, was passieren kann, ist, dass sie gleich sind. Median kann bei einer linkssteilen Verteilung niemals, niemals kleiner werden als der Modus. Als nächstes schauen wir uns jetzt das entgegengesetzte Pendant dazu an, die rechtssteile Verteilung. So sieht also die typische rechtssteile Verteilung aus. Ist halt das genaue Gegenteil der linkssteilen Verteilung. Also wir haben jetzt rechts den Teil, der steil ist und links halt den Teil, der nicht so steil ist. Also im Prinzip den schiefen Teil - deshalb rechtssteil oder linksschief. Und hier ist es natürlich genau umgekehrt. Unser Modus ist natürlich wieder da, wo unser höchster Punkt ist. Also die höchste relative Häufigkeit, weil wir die ja hier auftragen. Beim Median wird bei der schieren Anzahl der Daten etwas weiter nach links gezogen. In den meisten Fällen, wie wir eben gesehen haben, kann das durchaus passieren, dass die gleich groß sind. Also hier würde unser Merian liegen und unser arithmetisches Mittel wird noch ein Stückchen weiter nach links gezogen, weil es ja, im Unterschied zu Median und Modus, ausreißerempfindlich ist, was ja diese beiden nicht sind. Also würde unser arithmetisches Mittel jetzt zum Beispiel hier liegen, unser x quer. Da sehen wir jetzt natürlich wieder eine ganz eindeutige Beziehung der Mittelwerte untereinander. Wir haben also diesmal, unser Modus, unser x Kreis ist diesmal größer ≥ unserem Median, x Schlange. Und das ist wiederum ≥ unserem arithmetisches Mittel, x quer. So liegen die Mittelwerte immer bei einer rechtssteilen Verteilung, also im Prinzip genau entgegengesetzt zur linkssteilen Verteilung. Alles, was ihr euch merken müsst, ist im Prinzip, was rechtssteil heißt, und was linkssteil heißt und da nicht durcheinander zu kommen. Wenn ihr dann so etwas seht, oder euch vorstellen könnt, wie eine solche Verteilung aussieht, die rechtssteil ist, könnt ihr euch auch ganz einfach herleiten, wo jetzt welcher Mittelwert liegen muss. Gut, um das Thema nun endgültig abzuschließen, habe ich noch mal eine Zusammenfassung gemacht, welchen Mittelwert ihr bei welchen Daten ausrechnen könnt: Wenn wir nominal skalierte Daten haben, dann können wir den Modus bestimmen. Welche Merkmalsausprägung tritt am häufigsten auf. Und zwar können wir auch nur den Modus bestimmen. Wir können noch nicht den Median bestimmen, und wir können auch nicht das arithmetische Mittel bestimmen. Sobald wir ordinal skalierte Daten haben, also eine Rangreihe, können wir auch den Median bestimmen, der ja die Rangreihe halbiert. Außerdem können wir natürlich auch noch den Modus bestimmen. Wir hatten das ja gesehen, dass die verschiedenen Skalenniveaus jeweils das Vorhergehende einschließen. Wenn wir dann kardinal skalierte Daten haben, oder auch metrische Daten genannt, können wir außerdem noch, das arithmetisches Mittel ausrechnen. Wir dürfen dann also bei kardinal skalierten Daten das arithmetische Mittel ausrechen, den Median ausrechnen und den Modus ausrechnen. Wir haben also eine Beziehung, dass wir von oben nach unten, immer mehr dürfen. Wenn wir nominal skalierte Daten haben, dürfen wir nur den Modus bestimmen. Bei ordinal skalierten dürfen wir dann schon 2 Mittelwerte bestimmen, den Modus und den Median und wenn wir ganz unten angekommen sind, bei kardinal skalierten Daten, dürfen wir dann alle Mittelwerte bestimmen. Ja, das war es auch schon für diese Woche. Ich hoffe, ihr habt einiges gelernt und werdet das auch mitnehmen. Ich bedanke für mich für das Zuschauen und sage bis zum nächsten Mal und tschüss.

Informationen zum Video