Textversion des Videos

Transkript Streuungsparameter – Überblick

In diesem Video möchte ich euch erklären, was man in der Statistik unter Streuungsparametern versteht. Ist eine Verteilung schmal und steil, so ist die Streuung relativ gering. Ist die Verteilung flach und breit liegt eine große Streuung vor. Der einfachste Streuungsparameter ist die Spannweite, in Englisch range. Die Spannweite gibt legendlich den Abstand zwischen der größten und der kleinsten Realisation wider. Ihr Vorteil ist, dass sie leicht zu berechnen ist. Dieser Vorteil wird aber durch den Nachteil, dass die Spannweite gegenüber Ausreißern, Messfehlern sehr anfällig ist, überschattet. 2. Durchschnittliche absolute Abweichung. Um einen Streuungsparameter zu konstruieren, in dem alle Messwerte eingehen, könnte man auf die Idee kommen für jeden Messwert den Abstand zum Mittelwert zu bestimmen und die Summe darüber zu bilden. Diese Summe ist jedoch leider 0, da sich die positiven und die negativen Abweichungen gegenseitig aufheben. Nun gibt es 2 Möglichkeiten die Vorzeichen zu eliminieren. Die 1. Möglichkeit ist, dass man die Beträge der Abstände betrachtet und die Summe darüber bildet und durch die Anzahl der Messwerte dividiert. So erhält man die durchschnittliche absolute Abweichung. AD=1/n×(Summe(i=1;n)|xi-xquer|). Dabei ist AD die durchschnittliche absolute Abweichung, n ist der Stichprobenumfang, xi sind die einzelnen Realisationen und xquer ist der Mittelwert. Die Varianz resultiert aus der 2. Möglichkeit das Vorzeichen zu eliminieren und zwar werden die Abstände quadriert. Dies hat noch den positiven Nebeneffekt, dass kleine Abweichungen mit einem geringen Gewicht in die Maßzahl eingehen und große Abweichungen mit einem größeren Gewicht. Bildet man nun die Summe dieser quadratischen Abweichung und teilt diese durch n-1, so erhält man die Varianz. Die Formel für die Varianz lautet: s2=1/(n-1)×(Summe(i=1;n)xi-xquer)2. Dabei isst s2 die Varianz, n-1 ist der um 1 verminderte Stichprobenumfang. xi sind die Realisationen und xquer ist der Mittelwert. Die Varianz wird auch häufig mit v(x) oder Var(x) bezeichnet. Berechnet man die Varianz aus einer Häufigkeitsverteilung, so lautet die Formel: s2=1/(n-1)×(Summe(j=1;L)aj-xquer)2×H(aj) beziehungsweise s2=n/(n-1)×(Summe(j=1;L)aj-xquer)×h(aj). Dabei ist s2 die Varianz, n der Strichprobenumfang, L die Anzahl der Merkmalsausprägungen, aj die aktuelle Merkmalsausprägung, H(aj) ist die absolute Häufigkeit und h(aj) ist die relative Häufigkeit. Da h(aj)=H(aj)/n folgt daraus, dass H(aj)=n×h(aj). Das heißt, diese beiden Formeln sind also gleichwertig je nachdem, ob man mit den absoluten oder mit den relativen Häufigkeiten rechnet. Wichtig zur Berechnung der Varianz ist die nachfolgende Formel. s2=1/(n-1)×(Summe(xi2)-n/(n-1)×xquer2. Das heißt, die Varianz errechnet sich aus der Summe der Quadrate der einzelnen Realisationen abzüglich dem Quadrat des Mittelwertes. Die positive Wurzel aus der Varianz heißt die Standardabweichung und wird mit S bezeichnet. Der Variationskoeffizient gibt die Streuung der Realisation in Prozent des arithmetischen Mittels an. V=s/xquer×100%. Kommen wir nun zu dem letzten Streuungsparameter: den Quantilen. Mit dem P-Quantil einer Verteilung wird die Merkmalsausprägung bezeichnet unterhalb derer p% aller Fälle liegen. Am bekanntesten sind die Quantile Q25 und Q75, die das obere beziehungsweise untere Viertel einer Verteilung abschneiden. Man bezeichnet sie daher auch als untere beziehungsweise obere Quartile. Der Quartilsabstand misst die Streuung der Verteilung, indem er die Differenz zwischen dem oberen und unteren Quartil betrachtet.  Der Quartilsabstand misst also im welchen Bereich die mittleren 50% der Realisation streuen. Grafisch stellt sich das wie folgt dar. Links von Q25 liegen 25% der Realisation der Verteilung. Links von Q75 liegen entsprechend 75% der Verteilung. Zwischen den beiden Quartilen liegen 50% der Verteilung. In dem nachfolgenden Beispiel werden die neu eingeführten Streuungsparameter einzeln dargestellt. In einer Schulklasse untersucht der Schulzahnarzt die Zähne der Kinder. Die Anzahl der kariösen Zähne ist dabei das betrachtete Merkmal. Bei 10 Kindern wurde kein Karies festgestellt und 2 Kindern waren 5 Zähne kariös. Das heißt, die Spannweite liegt bei 5-0=5. Der Mittelwert wird für die nachfolgenden Berechnungen benötigt. Er wird berechnet, indem die einzelnen Merkmalsausprägungen mit ihrer absoluten Häufigkeit multipliziert werden und durch die Anzahl der Beobachtungseinheiten geteilt wird. In unserem Fall ergibt er sich zu 1,429. Die durchschnittliche absolute Abweichung wird errechnet, indem von jeder Merkmalausprägung der Mittelwert abgezogen wird und Betrag genommen wird. Dieser Betrag wird mit der absoluten Häufigkeit multipliziert. Die Summe dieser Beträge dividiert durch die Anzahl der Beobachtungseinheiten ergibt die durchschnittliche absolute Abweichung. In unserem Fall 1,235. Die Varianz errechnet sich, indem von jeder Merkmalsausprägung der Mittelwert subtrahiert wird und diese Differenz wird quadriert und mit der absoluten Häufigkeit multipliziert. Die so ermittelten Beträge werden summiert und durch die Anzahl der Beobachtungseinheiten dividiert. In unserem Fall ergibt sich eine Varianz von 2,245. Die Standardabweichung ist die Wurzel aus der Varianz, in unserem Fall also /sqrt(2,245)=1,498. Zur Ermittlung des Variationskoeffizienten wird der Mittelwert von 1,498 durch die Standardabweichung von 1,429 dividiert und mit 100% multipliziert. Das heißt, in unserem Beispiel beträgt der Variationskoeffizient 104,8%. Der Quartilsabstand ergibt sich als Differenz aus dem unteren und dem oberen Quartil. Der 25% Wert liegt in unserem Fall in der Klasse der gesunden Zähne. Der 75% Wert liegt in der Klasse von 2 kariösen Zähnen. Somit ergibt sich als Quartilsabstand 2-0=2. So das war das, was mir zu den Streuungsparametern eingefallen ist. Zu der theoretischen Verteilung kommen wir später noch. Und tschüss!

Informationen zum Video
2 Kommentare
  1. Default

    Woher kommt die minus eins unter dem Bruchstrich? Habe das in keinem Buch so wiedergefunden.

    Von Studentenchaos, vor mehr als 6 Jahren
  2. Default

    Die theoretische Beschreibung des Variationskoeffizienten lautet: V= s/ x quer mal 100%. In der Beispielrechnung wird aber V= x quer/ s mal 100% gerechnet. Wenn ich mich nicht irre, ist aber nur das erste richtig, oder? MfG

    Von Kölner Verzweifelt, vor mehr als 7 Jahren