Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik - Video 3: Skalenniveaus

Ja Hallo, schön, dass ihr alle wieder da seid beim nächsten Statistikvideo. Heute kümmern wir uns um die Klassifikation von Daten, insbesondere um Skalenniveaus. Die erste Frage ist natürlich immer: Was sind eigentlich Skalenniveaus? Skalenniveaus bestimmen den Typ der Daten und was mit ihnen machen kann, also welche mathematischen Operationen mit ihnen möglich sind. Das mit den mathematischen Operationen ist wichtig, weil man zum Beispiel mit Daten, bei denen man nach dem Geschlecht einer Person fragt, anders umgehen kann als bei Daten, bei denen man nach der Schuhgröße der Person fragt. Man kann einfach andere mathematische Operationen benutzen. Es gibt dabei die grobe Einteilung in 3 Skalenniveaus, die ich heute vorstellen werde. Manchmal hat man auch mehr Skalenniveaus, je nachdem, was der Professor halt präferiert. Weniger ist eher selten, also die groben 3 Skalenniveaus sind schon die wichtigsten. Ich zeige da auch immer noch mal Sonderfälle auf, aber die 3 Skalenniveaus sollten eigentlich so gängig sein. Was hierbei wichtig ist, und was man sich auf jeden Fall merken sollte, ist die Reihenfolge der Skalenniveaus. Jedes höhere Skalenniveau schließt nämlich die tieferen komplett mit ein und somit auch alle mathematischen Operationen, die damit möglich sind. Man muss also immer genau wissen, wo man sich befindet, um zu wissen, welche mathematischen Operationen man gerade durchführen darf. Dazu habe ich mal ein Schaubild gemacht. Wir sehen hier also: Das ganz unten ist die Nominalskala, das ist quasi die niedrigste Skala oder das niedrigste Skalenniveau. Es wird komplett eingeschlossen von der Ordinalskala. Wenn ich also ordinal skalierte Daten habe, kann ich mit ihnen auch die mathematischen Operationen durchführen, die ich mit den nominal skalierten machen kann. Und das wird wiederum eingeschlossen von der Kardinalskala. Kardinal skalierte Daten sind also höchstmöglich skaliert und mit ihnen kann ich so gut wie alles machen, was ich mit Daten machen darf. Wir fangen an mit der Nominalskala. Diese ist, wie wir gesehen haben, die niedrigste Skala, das niedrigste Skalenniveau und es ist ein rein qualitatives Skalenniveau. Ich kann also Daten nur vergleichen und sagen: Entweder sie sind "gleich" oder sie sind "nicht gleich". Was anderes ist nicht möglich. Das sind dann auch die mathematischen Operationen: = oder ≠. Es gibt keine Rangfolge, ich kann nicht sagen: Okay, die sind höher oder die sind niedriger. Das ist nicht möglich. Sehen wir uns als Beispiel mal an: Die Frage nach dem Geschlecht. Okay, also entweder habe ich als Ergebnis "Mann" oder "Frau". Das Einzige, was ich machen kann, wenn ich sagen wir mal 10 Leute frage, ist, zu zählen, wie viele Männer ich habe und wie viele Frauen ich habe. Ich kann jetzt aber nicht sagen: Okay, Männer sind besser als Frauen oder Frauen sind besser als Männer. Das ist nicht möglich. Das heißt halt, es ist keine Rangfolge möglich. Ich kann die nur zählen und vergleichen, ich kann nur sagen: Okay, entweder sie sind "gleich" oder sie sind "nicht gleich". Und ich habe so viele Männer und so viele Frauen. Die nächsthöhere Skala, die wir uns jetzt ansehen werden, ist die Ordinalskala. Hier können Rangordnungen angegeben werden im Sinne von größer oder kleiner. Deshalb hat man auch die neuen mathematischen Operationen, die zusätzlichen mathematischen Operationen wohlgemerkt, weil man ja auch noch die von der Nominalskala verwenden darf, also = oder  ≠. Und die zusätzlichen mathematischen Operationen sind hier halt > und < . Wenn wir uns jetzt also mal als Beispiel Militärränge angucken. Da gibt es den General, den Generalleutnant und den Generalmajor. Und hier ist halt klar definiert, dass der General über dem Generalleutnant steht und der steht wiederum über dem Generalmajor. Das ist also eine klar definierte Rangfolge. Ich kann hier natürlich auch wieder Leute nach ihrem Rang fragen und dann zählen und sagen, okay, ich habe 2 Generäle, 4 Generalleutnants und 16 Generalmajore. Ich kann halt dann auch sagen: die Generäle sind über dem Generalleutnant und über dem Generalmajor, was ja vorher nicht möglich war bei der Nominalskala. Bei der Ordinalskala gibt es auch einen Sonderfall, und zwar die Rangskala. Auch hier hat man, wie der Name schon sagt, Ränge, aber jeder Rang wird nur genau ein Mal vergeben. Das ist üblich bei Sportwettbewerben: Man hat 1 1. Rang, 1 2. Rang, 1 3.. Wichtig bei der Ordinalskala, was man sich immer merken sollte: Es wird keine Aussage über Abstände gemacht und deshalb sind keine Differenzen möglich. Ich kann zwar sagen, der General ist 2 Ränge höher als der Generalmajor, aber die Aussagekraft fehlt, weil ich nicht weiß, wie groß der Sprung von Generalmajor zu Generalleutnant ist oder der Sprung von Generalleutnant zu Generalmajor. Eventuell sind die unterschiedlich groß und deshalb sind es keine klar definierten Differenzen, die wir angeben können. Ein Rang höher ist manchmal ein größerer Sprung als bei einem anderen Rang, und deshalb hat das keine Aussagekraft. Ich kann zwar sagen, okay, ich bin zwar 2 Ränge höher, aber die Aussagekraft fehlt. So, als Nächstes schauen wir uns die höchste Skala an, die Kardinalskala. Und hier sind die Differenzen klar definiert. Es gibt eine klare Aussage über Abstände. Wir haben zum Beispiel die Temperatur, ich kann sagen: Heute ist es 3 Grad wärmer als gestern. 3 Grad sind hier immer 3 Grad, das ist klar definiert: Abstände und Differenzen haben eine klare Aussage. Das ist der Hauptunterschied zur Ordinalskala. Die Kardinalskala wird manchmal noch aufgeteilt in Verhältnisskala und Intervallskala. Die Verhältnisskala hat einen absoluten Nullpunkt, der klar definiert ist, deshalb kann man bei ihr auch Verhältnisse angeben. Und die Intervallskala hat keinen Nullpunkt. Bei der Intervallskala kann ich also Differenzen angeben, die mathematischen Operationen sind hierbei + und -, ich kann also sagen: Vor 3 Tagen sah es so aus, in 5 Wochen wird es so aussehen. Und bei der Verhältnisskala kann ich zusätzlich noch Verhältnisse angeben, also im Prinzip × und ÷ rechnen. Ich kann also sagen: Heute ist es doppelt so warm wie gestern. Ich kann aber auch sagen: Heute ist es nur halb so warm wie gestern. Diese Verhältnisse sind nur möglich, weil die Verhältnisskala einen Nullpunkt hat und ich deshalb diese zusätzlichen mathematischen Operationen benutzen darf. So, das waren die Skalen. Jetzt noch mal eine kurze Übersicht, was man bei welcher Skala zusätzlich machen darf. Man darf ja auch immer noch die mathematischen Operationen der Vorgänger benutzen. Bei der Nominalskala kann ich nur vergleichen = oder ≠. Bei der Ordinalskala darf ich auch noch vergleichen, ist es was höher oder niedriger oder besser oder schlechter, je nachdem, um welche Daten es sich handelt. Und bei der Kardinalskala darf ich auch noch Differenzen angeben im Sinne von + und -, und, wenn ich die Verhältnisskala benutze, darf ich auch noch × und ÷ rechnen. Jetzt also noch ein paar Beispiele, wo wir die Skala zuordnen werden. Fangen wir an mit der Zeit. Die Zeit ist ganz klassisch kardinal skaliert. Ich darf mit ihr alles machen. Ich darf auch × und ÷ rechnen, ich darf ja sagen: Oh, das heute doppelt so lange gedauert wie gestern. Machen wir weiter mit dem Beispiel Tabellenplatz, sagen wir mal in der Fußball-Bundesliga. Man könnte ja sagen, es ist kardinal skaliert, weil ich Differenzen angeben kann. Ich kann sagen: Okay, der eine Verein steht 3 Plätze vor dem anderen. Hier ist aber wieder die Krux, die wir vorher schon hatten, dass wir keine Aussagen über die Abstände haben. Der Unterschied zwischen Platz 1 und 2 ist unter Umständen viel größer als der zwischen Platz 17 und 18. Es sind also keine klar definierten Differenzen möglich, deshalb ist der Tabellenplatz ordinal skaliert. Die Haarfarbe, das ist ganz klassisch nominal skaliert, weil hier gibt es halt nur blond, braunhaarig, schwarzhaarig, rothaarig und ich kann ja nicht sagen Blonde sind besser oder höher als Braunhaarige. Das geht ja nicht. Ich kann nur sagen: Okay, entweder haben zwei Leute, die ich mir angucke, die gleiche Haarfarbe oder sie haben nicht die gleiche Haarfarbe. Mehr ist da nicht möglich. Das Einkommen ist wieder ganz klassisch kardinal skaliert. Es hat wieder einen Nullpunkt, ich kann 0 Einkommen haben und ansonsten ist alles klar definiert. Ich kann 15 Euro mehr haben als mein Nachbar. Da sind alle Differenzen und Verhältnisaussagen möglich. Mit den Noten, sagen wir mal mit den Noten einer Prüfung in der Uni, ist es so wie mit den Tabellenplätzen. Es sieht so aus, als wäre es kardinal skaliert, ist aber nicht, es ist ordinal skaliert. Man kann sich das auch ganz einfach klar machen. Wäre es kardinal skaliert, müsste ja zwischen den einzelnen Notenschritten immer der gleiche Abstand herrschen. Das haben wir aber nicht, wir haben ja die Schritte 1,0 - 4,0, die in den meisten Prüfungen 50 % der Punkte umfassen und 5,0 ist dann der ganze Rest, die anderen 50 %. Das heißt, dass der Schritt von 5,0, wenn ich sagen wir mal 1 von 100 Punkte habe, auf 4,0 49 Punkte beträgt. Wenn ich aber jetzt schon bei 4,0 bin und auf nur 3,0 kommen will, muss ich vielleicht nur von 50 auf 60 Punkte kommen. Das heißt, die Schritte sind unterschiedlich groß und deshalb sind auch die Noten nicht kardinal skaliert, sondern ordinal. Die Herkunft; die Herkunft ist auch ganz normal nominal skaliert, genau so wie die Haarfarbe. Ich kann halt nur gucken, wo kommt jemand her und kommt er aus dem gleichen Land wie jemand anderes. Ich kann nur sagen = oder ≠, mehr geht da nicht. So, das waren die Skalenniveaus so weit. Es gibt aber auch noch eine andere Unterscheidung von Daten, und zwar in "diskret" und "stetig". Das gilt aber nur für Daten, die kardinal skaliert sind, das solltet ihr euch merken. Also für alles, im Prinzip, was man in eindeutig definierten Zahlen messen kann. Bei diskreten Daten sind die Schritte, die ich machen kann, ganz klar definiert und es sind keine Zwischenschritte möglich. Wenn ich jetzt zum Beispiel das Alter in Jahren wissen will, dann sagen wir mal, habe ich mögliche Ergebnisse von 0 bis 130 und es gibt keine Zwischenschritte. Es gibt keine Angabe 12,5, entweder ist jemand 12 Jahre alt oder 13. Das heißt, ich habe immer Sprünge in meinen Daten 12 auf 13, dazwischen ist nichts. Bei stetigen Daten habe ich beliebig kleine und beliebig viele Schritte und es ist immer ein Zwischenschritt möglich. Das ganz klassische Beispiel ist die Zeit, die ja ein stetiger Fluss ist, daher kommt das Wort "stetig". Zwischen 2 Zeiteinheiten passt immer noch eine weitere. Wenn ich jetzt die Zeit in Sekunden messe und ich habe 12,0 und 12,1, dann passen da noch beliebig viele unendlich kleine Schritte zwischen. Das heißt stetig. Diese Aufteilung in stetig und diskret ist für den Anfang eigentlich noch gar nicht wichtig, weil wir mit den Daten, die wir jetzt verarbeiten, diese Einteilung nicht brauchen. Das ist erst später wieder interessant, wenn es um Verteilungsmodelle geht. Nur, dass ihr es schon mal gehört habt, wo wir gerade dabei waren, was für Typen von Daten es gibt, wollte ich das hier noch mal erwähnt haben. Aber in den nächsten Videos wird das noch nicht von Bedeutung sein, das kommt erst später und dann greifen wir es auch noch mal richtig auf. Aber nur, dass ihr es schon mal gehört habt, dass es diese Einteilung gibt. Ja, das war's auch schon für heute. Vielen Dank für's Zuschauen. Nächstes Mal kümmern wir uns um das Sortieren und Gruppieren von Daten. Dann werden also Daten, die wir haben, endlich mal verarbeitet. Und ich bedanke mich für's Zuschauen und sage: Tschüss!

Informationen zum Video
2 Kommentare
  1. Default

    Gut erklärt. Leider immer mit Unterbrechungen

    Von Corina Fehlmann, vor mehr als 2 Jahren
  2. Default

    Video bleibt immer nach knapp 7minuten Hängen.

    Von Bärbel L., vor etwa 3 Jahren