Textversion des Videos

Transkript Statistik Video 4: Sortieren und Gruppieren von Daten

Hallo. Schön, dass ihr wieder alle zuguckt. Heute beschäftigen wir uns mit der Katalogisierung von Daten. Insbesondere mit sortieren und gruppieren von Daten. Nachdem wir uns im letzten Video die Klassifikation von Daten angeschaut haben und dabei insbesondere die Skalenniveaus, schauen wir uns heute an, warum diese Unterscheidung in Skalenniveaus oder auch die Unterscheidung in diskrete und stetige Merkmale überhaupt wichtig ist. Daten, wenn wir sie erhoben haben, sind in ihrer reinen Form oft ziemlich unübersichtlich. Deshalb sortiert man Daten oder gruppiert man Daten. Wir schauen uns heute an, was der Unterschied ist und wann es Sinn macht, Daten zu sortierten bzw. wann es Sinn macht, Daten zu gruppieren. Der nächste Schritt ist dann die gesammelte Darstellung von Daten in Datentafeln bzw. in einer Datenmatrix. In diesem Video gucken wir uns das Sortieren und Gruppieren von Daten an und im Nächsten kommen wir dann auf die Datentafel und die Datenmatrix zu sprechen. Zuerst einmal brauchen wir natürlich Daten. Dazu stellen wir uns wie immer die Frage: Was wollen wir eigentlich wissen? Ich habe mir ein Beispiel überlegt und sage: So, wir wollen heute mal die Körpergröße wissen in cm. Und zwar nicht von irgendwem, sondern von 10 Fünftklässlern, die wir jetzt mal befragt haben. Unser Stichprobenumfang n ist also 10. Wir befragen 10 Fünftklässler. Wir bekommen also 10 Ergebnisse. x1 bis x10. Wobei x1 das Ergebnis des ersten Fünftklässlers ist, den wir befragt haben und x10 das Ergebnis des Zehnten. Hier mal aufgeschrieben diese 10 Ergebnisse. Unser erster Schritt ist jetzt, alle Daten in eine Urliste zu schreiben. Eine Urliste, kennen wir bereits aus dem zweiten Video, ist einfach nur eine Liste, in der alle Daten in ihrer Reihenfolge wie sie eingetroffen sind, hintereinander geschrieben werden. Also völlig ohne Sortierung. Unsere Urliste ist jetzt natürlich noch etwas unübersichtlich, weil völlig durcheinander. Uns fällt aber schon auf, dass einige Daten doppelt vorkommen oder manche auch viermal, wie die 142 zum Beispiel. Das Nächste, was wir jetzt also machen, ist, unsere Urliste zu sortieren, damit wir etwas an Übersichtlichkeit gewinnen. Natürlich können wir nicht immer einfach so sortieren, sondern wir müssen uns immer die Frage stellen: Was muss gegeben sein, damit ich meine Daten sortieren darf? Logischerweise müssen die Daten mindestens ordinal skaliert sein. Für alle, denen das jetzt nicht so logisch erscheint, die wissen offensichtlich nicht so genau, was ordinal skaliert bedeutet. Ordinal skalierte Daten haben eine klare Rangfolge, aber keinen klaren definierten Abstand. Hier ist unser x, also die Körpergroße der Fünftklässler in cm, sogar kardinal skaliert. Logischerweise müssen die Daten mindestens ordinal skaliert sein. Wir schreiben unsere Daten also in eine sortierte Liste, also der Größe nach geordnet. Hier haben wir also unsere 10 Daten sortiert hintereinander geschrieben und das Ganze sieht doch schon deutlich übersichtlicher aus, auch wenn es vielleicht noch nicht ganz perfekt ist. Nehmen wir z. B. mal an, wir hätte nicht nur 10 Daten, sondern vielleicht 100 oder 1000. Dann wäre unsere sortierte Liste schon ziemlich lang und dann hätten wir auch nicht so viel Übersichtlichkeit gewonnen, wie wir eigentlich haben wollen. Deshalb müssen wir uns noch etwas anderes überlegen, unsere Daten darstellen können. Deshalb bauen wir uns mal eine Tabelle. Unser Merkmal ist hier weiterhin Körpergröße in cm unserer Fünftklässler, unser Stichprobenumfang n ist weiterhin 10 und wir schreiben jetzt mal in die erste Spalte unserer Tabelle alle realisierten Ausprägungen, dies sind ja nur 4. Wir haben nur die Ausprägung 142, 147, 150 und 156. Rechts daneben, in die zweite Spalte, schreiben wir die absolute Häufigkeit. Also die Häufigkeit, wie oft dieses Ergebnis, z. B. die 142, in unserer Stichprobe tatsächlich realisiert wurde. Die 142 ist in unserer Zehner-Stichprobe 4 Mal vorgekommen. Die absolute Häufigkeit ist also 4. Überlegen wir uns jetzt mal, wie unsere Tabelle aussehen würde, wenn wir 100 Fünftklässler befragt hätten. Natürlich hätten wir einige realisierte Ausprägungen mehr. Ich hab jetzt mal gesagt, es wären insgesamt 7, obwohl es in Wahrheit wahrscheinlich noch etwas mehr wären. Aber trotzdem würde unsere Tabelle schon relativ übersichtlich aussehen. Wir können auf diese Art und Weise also quasi beliebige Stichprobenumfänge zusammenfassen. Dies ist aber nicht uneingeschränkt möglich. Der besondere Clou, weshalb das hier so einfach ist, ist, dass die Körpergröße in cm diskret ist. Ein diskretes Merkmal. Erinnern wir uns an das letzte Video. Ein diskretes Merkmal bedeutet, wir haben keine Zwischenschritte. Wie hier bei der Körpergröße in cm. Entweder ist jemand 142 cm groß oder 143 cm. Wir haben keine 142,5. Deshalb haben wir eine relativ begrenze Menge an realisierten Ausprägungen. Sagen wir mal, unser Spektrum bei Fünftklässlern liegt zwischen 1,30 m und 1,65 m. Das ändert sich auch bei, sagen wir 1000 Fünftklässlern nicht oder bei 10000. Wir haben also immer maximal 35 realisierte Ausprägungen. Die können wir alle ganz locker in einer Tabelle zusammenfassen. Wenn wir jetzt aber ein stetiges Merkmal haben, haben wir, wir erinnern uns, beliebig viele Zwischenschritte. Da sieht das Ganze schon etwas anders aus und da müssen wir mit anderen Werkzeugen den Daten zu Leibe rücken. Nehmen wir also mal ein stetiges Merkmal. Zum Beispiel die Zeit. Die Zeit ist das klassische Beispiel für ein stetiges Merkmal. Wir nehmen wieder den Stichpunktumfang 10 und sagen wir haben 10 Fünftklässler nach ihrer Zeit eines 70m Laufs befragt. Wir gehen mal davon aus, dass die Schule über ein neues System der Zeitmessung verfügt und wir deshalb die Daten auf ein Tausendstel genau bekommen, also auf 3 Stellen hinter dem Komma. Wir notieren also wieder unsere 10 Ergebnisse und uns fällt sofort auf, keines der 10 Ergebnisse kommt doppelt vor. Interessant. Wir können unsere Ergebnisse jetzt natürlich wieder in eine sortierte Liste schreiben, denn auch unser Merkmal hier, die Zeit des 70m Laufs, ist kardinal skaliert. So, die sortierte Liste, 10 Daten hintereinander, sieht nicht so richtig gut aus. Irgendwie fehlt es noch an Übersichtlichkeit. Die Urliste habe ich mir übrigens mal gespart. Das sehen wir oben, wie die aussehen würde. Und jetzt überlegen wir uns mal, was passieren würde, wenn wir das alles in eine Tabelle schreiben, so wie wir das gerade beim Sortieren der Daten gemacht haben. Wir hätten also in unserer Spalte 10 Einträge für 10 verschiedene Zeiten und rechts bei der absoluten Häufigkeit würde jeweils eine 1 stehen. Das würde uns nicht so wirklich weiter bringen. Machen wir etwas anderes. Wir gruppieren die Daten. Wir können natürlich nicht alle Daten beliebig gruppieren, sondern müssen immer schauen, was muss dafür gegeben sein. Damit wir Daten gruppieren können, müssen diese mindestens ordinal skaliert sein, genauso wie beim Sortieren. Wir haben gerade schon gesagt, dass unser Merkmal hier kardinal skaliert ist und deshalb locker gruppiert werden kann. Wir bauen uns jetzt tatsächlich wieder eine Tabelle, schreiben jetzt aber nicht links unsere beobachteten Ergebnisse hin, sondern Intervalle von ... bis unter, klar definiert. Sagen wir mal, wir bilden 5 Gruppen. Von 10 bis unter 13, 13 bis unter 16, 16 bis unter 19, 19 bis unter 22 und 22 bis unter 25. Jetzt können wir angeben, wie viele unserer Ergebnisse jeweils in jedes dieser Intervalle fallen. Das ist hier die absolute Häufigkeit. Wir haben die Ergebnisse. In das erste Intervall fallen 4 der 10 Schüler, in das Zweite nur einer, in das Dritte nur einer, in das Vierte 3 Schüler und in das Letzte wieder nur einer. Stellen wir uns wieder vor, wir hätten 100 Ergebnisse. Auch das könnten wir ganz locker in die Tabelle eintragen. Wir hätten halt höhere Zahlen. Wir hätten dann zum Beispiel 35 im ersten Intervall, 16 im Zweiten, 13 im Dritten, 14 im Vierten und alle anderen dann im fünften Intervall. Treten wir noch einmal einen Schritt zurück und schauen uns an, was denn die absolute Häufigkeit aussagt. Wenn wir sagen von 10 bis unter 13 Sekunden, da haben wir eine absolute Häufigkeit von 35. Das heißt, dass 35 Schüler mehr als 10 Sekunden aber weniger als 13 Sekunden für ihren 70m Lauf brauchen. Wir haben also 35 Schüler, die irgendwo zwischen 10,000 und 12,999 Sekunden brauchen. Wenn man Daten gruppiert, muss man sich immer über zwei Sachen Gedanken machen. Über die Gruppenbreite, also wie breit wähle ich meine Intervalle und über die Anzahl der Gruppen. Fangen wir an mit der Gruppenbreite. Die Gruppenbreite darf ich generell willkürlich wählen. Es gibt aber einige Sachen, die ich beachten sollten. Oftmals ist es sinnvoll bei allen Gruppen die gleiche Gruppenbreite zu nehmen, so wir das in unserem Beispiel gemacht haben. Wir hatten 5 Gruppen jeweils von der Gruppenbreite 3 Sekunden. Oft ist eine gleiche Gruppenbreite sinnvoll, aber eben nicht immer. Man sollte nämlich auch darauf achten, dass man leere Gruppen oder auch übervolle Gruppen vermeidet. Man muss also immer genau von Einzelfall zu Einzelfall unterscheiden und sich bei jedem neu Gedanken machen. Es gibt keine Formel, nach der man das einfach klar bestimmen kann. Man muss sich immer die Daten angucken, wie sind die verteilt und was für Gruppenbreiten machen jetzt für meine Daten Sinn. Gucken wir uns also die Anzahl meiner Gruppen an. Auch hier kann ich das generell willkürlich entscheiden. Es gibt allerdings eine Faustregel. Wenn ich weniger als 100 Daten habe in meinem Stichprobenumfang, n also kleiner ist als 100, sollte meine Gruppenbreite in etwa ?n Daten haben. Also wenn ich 100 Daten habe, sollte ich etwa 10 Gruppen nehmen. Oder bei unseren 10 Daten hätten wir ungefähr 3 Gruppen nehmen sollen. Ich habe jetzt Mal 5 genommen, wie gesagt, es ist willkürlich zu entscheiden, aber hier wird uns eine Faustregel mit an die Hand gegeben. Nach der kann man sich richten, muss man aber nicht. Es ist nur eine Hilfestellung. Wichtig ist, man muss sowohl die Anzahl als auch die Gruppenbreite immer vom Einzelfall abhängig machen. Ja, das war auch schon wieder der ganze Inhalt des heutigen Videos. Beim nächsten Mal beschäftigen wir uns mit der Darstellung von mehreren Daten eines Merkmalträgers. Also z. B. wie bei uns die Körpergröße und die Zeit eines 70m Laufs eines Fünftklässlers in einer Datentafel bzw. in einer Datenmatrix. Das war es von mir für heute. Ich sage Danke fürs Zuschauen und tschüss.

Informationen zum Video
9 Kommentare
  1. Felix

    @Christ Christoph: 16-19 bedeutet von 16 sec bis unter 19 sec. Zeiten von genau 19 sec gehören also nicht dazu. 19-22 bedeutet von 19 sec bis unter 22 sec. Wenn also jemand genau 19 sec gelaufen ist, dann wird er bei 19-22 eingruppiert.
    Ich hoffe, dass ich dir helfen konnte.
    Bei weiteren Fragen hilft dir auch gerne der Hausaufgaben-Chat, der Mo-Fr von 17-19 Uhr verfügbar ist.

    Von Martin Buettner, vor etwa einem Jahr
  2. Default

    Bei der Intervallgruppierung mit der Zeit ist mir nicht klar ob die Merkmalsausprägungen größer bzw kleiner gleich oder nur größer bzw. kleiner verwendet werden? Wenn zwei Schüler 19 als Wert haben?

    Von Christ Christoph, vor etwa einem Jahr
  3. Default

    Oh alles klar. Sorry, ich hab's verwechselt...

    Von Malinalina, vor fast 2 Jahren
  4. Default

    Warum ist die Körpergröße in cm kardinal skaliert? Im Letzten Video war das Alter in Jahren ordinal skaliert. Ich vestehe den Unterschied nicht.

    Von Malinalina, vor fast 2 Jahren
  5. Default

    hallo bei min 10:22 geht's nicht mehr weiter

    Von Lea Seyda, vor mehr als 2 Jahren
  1. Default

    Hilfe,bei min11:47 gehts nicht mehr weiter..

    Von Ho Me28681, vor mehr als 2 Jahren
  2. Default

    Bei uns an der Uni ist das letztere "klassieren" bzw in Klassen einteilen und es müsste eine klassierte Verteilung mit Ober- und Untergrenze sein. Oder liege ich da falsch?

    Von Rubenrupp, vor mehr als 2 Jahren
  3. Default

    Wirklich gutes Tutorial. Nicht nur dieses Video, sondern der ganze Kurs. Hut ab :)

    Von Deleted User 42957, vor etwa 3 Jahren
  4. Default

    http://www.belleslettres.eu/artikel/sinn-machen-make-sense-anglizismus.php

    Von Mlang1, vor mehr als 4 Jahren
Mehr Kommentare