Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 5: Datenmatrix und Datentafel

Hallo, schön, dass ihr alle wieder zuguckt. Wir beschäftigen uns heute weiterhin mit der Katalogisierung von Daten. Im letzten Video haben wir uns ja gruppierte und sortierte Daten angeguckt und wofür das ganze überhaupt nutze ist und dieses Video gucken wir uns mal eine Datenmatrix und eine Datentafel an. Bevor wir das aber machen, müssen wir uns erst mal 3 grundlegende Fragen stellen, und zwar: - Was ist überhaupt eine Matrix? - Was ist eine Datenmatrix? - Was genau ist eine Datentafel? Und wie unterscheidet sich eigentlich eine Datentafel von einer Datenmatrix? Ich hoffe, am Ende des Videos werdet ihr alle 3 Fragen gut beantworten können. Da wir uns von der Matrix zur Datenmatrix und zur Datentafel vorarbeiten wollen, fangen wir natürlich erst einmal mit der Frage an "Was ist eine Matrix?". Eine Matrix wird klassischerweise in der Algebra verwendet. Für alle von euch, die lineare Algebra gehört haben, oder hören mussten, eine Matrix ist im Prinzip erst einmal nichts anderes, als eine Anordnung aus Zeilen und Spalten. Die Einträge werden dabei mit xij bezeichnet, wobei i und j natürlich Laufindizes sind. I ist der Laufindex für die Zeilen und j ist der Laufindex für die Spalten. Wenn wir uns jetzt also einmal so eine Matrix angucken, wir nehmen mal eine ganz simple, 1, 2, 3, 4, dann ist das eine 2 Kreuz 2 Matrix, ganz logisch erst mal. Sagen wir einfach mal, wir wollen einen ganz bestimmten Wert aus dieser 2x2 Matrix haben, und zwar x12 - welcher Wert ist das? Naja wir gucken, die 1 ist unser i, markiert also die Zeile. Wir sind also in der ersten Zeile unserer Matrix. Die 2, unser j, markiert also die Spalte. Wir sind also in der 2. Spalte unserer Matrix. Unser Eintrag x12 ist also 2. So viel als Crashkurs zur Matrix. Aber da wir uns nicht in der Algebra, sondern in der Statistik befinden, interessiert uns mehr die Datenmatrix. Wir fragen uns also, was ist eine Datenmatrix und wofür brauche ich sie eigentlich? Eine Datenmatrix brauche ich immer dann, wenn ich an einem Individuum, also einem Merkmalsträger, mehr als eine Sache beobachte. Erinnern wir uns einmal an das letzte Video, da hatten wir das Beispiel mit den Fünftklässlern und an diesen Fünftklässlern haben wir auch mehrere Merkmale beobachtet. Wir mussten aber jedes Merkmal in eine eigene Tabelle schreiben. Heute wollen wir, da wir jetzt ja eine Datenmatrix haben, alle Beobachtungen in bloß eine einzige Tabelle schreiben. Die nächste Frage, die sich aufdrängt, ist: Wie machen wir das? Naja, da das Ganze Datenmatrix heißt, liegt es nahe, dass wir unsere Beobachtungen in Matrixform aufschreiben. Unsere Einträge sind hierbei also unsere Beobachtungen. Unsere Zeilen und Spalten haben weiterhin die Laufindizes i und j. In unseren Zeilen stehen unsere Merkmalsträger, jeder Merkmalsträger, den wir beobachten, bekommt eine eigene Zeile in unserer Datenmatrix, und in den Spalten stehen die Merkmale. Jedes Merkmal, das wir untersuchen, bekommt eine eigene Spalte. Wichtig ist hierbei noch, die Merkmale können beliebig skaliert sein. Wir können jegliches Merkmal mit jeglichen Beobachtungen in eine Datenmatrix schreiben. Xij ist hierbei also die Beobachtung des j-ten Merkmals am i-ten Merkmalsträger, oder einfacher ausgedrückt, wenn man jetzt mal von hinten nach vorne geht, was beobachte ich an wem. Das j ist das Merkmal, also das Was, das i steht für den Merkmalsträger, den ich beobachte, also an wem ich etwas beobachte. Unser i und unser j sind Laufindizes, das heißt, sie sind beschränkt. Unser i geht von 1 bis n, wobei n, wir erinnern uns, wie immer unser Stichprobenumfang ist. Unser j geht von 1 bis m, wobei m jetzt einfach mal die Anzahl der Merkmale ist. Eventuell gibt es bei euch auch eine andere Variable für m, es ist nur wichtig, dass j von 1 bis zur Anzahl der Merkmale geht. Also wenn wir 3 Merkmale beobachten, geht j von 1 bis 3. Ich habe euch einfach mal aufgezeichnet, wie so eine Tabelle oder eine Datenmatrix formal aussieht. Das sieht alles noch etwas unübersichtlich aus, füllen wir es also mit Leben, dann wird das Ganze schon viel deutlicher. Ich habe mir mal wieder ein Beispiel überlegt und in diesem Beispiel beobachten wir 3 Merkmale: x1, x2 und x3. x1 ist hierbei die beliebte Haarfarbe, x2 ist die letzte Note, die der Student, den wir beobachten bekommen hat und x3 ist die Zeit, die zur Uni benötigt wird. Machen wir doch mal eine kleine Übung und schauen wir, wie die Merkmale skaliert sind. Obwohl wir jedes Merkmal in die Datenmatrix eintragen können, gucken wir einfach mal, ob der Stoff der letzten Videos noch drin ist. x1, also die Haarfarbe, ist nominal skaliert, x2, also die letzte Note, ist ordinal skaliert und x3, die Zeit, ist ganz klassisch kardinal skaliert. Wir haben also ein m von 3, weil wir 3 unterschiedliche Merkmale untersuchen, und einen Stichprobenumfang n von 5, wir beobachten 5 Studenten. Und für diese 5 Studenten bekommen wir bei 3 Merkmalen natürlich 15 Beobachtungen. Ich habe das ganze einfach mal abgekürzt, bl steht für blond und br für braun. Jetzt haben wir hier also unsere 15 Beobachtungen schön hintereinander aufgeschrieben. Die Zeit in x3 ist übrigens in Minuten, nur falls sich jemand fragt, was für eine Einheit da wohl steht. Jetzt liegt es an uns, das Ganze in eine Datenmatrix zu überführen. So sieht eine Datenmatrix ausgefüllt aus. Links stehen die Studenten, S1 bis S5, und oben die Merkmale x1 bis x3. Wir sehen hier also auf einen Blick alle 3 Merkmale jedes Studenten. Machen wir mal einen kleinen Test: Wenn wir wissen wollen, was unser Eintrag x32 ist, wo müssen wir dann hingucken und was ist die Antwort? x32 bedeutet, wir haben die 3. Zeile, also den 3. Studenten und unser 2. Merkmal, also die Note. Wir gucken also am Kreuzpunkt von der 3. Zeile und der 2. Spalte und finden den Eintrag 1,0. Machen wir weiter mit dem Eintrag x15. Macht einfach mal Pause bei dem Video und guckt nach, welcher Eintrag der Eintrag x15 ist. Alle, die jetzt nachgeguckt haben und sagen unser Eintrag x15 ist braun, muss ich leider sagen, falsch. Wir haben gar keinen Eintrag x15, das würde nämlich bedeuten, wir sind in der 1. Zeile und in der 5. Spalte, wir haben aber nur 3 Spalten. Den Eintrag x15 gibt es nicht. Stattdessen nehmen wir mal den Eintrag x51, wir sind also in der 5. Zeile, in der 1. Spalte und diesmal ist unser Eintrag braun. Ein Letztes noch, diesmal suchen wir den Eintrag x13. Ihr könnt jetzt wieder Pause machen und mal gucken, ob ihr den Eintrag selber findet, sollte eigentlich nicht so schwer sein. Unser Eintrag x13 ist das 3. Merkmal des 1. Studenten, also 35,5 Minuten. Kommen wir also zum 3. Teil dieses Videos, die Datentafel. Die Datentafel benutzen wir immer dann, wenn wir nur diskrete Merkmale haben. In unserem Fall sind das 1. und das 2. Merkmal, also die Haarfarbe und die Note diskret, und deshalb können wir sie hier in einer Datentafel darstellen. Wie geht das? In einer Datentafel sind sowohl die Zeilen als auch die Spalten Merkmale, das heißt, ein Merkmal bildet alle Zeilen ab und ein Merkmal bildet alle Spalten ab. Die Einträge xij sind hierbei dann also die absoluten Häufigkeiten. Machen wir wieder unser Beispiel. Nehmen wir einfach mal die Einträge von gerade. x1 ist hier ja die Haarfarbe, da hatten wir die realisierten Ausprägungen blond, braun und schwarz und x2 ist die Note und da hatten wir 1,0; 3,3 und 4,0. Wenn wir jetzt also unsere Datentafel ausfüllen, sehen wir, dass die blonden Studenten 2-mal eine 1,0 geschrieben haben, die Braunhaarigen 2-mal eine 4,0 und die Schwarzhaarigen 1-mal eine 3,3. Das Ganze ist auch mit mehr als 2 Merkmalen möglich. Wir könnten jetzt zum Beispiel noch ein imaginäres 3. Merkmal einfügen, indem wir bei den Noten fragen, ob die letzte Note aus einer Klausur stammt oder nicht. Wir teilen also alle Noten, also 1,0; 3,3 und 4,0 noch einmal in Klausur ja oder nein auf. Das macht die Datentafel nicht unbedingt übersichtlicher, aber wir könnten jetzt ein weiteres Merkmal berücksichtigen. Die Datentafel kann also durchaus mehr als 2 Merkmale darstellen. Ab dem nächsten Video kümmern wir uns nicht mehr um die Katalogisierung von Daten, sondern um Häufigkeitsverteilungen. Im nächsten Video insbesondere die absolute und relative Häufigkeit. Über die absolute Häufigkeit haben wir ja schon öfter mal gesprochen, beim nächsten Video kommt dann auch mal die Definition. Das war es für heute, ich bedanke mich fürs Zuschauen und sage tschüss!  

Informationen zum Video
6 Kommentare
  1. Default

    Nach diesem Video solltet ihr am besten mit dem folgenden Video weiter machen:

    http://www.sofatutor.com/naturwissenschaften-und-mathematik/videos/statistik-video-6-absolute-und-relative-haeufigkeit?topic=1453&back_button=1

    Von Derursm, vor mehr als einem Jahr
  2. Default

    Ich habe die gleiche Anmerkung wie Beth zur Testfrage. Es wäre schön, wenn diese verbessert wird, da das sehr schnell zur Verunsicherung führen kann.

    Von Deborah Koehler, vor mehr als 2 Jahren
  3. Default

    gehört determinationskoeffizient zum Thema?

    Von Lea Seyda, vor mehr als 2 Jahren
  4. Default

    Hallo! Wieso kommt denn jetzt nach diesem Video, dass Video "Determinationskoeffizient?? Ordnet doch bitte mal die Videos vernünftig hintereinander!! Das ist in anderen Bereichen ähnlich auf einmal folgen Videos die mit dem vorherigen Video nichts zu tun haben bzw. nicht darauf aufbauen!

    Von Samy Osman, vor mehr als 2 Jahren
  5. Default

    Stimmt. Danke für den Hinweis.

    Von Statistik Jona, vor etwa 4 Jahren
  1. Default

    Ich habe ein Kommentar zur Testfrage nach dem Video.
    Es wird nach der Deutung von xji in der Datenmatrix gefragt, nich aber nach xij, worauf sich das Video bezieht. Kreuzt man richtig, entsprechend der tatsächlichen Frage an, heißt es man hat falsch gelöst. Richtig ist:
    xji ist die Beobachtung des i-ten Merkmals am j-ten Merkmalsträger

    Von Beth, vor etwa 4 Jahren
Mehr Kommentare