Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Punktbiseriale Korrelation

Hallo! Du kennst die Korrelation, also die Produktmomentkorrelation. Da geht es um 2 Merkmale x und y und dann kann man eine Regressionsgerade machen, wenn man so ein Streudiagramm hat und dann etwas ausrechnen. Es gibt eine bestimmte Korrelation unter bestimmten Umständen und die heißt dann punktbiseriale Korrelation. Also, was ist das genau? Wir brauchen zunächst einmal ein intervallskaliertes Merkmal x, das ist hier abgetragen (gleich kommen die Punkte hinzu) und wir brauchen ein natürlich dichotomes Merkmal. Ein Merkmal ist dichotom, wenn es nur 2 Ausprägungen hat. Ein Merkmal ist natürlich dichotom, wenn es auf natürliche Weise nur 2 Merkmalsausprägungen hat, im Gegensatz zu künstlich dichotom. Ein künstlich dichotomes Merkmal hat man z. B. dann, wenn man nach dem Alter von Personen fragt, die Personenalter aber nur in 2 Kategorien aufteilt. Wenn z. B. der Türsteher an einer Disco nach dem Alter fragt, will er nicht wissen, wie alt man tatsächlich ist, sondern er will vielleicht nur wissen: ist man 18 und darüber oder ist man unter 18 Jahre alt. Dann wird also dieses eigentlich intervallskalierte Merkmal "Lebensalter" künstlich reduziert auf ein dichotomes Merkmal. Es kann aber auch natürlich dichotome Merkmale geben, wie z. B. (da komme ich gleich noch dazu) wenn man jetzt in einem Zoo Besucher fragt "Hast du das Erdmännchen gesehen?", dann gibt es auf diese Frage natürlicherweise nur 2 Antworten, nämlich ja oder nein. Wenn man also ein intervallskaliertes Merkmal hat und ein natürlich dichotomes Merkmal, was 2 Ausprägungen hat, hier mit 0 und 1 gekennzeichnet, dann kann man die Korrelation dieser beiden Merkmale bilden. In diesem speziellen Fall heißt diese Korrelation rpb, pb steht für punktbiseriale Korrelation. Ich zeige kurz, wie das aussieht. Zum Beispiel könnte es sein, dass hier zu diesem Zeitpunkt (also die Zeit ist ja mindestens intervallskaliert, nicht wahr?) ein Erdmännchen in einem Zoogehege ankommt, dort ausgesetzt wird, wie auch immer. Man fragt jetzt im Laufe dieser Zeit Besucher "Hast du das Erdmännchen gesehen?"Manchmal sehen sie es und manchmal nicht und dann könnte also folgende Situation hier auftauchen (ich male mal irgendwelche Punkte, die sollen alle auf einer Linie sein). Ich glaube, es ist erkennbar, dass hier, zu einem späteren Zeitpunkt, das Erdmännchen von mehr Besuchern gesehen wurde als hier (hier haben mehr Besucher geantwortet, dass sie es nicht gesehen haben). Wenn wir hier jetzt die Korrelation bilden, dann kriegen wir einen positiv linearen Zusammenhang. (Und für das Erdmännchen ist es vielleicht auch ganz positiv, wie oft diese Besucher das Erdmännchen sehen, denn vielleicht ist es ein Hinweis darauf, dass sich das Erdmännchen wohl fühlt, wenn es dann öfter zu sehen ist und sich halt nicht mehr versteckt oder so.) Hier kann man sich auch vieles Anderes vorstellen. Wenn du z. B. viele Prüfungen machst während deines Studiums, dann kannst du hier mal die Zeit eintragen, die du verwendet hast, um dich auf die Prüfung vorzubereiten und hier kannst du eintragen: Habe ich bestanden oder nicht bestanden? Ich denke, da wird so etwas Ähnliches herauskommen. Je mehr Zeit man verwendet, um sich auf die Prüfung vorzubereiten, desto größer ist natürlich auch die Chance, dass man dann besteht. Warum erzähle ich das Ganze? Nicht nur, um diesen Begriff zu nennen, sondern um auf diese Formel zu kommen (die ich jetzt nicht weiter herleite und begründe). Wenn wir also ein x-Merkmal haben, das intervallskaliert ist und ein y-Merkmal, das natürlich dichotom ist (also nur 2 Ausprägungen hat) - dann kann man die punktbiseriale Korrelation oder einfach rpb auf diese Weise berechnen:

Das ist das arithmetische Mittel dieser Werte hier: die x-e, für die der y-Wert =1 ist und die Punkte auf der x-Achse, deren y-Wert 0 ist; hier ist die Standardabweichung bezüglich x; n1 ist die Anzahl dieser Punkte bei 1; n0 ist die Anzahl dieser Punkte bei 0 und n ist natürlich wieder die Anzahl aller Messwerte. Somit kann man relativ einfach die Korrelation berechnen, wenn das y-Merkmal natürlich dichotom ist. Viel Spaß damit. Tschüss!

Informationen zum Video