Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 40: Regressionsanalyse Übung

Hallo! Schön das ihr alle wieder zuguckt. Wir sind heute bei der Übung zur Regressionsverteilung. Wir haben uns ja im letzten Video schon mit der Regressionsanalyse beschäftigt und uns das angeguckt. Und heute wollen wir eine lineare, einfache Regression einmal durchführen. Wir haben hier wieder ein kleines Beispiel. Ich habe ja das beliebte Beispiel der beiden Statistikklausuren. Also haben wir auch als Merkmale, als Merkmal x die Punkte der Statistik 1 Klausur erreicht und das Merkmal y, wo die Punkte der Statistik 2 erreicht wurden. Wir wollen jetzt einfach mal annehmen, dass die Punkte, die in Statistik 2 erreicht werden, davon abhängen, wie viele Punkte jemand in der Statistik 1 erreicht hat. Also jemand der in Statistik 1 sehr gut war, sollte auch viele Punkte in Statistik 2 erreichen, weil er es einfach schon kapiert hat. Wir haben jetzt also einfach mal 4 Studenten uns rausgenommen und haben hier diese Wertepaare. Jetzt habe ich ja gesagt, beim letzten Mal, um eine lineare, einfache Regression durchzuführen, müssen wir quasi auch schon die Annahme treffen, dass ein linearer Zusammenhang besteht. Das können wir uns ansehen, wenn wir einmal diese Wertepaare in unser Streudiagramm oder in ein  Streudiagramm einzeichnen. Der erste 15 und 20, also hier. Der zweite 10 und 17, 10 Punkte in Statistik 1, 17 Punkte in Statistik 2, wäre ungefähr hier. Der dritte 25 und 30, 25 wäre hier, 30 hier oben und 40 und 37, 40 ist hier, 37 dürfte ungefähr hier sein. Also wir sehen, wir können hier durchaus einen linearen Zusammenhang unterstellen. Die liegen ja alle einigermaßen in einer Reihe. Das heißt, wir können hier versuchen eine optimale Gerade durchzulegen, sodass die Abstände unserer Punkte von der Geraden minimal sind. Im letzten Video haben wir ja schon gesagt, durch die Ableitungen und so haben wir gesehen das unser b bei der besten Gerade, unsere empirische Kovarianz durch unsere empirische Varianz von x ist. Und unser a ist y ->-.b×x->. Ich habe hier auch noch mal die Formel für die empirische Kovarianz aufgeschrieben und für die empirische Varianz. O.k., da wir ja jetzt überprüft haben, dass unsere Annahme vielleicht gar nicht so schlecht ist, können wir einfach mal anfangen uns alles zu suchen was wir denn brauchen, um am Ende unsere Gerade aufzustellen. Unsere Gerade, die wir am Ende haben wollen, ist unser y Dach=a+b×x. Aber um dahinzukommen, brauchen wir eine ganze Menge mehr. Gucken wir uns an. Für unser a brauchen wir y-> und x-> und b. Müssen wir alles noch errechnen, haben wir alles noch nicht. Für unser b brauchen wir sxy, also die empirische Kovarianz von x und y und die empirische Varianz von x. Haben wir auch noch nicht. Für unsere empirische Kovarianz wiederum brauchen wir das Produkt xi×yi, davon die Summe. Für unsere empirische Varianz von x wiederum brauchen wir xi2 und davon die Summe. O.k., fangen wir an mit x->. x-> bilden wir also erst mal die Summe über alle xi, 15+10=25+25=50+40=90. Unser arithmetisches Mittel von x auszurechnen, also Summe über alle xi÷n sollte ja kein Problem sein. 90÷4=22,5. Das sollte so langsam drin sein. Das arithmetische Mittel dürfte euch jetzt keine Probleme mehr bereiten. O.k., 22,5, also das arithmetische Mittel von x haben wir schon mal. Suchen wir also das arithmetische Mittel von y. Wieder hier Produkt über alle yi, 20+17=37+30=67+37=104, 104÷4=26. O.k., ersten Schritt erledigt. Jetzt haben wir also unser arithmetische Mittel von x und unser arithmetische Mittel von y. O.k., womit wollen wir weitermachen? Entweder empirische Kovarianz oder empirische Varianz? Ich würde sagen, wir machen einfach mal mit der empirischen Varianz weiter und dafür brauchen wir xi2. Bauen wir uns also eine Spalte in unsere Tabelle xi2. O.k. hier haben wir unsere xi stehen und hier können wir jetzt also die quadrierten xi hinschreiben. 152, 15×15=225, 102, 10×10=100, 252=625 und 402=1600. Davon bilden wir jetzt natürlich noch die Summe, denn die brauchen wir ja, bei der empirischen Varianz, also 1600x625=2225+100=2325+225=2550. Gut, wir haben jetzt also die Summe der quadrierten Beobachtungswerte und damit haben wir im Prinzip auch alles, was wir brauchen, um unsere Varianz von x auszurechnen. Die Varianz berechnen wir jetzt also wie gewohnt. Wir schreiben hier Sx2, die Varianz von x ist 1/4 mal die Summe aller quadrierten Beobachtungswerte von x, also 2550 und das Ganze -x->^2. Minus unser quadriertes arithmetisches Mittel, -22,52. Ergibt, wenn wir das jetzt in den Taschenrechner eingeben, eine empirische Varianz von x von 131,25. Können wir hier direkt mal eintragen, 131,25. O.k. das ist die empirische Varianz von x. Machen wir weiter, damit wir b berechnen können, was wir brauchen, um a zu berechnen mit der empirischen Kovarianz. Bei der empirischen Kovarianz brauchen wir das Produkt der Beobachtungswerte xi×yi. Das heißt, wir ziehen wieder eine neue Spalte in unsere Tabelle ein, wo wir unsere Beobachtungswerte miteinander multiplizieren. Also die Spalte xi×yi. So, das machen wir jetzt für alle Beobachtungswerte, die wir haben, sind ja nur 4. 15×20=300, 10×17=170, 25×30=750 und 40×37=1480. Das wollen wir natürlich nicht so stehen lassen, sondern wir brauchen wieder die Summe davon. Die Summe über alles ergibt jetzt also 300+170=470+750=1220+1480 macht in der Summe 2700. O.k. haben wir das auch, können jetzt also die empirische Kovarianz von x und y berechnen. Wir haben ja 1/n× die Summe über alle Produkte der Beobachtungswerte -x->×y->. Ich schreibe das jetzt Mal hier unten drunter, weil mir hier oben der Platz ausgeht. Wir haben also Sxy=1/4× die Summe der Produkte aller Beobachtungswerte, die wir hier haben, von 2700-x->×y->, also 22,5×26. O.k. das können wir jetzt wieder in den Taschenrechner eingeben, ausrechnen und wir kommen auf eine empirische Kovarianz von 90. Soweit so gut. Was können wir jetzt damit berechnen? Wir haben x->, y->, empirische Varianz von x, empirische Varianz von y, können damit also b berechnen. Wenn wir b haben, können wir damit a berechnen. O.k. wenn wir a und b haben, dann haben wir unsere Gerade. Wenn wir unsere Gerade haben, sind wir im Prinzip fertig. Wir können dann noch mal unsere Wertepaare einzeichnen, die Gerade dazu und dann gucken, wie gut die Gerade das denn wirklich abbildet. Gut machen wir das doch. Wir fangen natürlich damit an das wir b berechnen. a können wir ja noch gar nicht berechnen, solange wir b nicht haben. b ist die empirische Kovarianz von x und y geteilt durch die empirische Varianz von x. Also b=90, empirische Kovarianz von x und y, /131,25 ergibt, wenn wir das ausrechnen, gerundet ungefähr 0,69. b ist ja unsere Steigung, die Steigung unserer Geraden. Wir haben also eine Steigung von ungefähr 0,69. a ist unser y-Achsenabschnitt, den wir jetzt berechnen wollen. a=y->-b×x->, y->=26-b=0,69×x->=22,5 und das ergibt ungefähr 10,57. O.k. wir haben jetzt also a und b. a hier 10,57, b=0,69 und damit haben wir unsere Gerade. Unser y Dach. Unser y Dach ist nämlich, ja es ist jetzt hier alles ein bisschen voll, ich schreib das mal hier unten hin, unsere Geradengleichung y Dach=10,57+0,69x. Das ist unsere Geradengleichung, die wir haben wollen. Gucken wir uns das noch mal in einem Streudiagramm an, wo wir dann unsere Gerade reinlegen. O.k. ich habe jetzt hier noch mal unsere 4 Punkte eingezeichnet, unsere 4 Wertepaare und wir zeichnen jetzt unsere Gerade, unser y Dach mit ein. Wir haben ja den y-Achsenabschnitt von 10,57, also liegen wir hier am Punkt, und wenn wir dann noch den Wert für 40 ausrechnen, 10,57+0,69×40 liegen wir so bei 38 ungefähr. Und können jetzt also hier unsere Gerade einzeichnen. Die beginnt hier und geht dann also durch bis 40. Das hier ist unser y Dach. Warum ziehen wir die Gerade jetzt nicht weiter? Zum Beispiel hier bis 0 oder hier auch bis vor mir aus 100? Diese Gerade entspringt ja einer Stichprobe. Das heißt, sie ist auch nur gültig in diesen Grenzen die diese Stichprobe bildet. Unser Kleinster x Wert ist in unserer Stichprobe 10 und unser größter 40. Das heißt, wir dürfen die Gerade auch nur in diesen Bereichen zeichnen und interpretieren. Wenn wir sie jetzt weiterzeichnen würden bis Sagen wir 0, dann wäre das, dann würden wir ja voraussagen, dass wenn jemand 0 Punkte in der Statistik 1 Klausur kriegt, er immer noch 10 Punkte in Statistik 2 kriegen würde. Ob das jetzt so ungefähr der Wahrheit entspricht, weiß ich nicht. In die andere Richtung natürlich genau das Gleiche. Wenn wir sagen, o.k. jemand kriegt 50 Punkte in Statistik 1, dann bekommt er nach unserer Vorhersage 55 Punkte in Statistik 2. Wäre vielleicht noch eine logische Schlussfolgerung, aber ist aus unserer Stichprobe nicht ersichtlich. Das ist eine Stichprobengerade und darf deshalb nur in den Grenzen, die uns diese Stichprobe auch liefert, interpretiert und gezeichnet werden. So, das war die Übung zu der Regressionsanalyse. Einfach mal eine lineare, einfache Regression gemacht. Ihr seht, das sind ganz schön viele Schritte nötig, um dahin zu kommen. Wir mussten hier einiges ausrechnen, bevor wir überhaupt erst die Gerade hatten und ihr könnt euch jetzt vorstellen, wie umständlich das Ganze wäre, wenn wir eine nichtlineare Regressionsanalyse machen würden. Oder auch mehrere Einflussgrößen statt nur einer, sagen wir, wenn wir 5 nehmen würden, da wäre das Ganze natürlich deutlich komplizierter. Ich bedanke mich fürs Zuschauen. Das wars für heute. Sage bis zum nächsten Mal und tschüs!

Informationen zum Video
2 Kommentare
  1. Default

    Wo wird gezeigt wie man SQR SQX und SQY ausrechnet??

    Von Tom Matthes, vor mehr als einem Jahr
  2. Default

    Hallo Jona, in diesem Video haben wir nun allerdings nur yDach ausgerechnet. Bräuchten wir für die Regressionsanalyse nicht auch noch die Summe von (yi-yDach)?

    Von Philbc, vor fast 4 Jahren