Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik Video 39: Regressionsanalyse

Hallo. Schön, dass ihr alle wieder zuguckt. Wir starten heute mit einem neuen Block, mit der Regressionsanalyse. Die Regressionsanalyse ist ein bisschen anders als das, was wir bisher in der Korrelation gemacht haben. Wir sagen hier nämlich nicht mehr: OK, oh, wir haben 2 Merkmale, wir schmeißen mal alles in einen Topf und gucken, was am Ende dabei rauskommt, ob die abhängig voneinander sind oder unabhängig, sondern bei der Regressionsanalyse gehen wir immer mit einer bestimmten Idee schon in die Analyse. Wir haben unser y und würden das gerne durch x erklären. x ist hierbei ein unabhängiges Merkmal und die sogenannte Einflussgröße. Wo hingegen wir bei y davon ausgehen, dass y abhängig ist. Das ist dann die Zielgröße. Wenn wir uns das klar machen wollen, also wir sagen, wir sind ein Bauer und interessieren uns, wie denn unsere Ernteerträge von der Regenmenge abhängen, die im Jahr gefallen ist. Dann wären y unsere Ernteerträge, die wären abhängig von der Regenmenge, die gefallen ist und das ist die Zielgröße, die wir am Ende ermitteln wollen und x wäre also jetzt die Niederschlagsmenge, die über das Jahr gefallen ist. Die ist unabhängig, daran können wir nichts machen, und das ist eine sogenannte Einflussgröße. Man kann sich natürlich auch noch vorstellen, dass vielleicht unser Ernteertrag auch noch von anderen Faktoren abhängt, als jetzt nur von der Regenmenge. Vielleicht hängt es auch noch ab von dem Dünger, den wir verwenden, wie viel Dünger wir verwenden, wann wir das aussähen, wie viel die Sonne scheint - all solche Sachen. All das kann man in der Regression auch mit berücksichtigen. Wir gucken uns jetzt erst mal ein kleines Übersichtsschema an, was man in der Regression alles machen kann und wie das funktioniert. Bei einer Regressionsanalyse gibt es mehrere Ansätze, die wir wählen können. Wir können eine Einfachregression machen oder eine Mehrfachregression. Die Einfachregression bedeutet, wir haben unsere Zielgröße y, also zum Beispiel unseren Ernteertrag, und machen das von einer Einflussgröße abhängig, also zum Beispiel von der Niederschlagsmenge. Eine Mehrfachregression bedeutet, wir haben unsere Zielgröße, unseren Ernteertrag, und machen das von im Prinzip beliebig vielen Einflussgrößen abhängig - von der Niederschlagsmenge, dem Dünger, von der Sonnendauer, von der Temperatur vielleicht auch, also im Prinzip beliebig viele Einflussgrößen. Das heißt, das ist immer die 1. Entscheidung, die wir machen. Machen wir eine Einfachregression oder eine Mehrfachregression? Die 2. Entscheidung, die wir treffen: Machen wir eine lineare Regression oder eine nicht lineare Regression? Das heißt, setzen wir voraus oder gehen wir mit der Behauptung oder Annahme in die Analyse, dass der Zusammenhang zwischen y und x linear ist oder nicht. Und, das habe ich im letzten Video schon angedeutet, die Annahme treffen wir natürlich nicht beliebig, sondern wir gucken uns die Wertepaare an. Wenn wir also ein Streudiagramm haben, was ungefähr so aussieht, würden wir sagen: OK, da scheint es keinen perfekten, schon aber linearen Zusammenhang zwischen y und x zu geben, also machen wir einfach mal eine lineare Regressionsanalyse. Wenn wir jetzt aber ein Streudiagramm haben, was vielleicht so aussieht, könnten wir natürlich auch eine lineare Regressionsanalyse machen, wäre wahrscheinlich aber nicht sonderlich sinnvoll, weil wir ja schon sehen: Aha, der Zusammenhang scheint irgendwie nicht so richtig linear zu sein. Es gibt unterschiedliche, sagen wir mal, Schwierigkeitsgrade. Die lineare Einfachregression ist noch sehr gut machbar. Die nicht lineare Einfachregression ist vielleicht, dadurch, dass wir nur eine Einflussgröße haben, auch noch möglich. Die lineare Mehrfachregression ist mit Blatt und Stift nicht mehr zu knacken, da braucht man dann schon Computer dafür und für die nicht lineare Mehrfachregression, das ist schon richtig tricky. Deshalb beschäftigen wir uns auch, wie ihr wahrscheinlich auch in eurem Studium, ausschließlich mit der linearen Einfachregressionsanalyse und gucken uns also das mal an. Die Idee ist eigentlich, dass wir uns eine Gerade bauen, die wir hier in unser Streudiagramm reinlegen können, die dann das Verhältnis von y zu x optimal beschreibt. Was da für eine Idee hinter steckt, das gucken wir uns jetzt mal an. Wir haben ja schon gesagt, unsere Ausgangssituation ist immer, wir haben ein Streudiagramm mit den eingezeichneten Wertepaaren und sagen: OK, der Zusammenhang könnte annähernd linear sein. Wir wollen jetzt eine Gerade entwerfen, die diesen Zusammenhang, also quasi unsere Wertepaare, am besten beschreibt. Das heißt, wir wollen hier irgendwie eine Gerade reinlegen, sodass dieser Zusammenhang optimal beschrieben wird. Das heißt, wir suchen die beste Gerade. Wir suchen die beste Gerade y-Dach, das wäre also hier unsere Gerade, von a+bx, die diesen Zusammenhang am besten beschreibt. Was muss diese Gerade für Bedingungen erfüllen, damit der Zusammenhang optimal beschrieben wird? Naja, die Abstände unserer Punkte zur Geraden sollten in der Summe möglichst klein sein. Das ist ja immer unser Ziel: sollte in der Summe möglichst klein sein. Was ist also hier unser Ziel? Wir haben die Summe über all unsere Punkte und wir sehen, das sind alles Abstände in y. Das heißt, die Abstände unseres yi zu unserem y-Dach soll irgendwie minimal werden. Wie können wir das jetzt erreichen? Wir können uns erst mal angucken: Diese Summe, kann die 0 werden? Ja, die kann 0 werden, weil wir hier Punkte haben, die unter der Geraden liegen, und Punkte haben, die über der Geraden liegen. Das ist nicht schön, wenn die 0 wird, weil, es könnte mehrere Geraden geben, die hier 0 liefern. Vielleicht auch, weil dann ein Ausreißer dabei ist, weil die Gerade so liegt. Das heißt, wir wollen hier eigentlich wieder das Vorzeichen eliminieren. Gut, wie machen wir das? Wie gesagt, es gibt da unterschiedliche Möglichkeiten. Wir können hier einmal Betragstriche drum setzen, dann eliminieren wir damit das Vorzeichen. Oder wir machen das so, wie beispielsweise bei der Varianz, und quadrieren das Ganze und sagen, okay, das soll jetzt minimal sein. Es hat sich tatsächlich hier mal wieder das Quadrat durchgesetzt, damit kann man einfach besser rechnen. Das heißt, wir nehmen diese Formel, sagen, wir wollen unser yi minus unser y-Dach, also im Prinzip die Abstände unserer Punkte von der Geraden, die quadrieren wir wieder, bilden die Summe, und wenn das minimal ist, dann haben wir die optimale Gerade gefunden, die hier unseren Zusammenhang zwischen y und x beschreibt. Das kann man ausrechnen und das machen wir.  Gucken wir uns das Ganze also noch mal an. Das Ganze nennt man KQ-Methode, also die Methode der kleinsten Quadrate, weil wir ja unsere Quadrate nehmen und die minimieren wollen. Die andere Methode hätte man Methode der kleinsten absoluten Abweichungen genannt. Wir haben hier also unser yi minus y-Dach, also unsere Gerade zum Quadrat, darüber die Summe. Wenn man jetzt für y-Dach das einsetzt, was wir gerade hatten, also a+bx, hat man hier eine Formel, mit der man rechnen kann. So, was wollen wir jetzt also machen, wenn wir das ableiten? Nein, was wollen wir machen, wenn wir das minimieren wollen? Antwort habe ich schon selber gegeben: natürlich ableiten. Wenn wir das ableiten, können wir das natürlich nach a ableiten und nach b ableiten. Einmal das Minimale für a und einmal das Minimale für b. Wenn wir das ableiten nach b, wenn wir das nach b ableiten, fällt eine ganze Menge raus. Ich überspringe das einfach einmal, ich werde das nicht vorrechnen. Aber, was herauskommt ist: b=Sxy, das kennen wir, das ist die empirische Kovarianz, geteilt durch (Sx)2, das heißt, die empirische Kovarianz geteilt durch die Varianz von x. Was das aussagt, ist: Unsere optimale Gerade y-Dach, bei der hier die Summe aller Quadrate der Abweichung minimal ist, also in dieser optimalen Gerade, ist unser b immer empirische Kovarianz x und y geteilt durch Varianz von x.  Wenn wir das jetzt nach a ableiten, dann kommt da raus für a: a ist nichts anderes als y(quer)-bx(quer). Also: das arithmetische Mittel von y minus b mal das arithmetische Mittel von x. Unsere optimale Gerade setzt sich also immer aus diesen beiden Teilen zusammen. Das heißt, unser b ist immer: die empirische Kovarianz geteilt durch die Varianz von x und unser a ist immer: arithmetisches Mittel von y minus b mal das arithmetische Mittel von x. Gut, mit diesem Wissen können wir auch mit unserem Datensatz immer die lineare Einfachregression machen und immer die optimale Gerade zur Beschreibung dieses Zusammenhangs, den wir in unseren Merkmalen vermuten, aufstellen. Das war auch schon mein Video zur Regressionsanalyse. Ich hoffe, ihr habt so weit alles verstanden. Wir machen natürlich im nächsten Video noch eine kleine Übung dazu. Da wird dann dieser Part auch noch mal gesondert dran kommen, also, wir werden unsere Gerade aufstellen und vielleicht auch überprüfen. Ich bedanke mich fürs Zuschauen, hoffe, ihr seid auch beim nächsten Mal wieder mit dabei und sage: Tschüss!                             
                                                                              

Informationen zum Video
4 Kommentare
  1. Default

    Ich fand das Video richtig gut. Ich hätte mir nur die Ableitungen nach a und b etwas ausführlicher gewünscht. Ich glaube dir natürlich, dass das stimmt. Ich hätte es halt nur auch gerne verstanden...

    Von Malinalina, vor etwa 2 Jahren
  2. Default

    Jona, du machst das wirklich super! Ich schlage mich schon ewig mit Statistik rum und habe das nie wirklich verstanden. Bei dir klingt das alles so einfach. Ich danke dir für den gesamten Kurs.

    Von Amaras, vor fast 4 Jahren
  3. Default

    In dieser Vorlesung gibt es kein eigenes Video zur bivariaten Regression. Das Video ist absichtlich so gemacht, weil es eine Statistik I Einführungsvorlesung ist. Wenn du aber konkrete Fragen zur bivariaten Regression hast, kannst du mich gerne anschreiben.

    Von Statistik Jona, vor etwa 5 Jahren
  4. Default

    gibt es ein Video zur Bi-variaten Regression? Dieses Video ist viel zu oberflächig.

    Von Nareva, vor etwa 5 Jahren