Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik II - Video 24: Schätzprinzipien

Herzlich willkommen zusammen! Schön, dass ihr heute wieder dabei seid. Ich habe heute die große Ehre, euch 2 Schätzprinzipien näher zu bringen. Wir haben hier diese 2 Methoden: die Maximum-Likelihood-Methode und die Kleinste-Quadrate-Schätzung. Diese werden wir uns heute näher anschauen. Was heißt das? Wir werden die Definitionen kennenlernen und ein Beispiel behandeln. Wozu brauchen wir das Ganze? Nun, es geht weiterhin darum, Informationen über Parameter der Grundgesamtheit zu erlangen aufgrund von Stichproben. Dazu geht es gleich weiter.
Kommen wir nun zu den Eigenschaften des ML-Schätzers, des Maximum-Likelihood-Schätzers, oder wie er auch gerne genannt wird, des Likelihood-Schätzers. Ja, das sind 3 Möglichkeiten, wie wir das Schätzprinzip nennen können. Wo kommt es her? Nun, es war ein Deutscher, unser lieber Gauß, der sich diese Herleitung des Verfahrens ausgedacht hat. Die breite Anwendung allerdings zu verdanken hat es dem englischen Statistiker Sir Roland Aylmer Fisher. Wir erinnern uns genau, es ist der von der Fisher-Verteilung, von der F-Verteilung, wie sie auch genannt wird, wie wir sie bisher genannt haben, genau. Ja, was gibt es zu den Eigenschaften zu sagen? Dem einen oder anderen kommen diese Begriffe hoffentlich bekannt vor, wer ein treuer Zuschauer der Vorlesung Statistik II ist. Asymptotisch erwartungstreu soll dieser Schätzer sein. Was heißt das? Genau, das heißt, dass die Zufallsvariable unserer Schätzfunktion hat einen Erwartungswert und dieser Erwartungswert, der soll dem tatsächlichen Wert des geschätzten Parameters entsprechen. Bei Fragen einfach noch mal in das letzte Video reinschauen. Ansonsten haben wir hier die Konsistenz, die gegeben sein muss. Was bedeutet das? Nun, das bedeutet nichts anderes, als dass für n gegen unendlich unser Schätzwert sich dem tatsächlichen Parameterwert annähren muss. Dann übrig geblieben ist die asymptotische Effizienz. Effizienz bedeutet, wenn wir verschiedene Schätzfunktionen miteinander vergleichen, soll die Schätzfunktion, die wir letztendlich auswählen, soll eine endliche Varianz haben und diese endliche Varianz soll, wie soll man sagen, die kleinste Varianz haben im Vergleich zu anderen Schätzfunktionen. Das ist eigentlich nur das, so gesehen, dass alle anderen Schätzfunktionen, alle potenziellen Schätzfunktionen eine größere Varianz haben. Somit soll die ausgewählte, die effizienteste Schätzfunktion sein. Nun, soweit zu den Eigenschaften unseres ML-Schätzers.
An dieser Stelle seht ihr die formale Definition des ML-Schätzers. Bitte nicht erschrecken. Das ist wirklich nur kurz hier die Funktion. Wir werden gleich im Anschluss noch ein Beispiel dazu behandeln, um ein wenig näher zu verstehen, worum es sich bei den ganzen vielen Zeichen hier handelt. Nur Mal so zum Aufbau dieser Funktion: Also unsere Likelihood-Funktion, unsere Schätzfunktion haben wir hier. Das ist L für Likelihood in Abhängigkeit dieser Parameter. Wofür stehen diese Parameter? Wir haben hier die Realisationen von Zufallsvariablen x1 bis xn und den Parameter q, den wir letztendlich schätzen wollen. Das sind die Parameter der Likelihood-Funktion an sich. Und nun, wie kommt das Ganze zustande? Wir haben hier unsere Dichtefunktion, unsere Dichtefunktion über die Wahrscheinlichkeit, wie wir sie nun Mal kennen. Diese ist abhängig von unseren Realisationen und dem Parameter q. Was wird nun gemacht? Wir suchen letztendlich das Maximum der Likelihood-Funktion, sprich unter welchem Parameter q, wir probieren verschiedene Parameter q aus, unter welchem Parameter q die Wahrscheinlichkeitsdichte am höchsten ist. Was müssen wir dafür tun, wenn wir das Maximum einer Funktion bestimmen wollen? Genau, ableiten, gleich 0 setzen. Das machen wir dann auch. Teilweise ist es ein bisschen einfacher, das mit den logarithmierten Versionen der Likelihood-Funktion zu tun. Diese sehen wir hier. Das heißt hier LL für logarithmierte Likelihood-Funktion. Weiterhin ist diese abhängig von den Realisationen der Zufallsvariable x1 bis xn und den Parameter q, also Realisationen der Zufallsvariablen natürlich. Ja, was haben wir hier? Daraus, wenn wir das logarithmieren, ergibt sich hier dann nun Mal die Summe der logarithmierten Funktionen. Das heißt, die Zwischenschritte sparen wir uns hier. Nehmt das so gesehen zur Kenntnis, die normale Funktion, die logarithmierte Funktion, f ist unsere Dichtefunktion, die wir betrachten und die Parameter x und q haben wir gerade auch kennengelernt.   So, gleich werden wir jetzt ein praktisches Beispiel uns anschauen. Kommen wir zu ein wenig praktischer Anwendung bezüglich des ML-Schätzers. Wir halten uns noch mal vor Augen, was wir überhaupt erreichen wollen. Wir haben die Likelihood-Funktion. Diese Likelihood-Funktion ist abhängig von den Realisationen der Zufallsvariable aus einer Stichprobe und dem Parameter q. Allgemein q, in diesem Beispiel jetzt hier schon, wenn wir das jetzt gerade untersuchen wollen, den Erwartungswert µ (My). Nun, was schauen wir uns jetzt genau an? Es geht um die Dichtefunktion, und die Dichtefunktion an sich ist dann abhängig von den Realisationen der Zufallsvariable, die wir gegeben haben. Also wir haben aus einer Grundgesamtheit, entnehmen wir eine Stichprobe, nehmen diese Realisationen der Zufallsvariablen als gegeben. Das Einzige, was wir jetzt noch verändern, die Stellschraube, an der wir drehen, ist der Parameter q. Und für diesen Parameter q setzen wir theoretisch alle möglichen Werte ein und schauen, wo die Wahrscheinlichkeitsdichte am höchsten ist, sprich, welcher Parameter q so gesehen der beste Schätzer ist, dass wir letztendlich den Wert rausbekommen. So, wie finden wir das raus? Wir haben so gesehen unsere Dichtefunktion, die hat ja ein Maximum und dieses Maximum ist abhängig von q. Das heißt, was machen wir? Wir leiten die Funktion ab, die wir haben und setzen sie gleich 0. Das so zum groben Plan. Wenn wir das haben, haben wir quasi den entsprechenden Schätzwert, den wir brauchen, um den richtigen Parameter schätzen zu können. Das ist das, wo wir hinwollen und jetzt zu dem, was hier an dieser Tafel steht. Das ist jetzt so gesehen das praktische Beispiel, wie wir den ML-Schätzer rausbekommen für den Erwartungswert µ. Nun, also was haben wir zunächst gegeben? Wir haben zunächst gegeben die Funktion, das ist die Dichtefunktion der Normalverteilung. Die hat der eine oder andere vielleicht schon Mal gesehen, kann man noch mal nachschlagen. Also die Dichtefunktion der Normalverteilung, die abhängig ist von x und µ, wenn wir diese nun in die Likelihood-Funktion packen, wir können ja noch mal ein Stück zurückswitchen, dann ist es nichts anderes, als dass wir sagen, wir haben Pi. Also, dass es quasi alles miteinander multipliziert wird, in Abhängigkeit von xi, der Laufvariable, also die Likelihood-Funktion mit den Faktoren, die sich so ergeben. Was habe ich vorher gesagt? Meistens ist es einfacher, die logarithmierte Version der Likelihood-Funktion hinzuzunehmen. Diese sieht dann folgendermaßen aus, die mathematischen Schritte erspare ich uns jetzt in dem Moment. Ich sage Mal es ist an sich wahrscheinlich auch recht unwahrscheinlich, dass derartige Umformungen gefragt werden. Ich lehne mich Mal mutig so weit aus dem Fenster hinaus. Wichtig sind eher die Prinzipien des ML-Schätzers und dass man versteht, wozu wir das Ganze machen und natürlich die entsprechende Schätzfunktion kennen für den jeweiligen Parameter. So, wie gesagt, das hier ist nichts anderes als die logarithmierte Likelihood-Funktion. Diese, wie gesagt, leiten wir jetzt ab. Wir haben ja hier die Abhängigkeit von mehreren Variablen. Das heißt, wenn wir hier ableiten, dann partiell, partiell nach µ. Das ist ja das, was uns interessiert. Das ist ja der Parameter, der geändert wird. Wir setzen ja quasi wie gesagt für den Parameter q, sagte ich eingangs. Und hier ist jetzt nun der Parameter µ, speziell für dieses Beispiel, der sich verändert und für den wir die maximale Dichte haben wollen. Dementsprechend, wie vorgewarnt, nach µ abgeleitet, ergibt dann das hier. Das lässt sich wiederum umformen in diese Form und hier habe ich gleich den Schritt gemacht, die Ableitung gleich 0 zu setzen. Wenn wir die Ableitung gleich 0 setzen, sehen wir, wir haben hier ein Produkt als Hauptkern. Dieser Teil fällt so gesehen weg, wenn wir das hier rüber multiplizieren. Das heißt, wir haben so gesehen diese Klammer = 0 dastehen als Rest. Das ist dann auf die andere Seite gebracht, sieht das dann so aus. Und wenn wir nun schauen, was wir hier haben: Wir wollen ja für µ das Maximum haben. Das heißt, das ist unsere Funktion, die wir jetzt nach µ auflösen, weil wir wollen ja wissen, wie ist denn unser bester Schätzer. Und dieser beste Schätzer entspricht dann eben diesem My, hier als My Dach. Das heißt, wir lösen nach µ auf, ziehen das n rüber. Das heißt, unser Schätzwert µ entspricht = 1 / n und die Summe aller xi. Und das wissen wir durch unsere statistischen Vorkenntnisse, die wir uns bisher mühsam erarbeitet haben, wissen wir, dass das dem Stichprobenmittelwert entspricht. Also die Quintessenz dieser ganzen Sache bedeutet dann, das so gesehen der beste Schätzwert für den Erwartungswert, ist der Stichprobenmittelwert. Also der Mittelwert, den wir aus der Stichprobe entnehmen können, ist tatsächlich der beste Schätzwert. Das heißt, hier haben wir mit dem ML-Schätzer, mit diesem Verfahren, mit diesem Prinzip, das wir gerade hier erlernt haben, haben wir das bewiesen, was wir eigentlich schon wussten. Aber das als eine Methode, wie man darauf kommen kann.   An dieser Stelle lernen wir das zweite Schätzprinzip kennen, nämlich den KQ-Schätzer, Kleinste-Quadrate-Schätzer oder OLS-Schätzer, wie er auch genannt wird, ordinary least squares estimator. Dieses Schätzverfahren ist zurückzuführen abermals auf unseren Carl Friedrich Gauß, der sich damit beschäftigt hat und dieses Verfahren hergeleitet hat. Ja, warum ist es wichtig? Nun, im Gegensatz zum Maximum-Likelihood-Verfahren braucht man hier keine Kenntnis der Verteilung der Grundgesamtheit. Ja, wir haben das gerade in dem Beispiel gesehen. Wir mussten wissen, dass die Grundgesamtheit normal verteilt ist oder wir mussten es zumindest annehmen aufgrund gewisser Informationen oder Eigenschaften, die wir im Voraus bestimmt haben. Das brauchen wir hier nicht. Darüber hinaus ist dieser Schätzer auch erwartungstreu, konsistent. Ja, die Definition, ein kurzes Beispiel werden wir gleich sehen. Kommen wir an dieser Stelle zur formalen Definition des KQ-Schätzers. Nun, es geht um kleinste Quadrate. Kleinste Quadrate wovon? Nun, wir bilden die Differenz von Realisationen der Zufallsvariablen aus unserer Stichprobe, wie gehabt xi und dem entsprechenden Schätzwert des gesuchten Parameters, hier dargestellt als Groß-Theta. Denn diese Differenz soll quadriert werden und die Summe dieser entsprechenden Werte soll möglichst gering sein. Das ist eigentlich die Hauptbotschaft. Also die Summe der quadrierten Differenz soll möglichst gering sein. Möglichst gering ist in dieser Form hier dargestellt, dass wir sagen es soll kleiner sein, als das Pendant dazu mit irgendeinem anderen Schätzungswert. Einem anderen Schätzwert, der sich aus einer Schätzfunktion ergibt. Das heißt, dafür steht das "Groß-Theta Dach" da. Das ist der Schätzwert, der sich ergibt aus einer entsprechenden Schätzfunktion und genau diese suchen wir ja. Gleich gibt es ein Beispiel dazu. Ja, an dieser Stelle werden wir praktisch, den OLS-Schätzer berechnen. Das heißt, was machen wir? Wir haben hier die Formel. Das sind die kleinsten Quadrate xi - unseren Schätzwert µ Dach. Das heißt, auch hier, wie beim Maximum-Likelihood-Verfahren, wollen wir den Schätzwert für den Erwartungswert berechnen. Ja, wie gehen wir vor? Wir haben bereits gesagt im Gegensatz zum Maximum-Likelihood-Verfahren, wo wir ja das Maximum gesucht haben, die maximale Wahrscheinlichkeitsdichte für einen entsprechenden Parameter q, suchen wir hier das Minimum dieser Funktion, weil wir ja wollen, dass die Summe dieser Quadrate möglichst klein ist. Also was machen wir? Maximum suchen, Minimum suchen, gleiches Vorgehen, ableiten, gleich 0 setzen, kennen wir. Das heißt, so sieht dann die Ableitung aus. Die wird gleich 0 gesetzt. Das ist unser entsprechendes Verfahren. Was ergibt sich? Dem einen oder anderen mag es schon wieder bekannt vorkommen, genau, eine ähnliche Situation wie beim letzten Verfahren, das wir benutzt haben. Letztendlich gilt es, das hier gleich 0 zu setzen. Durch Umformen erhalten wir wieder µ Dach, also unseren Schätzwert. Das ist ja der, der gesucht ist. Wir suchen ja den besten Schätzer für einen entsprechenden Parameter, in dem Fall den besten Wert für den Parameter µ und dieser ist abermals der Stichprobenmittelwert.   Also was haben wir gesehen? Beide Verfahren also angewandt auf den Parametererwartungswert kommen zum gleichen Ergebnis, nämlich, dass die perfekte Schätzfunktion für den Erwartungswert gleich dem Stichprobenmittelwert entspricht. Das war es auch schon wieder von dieser Lektion. Ich bin mir sicher, wir haben auch heute wieder richtig viel gelernt. Also was haben wir uns angeschaut? 2 Schätzprinzipien, nämlich das Maximum-Likelihood-Verfahren und die Methode der kleinsten Quadrate. Was hat das für einen Sinn? Nun, wir wollen schauen, wie wir die perfekte, eine sehr gute Schätzfunktion bekommen für einen entsprechenden Parameter, der uns interessiert aus der Grundgesamtheit. Das ist der wahre Sinn dahinter. Wir haben beide Verfahren ja durchexerziert an Beispielen, nämlich an dem Parametererwartungswert. Zu welchem Ergebnis sind wir gekommen? Beide Verfahren kommen zum gleichen Ergebnis. Wie geschieht das Ganze? Beim Maximum-Likelihood-Verfahren mussten wir das Maximum bestimmen, das Maximum für die Wahrscheinlichkeitsdichte, wenn wir einen entsprechenden Parameter einsetzen. Und bei der Methode der kleinsten Quadrate mussten wir das Minimum bestimmen. Beides recht ähnliche Verfahren, beides gleiche Ergebnisse, sodass wir unsere Formelsammlung auch mit dieser Schätzfunktion beruhigt erweitern können und wissen, wie wir entsprechende andere Parameter mit diesen Schätzprinzipien berechnen können. Von daher, ich hoffe, es hat euch ein bisschen Freude bereitet. Bleibt Statistik treu und bis zum nächsten Mal.        

Informationen zum Video
3 Kommentare
  1. Default

    Muss Saxum leider zustimmen, auch in meinem Fall bist Du aus dem Fenster gefallen... Der Prof meiner Uni findet die Herleitung und vor allem jegliche Umformungen ganz prima. Schade, dass zur Likelihood-Funktion nicht mehr gesagt wird bzw. zumindest eine Beispielaufgabe komplett gerechnet wird (nicht nur angeschnitten).

    Falls sonst noch wer im Prof-Buch für den Log-ML eine Formel mit Produktzeichen statt Summenzeichen hat, kleiner Tipp: Wenn man das ln() vor das Produktzeichen zieht (bzw. alles in ln setzt), kommt es auf das selbe raus, wie die Formel hier. ;)

    Also: LL(xi,q) = ln(II f(xi,q))

    Von Cuibono, vor mehr als 3 Jahren
  2. Default

    Hallo! Ist denn geplant, in den nächsten Wochen oder Monaten noch fehlende Videos zu ergänzen (zB 25, 26)? Man sollte sich natürlich an das halten, was in der eigenen Uni in Vorlesung / Übung gemacht wird, aber die Videos sind nochmal eine gute Unterstützung.

    Von Dan Berlin2003, vor etwa 4 Jahren
  3. Default

    Tja, ich kann Dir verkünden: Du bist vom Fenster gefallen.

    An der LMU werden genau ML-Schätzer und ihre Herleitungen gefragt. Sehr schade, dass du genau das weggelassen hast. Wir haben unsere Klausur schon rum, aber evtl. wäre das für Nachkommende ganz hilfreich.

    Von Saxum, vor mehr als 4 Jahren