Textversion des Videos

Transkript Statistik II - Video 7: Student-t-Verteilung

Herzlich willkommen zusammen! Auch heute werden wir uns wieder mit einer stetigen Wahrscheinlichkeitsverteilung auseinandersetzen, in diesem Fall heute mit der Student-t-Verteilung. Diese Verteilung an sich hat verschiedene Namen. Sie wird entweder nur Student-Verteilung genannt, einfach nur t-Verteilung oder, wie wir sie jetzt hier einfach benennen, Student-t-Verteilung. Namensgeber - noch ein kleiner Ausflug dazu - dieser besonderen Verteilung ist der Herr Gosset gewesen, ein britischer Chemiker, der in der englischen Brauerei Guinness gearbeitet hat. Dort hat er mit kleinen Stichproben zu tun gehabt und gab denen das Pseudonym "Student". Dank ihm dürfen wir uns heute mit dieser Verteilung auseinandersetzen. Wie gewohnt werden wir zunächst mit dem Anwendungsbereich beginnen, um uns später mal die formalen Definitionen anzuschauen, den Grafen an sich und ein kurzes Beispiel am Ende noch. Was lässt sich Allgemeines zu dieser Verteilung sagen? Sie ist auch einzuordnen in die statistischen Prüfverteilungen, wie auch die letzten Verteilungen, die wir bereits kennen gelernt haben. Insbesondere ist sie charakterisiert als Standardnormalverteilung kleiner Stichprobenumfänge. Da werden wir später noch dazu kommen, wieso das der Fall ist. Und was noch hier besonders zu sagen ist: In der induktiven Statistik findet sie vor allem Anwendung. Dazu werden wir noch einige Videos später kommen und dieser Verteilung wieder begegnen. Das heißt, im Speziellen wird sie da verwendet für die Schätzung von Konfidenzintervallen über einen Erwartungswert, aber auch für weitere Hypothesentests. Kommen wir zu der formalen Definition der Student-t-Verteilung. Tja, was haben wir gegeben? Zunächst ist das hier die Formel für die Student-t-Verteilung für die Zufallsvariable T. Woraus besteht diese Zufallsvariable, wie setzt sie sich zusammen? Gut, wir haben gegeben 2 Zufallsvariablen. Eine Zufallsvariable Z - das wissen wir, das ist eine standardnormalverteilte Zufallsvariable mit den Parametern 0 und 1, Erwartungswert und Varianz, jeweils 0 und 1. Dann haben wir Y als Zufallsvariable. Diese Zufallsvariable ist Χ²-verteilt. Das haben wir bereits im letzten Video kennengelernt, was das bedeutet. Und wenn wir diese beiden Variablen nehmen, mit der zusätzlichen Voraussetzung, dass sie stochastisch unabhängig sind, ergibt sich daraus, aus dem dem Quotienten von Z und der Χ²-verteilten Zufallsvariable y durch den Parameter der Χ²-Verteilung ν, haben wir unsere Zufallsvariable T, die dann student-t-verteilt ist. Die formale Schreibweise ist dann dieses Format, dass wir sagen: t (für die Student-t-Verteilung) mit dem Parameter ν. So ergibt sich dann aus den verschiedenen Bausteinen unsere Student-t-Verteilung. Ergänzen wir an dieser Stelle noch die formale Definition der Student-t-Verteilung um den Erwartungswert und die Varianz. Die beiden Parameter sind hier definiert mit Erwartungswert von T=0 und der Varianz, bestehend aus dem Bruch ν/(ν-2), aus dem einzigen Freiheitsgrad der Student-t-Verteilung. Worauf deutet das jetzt hin mit dem Erwartungswert = 0? Wir sehen hier doch eine große Nähe zur Standardnormalverteilung, die hier ebenfalls verteilt ist bezüglich der Wahrscheinlichkeit um den Ursprung =0, eben mit dem Erwartungswert =0. Daher können wir auch schon auf die Approximationsmöglichkeit ein wenig schließen. Denn für ν>30, also der Parameter, die Anzahl der Freiheitsgrade ν für die Student-t-Verteilung, wenn dieser Parameter größer als 30 ist, können wir sagen, dass die studentverteilte Zufallsvariable näherungsweise standardnormalverteilt ist. Das heißt, das wäre dann die neue Zufallsvariable, die wäre dann normalverteilt mit den Parametern 0 und 1. So viel zur Approximation. Wir haben ja jetzt verschiedene Wahrscheinlichkeitsverteilungen kennengelernt, die unter bestimmten Voraussetzungen approximiert werden gegen andere Verteilungen. In dem Fall merken wir uns: die Student-t-Verteilung läuft für eine große Anzahl an Freiheitsgraden gegen die Standardnormalverteilung. Am Graph wird uns das Ganze dann gleich ein bisschen deutlicher. An dieser Stelle ergründen wir ein bisschen näher den Verlauf der Student-t-Verteilung. Der kommt uns bestimmt ein bisschen bekannt vor bereits. Denn wir sehen, er ist glockenförmig, er ist symmetrisch verteilt um einen bestimmten Erwartungswert, um den Erwartungswert 0. Hieran erkennt man noch mal die Nähe zur Standardnormalverteilung, die wir gerade kennengelernt haben. Die Verteilungsfunktion, wie gehabt, nähert sich dem Wert 1 an, dem Sättigungsniveau der 100%igen Wahrscheinlichkeit, so gesehen. So viel zum Verlauf. Dieser ähnelt, wie gesagt, der Standardnormalverteilung. Was ist der Unterschied? Das lässt sich hier jetzt nicht direkt herauslesen. Nur damit ihr es wisst, an sich ist der Verlauf ein wenig flacher als der der Standardnormalverteilung. So viel noch dazu. Gut, was haben wir nun hier vorliegen? Wir haben eine Menge Farben, eine Menge Zahlen da stehen. Gehen wir mal Schritt für Schritt durch. An sich können wir jetzt hier verschiedene Fragestellungen durchgehen. Nehmen wir erst mal ein Beispiel an: Wir sagen, wie groß ist die Wahrscheinlichkeit, dass x (das ist die Zufallsvariable) einen Wert ≤1,699 annimmt? Das wäre eine mögliche Fragestellung. Wie gehen wir an die Sache heran? Wir haben unser Tafelwerk wieder vorliegen, in dieser Tabellenform. Und da müssen wir dann einfach diesen Wert heraussuchen in der entsprechenden Verteilung eben, Student-t-Verteilung. Und dann bekommen wir in diesem Fall die Wahrscheinlichkeit 0,95 heraus. So gesehen visualisiert ist das hier. Das heißt, wir haben hier alle Werte drinnen bis 1,699, die letztendlich mit der Wahrscheinlichkeit 0,95 auftauchen werden, also zwischen dem Wert bis zur 1,699. Wie ist die Schreibweise? Hier diese Graphen, die ihr seht, sind für den Freiheitsgrad 29 gezeichnet und die Wahrscheinlichkeit 0,95 habe ich hier direkt markiert. Das ist die formale Schreibweise für diesen Fall. Das heißt, t deutet dann auf die Studentenverteilung hin, mit der Wahrscheinlichkeit 0,95 und dem Freiheitsgrad 29. Wenn wir das in, sage ich mal, formaler Rechenschreibweise durchnehmen, haben wir hier F, das steht für die Verteilungsfunktion - welcher Verteilung? - der Student-t-Verteilung, die Zufallsvariable T, und dieser Wert 1,699. Dieser Wert 1,699 entspricht genau dieser Stelle - so genau das an dieser Tafel eben möglich ist. Und wenn wir nun sagen: Wie groß ist die Wahrscheinlichkeit, dass T≤1,699 liegt? Dann haben wir die Wahrscheinlichkeit 0,95. Das sind diese Rechenspielchen, die später in der induktiven Statistik eben eine immense Rolle spielen. Eine gegenteilige Fragestellung könnte dazu lauten: Wie groß ist die Wahrscheinlichkeit? Also wir müssen hier unterscheiden: FT bedeutet der Funktionswert der Verteilungsfunktion für die Zufallsvariable, für den Wert, entspricht =0,95. Und das hier, P, also steht für Wahrscheinlichkeit, und dann den Ausdruck T>1,699. Das ist nun mal genau das Gegenereignis. Wir hatten uns zuvor von -∞ bis hier hin alle Werte angeschaut. Und nun sagen wir, okay, die restlichen Werte von 1,699 bis +∞, mit welcher Wahrscheinlichkeit tauchen die auf? Gegenereignis ist uns bekannt. Was nehmen wir? Wir nehmen die maximale Wahrscheinlichkeit 100%, ziehen davon unseren bekannten Funktionswert ab, also die Wahrscheinlichkeit für den Funktionswert 1,699, das wäre dann 1-0,95, und wir erhalten 0,05. Dieses 0,05 wird in der induktiven Statistik auch als Signifikanzniveau und mit α bezeichnet, wie ich es bereits mal angedeutet habe und wir uns das später noch anschauen können. Das heißt, spätere Fragestellungen könnten lauten: Mit welcher Wahrscheinlichkeit liegt die Länge des Brettes unter einem bestimmten Wert? Also da muss man jetzt wieder aufpassen, von welcher Verteilung wir hier reden. Aber solche Fragestellungen wären da denkbar. Und das sind dann so die Grundrechenschritte, die wir hierbei beachten müssen. Sprich, wir brauchen die Tabelle, wir müssen wissen, von welchen Parametern die Tabelle abhängig ist der entsprechenden Verteilung, in dem Fall eben von dem Parameter ν. Dann müssen wir noch die Tabelle für den Parameter ν, also die entsprechende Wahrscheinlichkeit, aussuchen. Das wäre auch der 1. Schritt. Es gibt für die verschiedenen Wahrscheinlichkeiten verschiedene Tabellen. In unserem Fall wäre das 0,95. Und dort würden wir dann den Wert für den Parameter 29 heraussuchen. Was gibt es noch zu beachten? Wenn wir sagen 0,95, müssen wir noch beachten, ob es sich um ein einseitiges oder ein zweiseitiges Intervall handelt. Das ist eine ganz beliebte Fehlerquelle. Hier ist ja gefragt ≤1,699, sprich wir gehen von hier komplett rüber; ein einseitiges Intervall betrachten wir hier also. Dementsprechend müssen wir hier auch nicht mehr viel ändern, 0,95 bleibt dann einfach bestehen. Hätten wir an dieser Stelle beispielsweise ein zweiseitiges Intervall, hätten wir gesagt: Wie groß ist die Wahrscheinlichkeit, dass der Wert zwischen 0 und 1,699 liegt? Dann hätten wir das noch transformieren müssen, das α dann so gesehen auch halbieren müssen. Aber ich will auch wieder an dieser Stelle nicht zu viel vorwegnehmen. Die nun folgenden Übungen in den nächsten Videos werden da für Klarheit sorgen. Das soll es an dieser Stelle auch bereits von der Student-t-Verteilung gewesen sein. Lassen wir uns noch mal kurz zusammenfassen, was wir heute gelernt haben. Wir wissen, dass die Student-t-Verteilung ebenso eine statistische Prüfverteilung ist. Im Speziellen wird sie noch genannt die Standardnormalverteilung kleiner Stichprobenumfänge. Wir sehen, wir sind hier im Bereich der kleinen Stichprobenumfänge. Warum kleine Stichprobenumfänge? Was passiert bei großen Stichprobenumfängen? Wir approximieren dann die Wahrscheinlichkeit gegen eine Standardnormalverteilung oder allgemein eine Normalverteilung ab einem bestimmten Parameter, ab einem Wert von ν>30. Ansonsten haben wir bereits hier anhand des Graphen einige Beispiele kennengelernt, wie mit diesen Verteilungen und Wahrscheinlichkeiten gerechnet wird. Aber Konkreteres dazu mit entsprechenden Aufgabenstellungen und ein wenig ausführlicherer Erläuterung folgt dann in den Übungen, wo das Ganze dann hoffentlich ein bisschen klarer wird. Von daher abermals vielen Dank für eure Aufmerksamkeit und bis zum nächsten Mal!

Informationen zum Video
3 Kommentare
  1. Img 5225 web

    Hallo Katharina,
    es gibt die Videos:
    Schätzfunktionen und Punktschätzung
    Gütekriterien von Schätzfunktionen
    Schätzprinzipien
    Begriff des Konfidenzintervalls
    Konfidenzintervalle für den Anteilswert
    Konfidenzintervalle für die Varianz

    Aber die hast du sicherlich schon längst ohne meine Hilfe gefunden.

    Viel Erfolg damit.
    VG
    Konrad

    Von Dr. Konrad Hnatow, vor mehr als 3 Jahren
  2. Default

    Hallo,
    gibt es schon Videos zu den Arten von Schätzverfahren (Punkteschätzer, Konfidenzintervalle)?

    Gruß
    Katharina

    Von Katharinade Funk, vor mehr als 3 Jahren
  3. Default

    Wäre echt super,wenn die fehlenden Videos noch kommen würden ;-)

    Gruß

    Von Lars Bayer, vor mehr als 4 Jahren