Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik II - Video 49: Der Chiquadrat-Anpassungstest

Herzlich willkommen zusammen. Schön, dass ihr heute wieder dabei seid. Wir werden uns gemeinsam heute den Chiquadrat-Anpassungstest anschauen. Nun Chiquadrat-Anpassungstest, der Name ist hier Programm. Warum wird der Test nach einer Verteilung benannt? Man kann es sich denken, die Testgröße ist entsprechend chiquadratverteilt. Noch wichtiger vielleicht die Frage: Wozu brauchen wir diesen Test überhaupt? Nun, dieser Test gibt uns Aufschlüsse darüber, ob eine bestimmte Verteilung vorliegt oder nicht. Das heißt, wir vergleichen die Verteilung unserer Stichprobe mit einer hypotetischen Verteilung, die wir für dieses Experiment annehmen und können dann sagen, ob diese Verteilung tatsächlich vorliegt oder eben nicht. Ein Beispiel hiefür kann sein, wenn wir einen Würfel nehmen und wir wollen schauen, ob die Ereignisse gleich verteilt sind, also ob es ein idealer Würfel ist. Ja, diese Verteilung kann man unter anderem prüfen, das heißt unsere altbekannte Struktur, wie wir uns die Tests genau anschauen. Wir beginnen zunächst mit einer Aufgabenstellung über Voraussetzungen und der 0-Hypothese, bis hin zur Testentscheidung wieder. Ja, am Ende dieses Videos folgt noch ein Beispiel zur Erläuterung. Das heißt, wie gehabt ein wenig Theorieeingangs, ein bisschen zum mitschreiben und zum verstehen und zum Ende her mit einem Beispiel zum richtigen Verständnis. So, das heißt nach wie vor muss es sich um eine Zufallsstichprobe handeln bei unserem Experiment und die Aufgabenstellung wie bereits gesagt, wir überprüfen, ob die vorliegende Verteilung einer hypothetischen Verteilung entspricht. Die Voraussetzungen dafür müssen sein, dass es sich um zufällig entnommene Stichprobenelemente handelt und daraus resultieren dann die Hypothesen. Einerseits, also es ist immer die gleiche Hypothese, nur mit unterschiedlichen Verteilungen, die wir uns hier anschauen. Das heißt, einerseits können wir uns die Verteilungsfunktion anschauen, indem wir sagen, gut die vorliegende Verteilungsfunktion Fx (x) entspricht einer hypothetischen Verteilungsfunktion F0, wie 0-Hypothese von x. Also vergleichen wir hier die Verteilungen. Ein anderes Beispiel ist hier dass wir uns die Häufigkeitsverteilung anschauen. Hierbei können wir uns verschiedene Merkmale anschauen. Also wir können uns die Wahrscheinlichkeitsverteilung, die Häufigkeitsverteilung, relative Häufigkeit anschauen. es hibt hier verschiedene Herangehensweisen, wie man überprüfen kann, ob letztendlich die Verteilung einer hypothetischen entspricht oder nicht. Ja, hier sehen wir auch schon die Testgröße. Die Testgröße lautet hier Chiquadrat und die ergibt sich aus der Summe von verschiedenen Beobachtungen. Was haben wir nun hier? Wir haben jetzt hier hoj und hej. hoj steht für die beobachteten Werte und hej für die Erwarteten. Nun, erwartet deshalb, weil wir vergleichen, ob die Verteilung die wir vorliegen haben, eine entsprechend hypothetischen Verteilung entspricht. Nun und wenn wir von dieser hypothetischen Verteilung ausgehen, können wir natürlich, also wenn wir davon ausgehen, wissen wir auch was wir haben wollen. Was denn erwartet wird, wenn diese Verteilung vorliegt. Daher betrachten wir in unserem Test, betrachten wir die absoluten Häufigkeiten, das heißt die absoluten, erwarteten Häufigkeiten ergeben sich durch das Produkt aus n, also Stichprobenumfang × der relativen Häufigkeit. Allgemein können wir das eben für die Dichtefunktion im stetigen Fall bestimmen, diesen Test oder eben auch für die Wahrscheinlichkeitsfunktion im diskreten Fall. Hier gehen wir von den absoluten Häufigkeiten aus. Bilden hier also die Differenz zwischen dem, was wir beobachten, der absoluten Häufigkeit und der erwarteten Häufigkeit. Das wird quadriert und durch das erwartete Ereignis dividiert. Daraus bilden wir dann die Summe und dies ergibt unsere Chiquadrat-verteilte Testgröße mit dem Freiheitsgrad m-1. Nun, dann kommen wir auch schon zur Annahmekennzahl. Die Annahmekennzahl besteht hier nur aus einer oberen Grenze. Warum? Nun, wir vergleichen ja, ob die beobachtete Verteilung einer hypothetischen entspricht. Das heißt, die Ereignisse, die beobachteten und die erwarteten, sollten ja nicht allzuweit auseinander liegen. Das heißt, es gibt eine Obergrenze für, im übertragenem Sinne, die Anzahl der zu weit auseinander liegenden Ereignissen. Ja und wenn wir zu viele Ereignisse haben, die stark diwigieren, also zwischen beobachteten und erwarteten Wert, dann haben wir eine gewisse Obergrenze überschritten und in dem Fall ist dann die 0-Hypothese abzulehnen. Wenn, wie es hier mathematisch ausgedrückt ist, die chiquadrat-Verteilte Zufallsvariable Chiquadrat, wenn die über Co liegt und Co ergibt sich einfach aus der Tabelle für die Chiquadrat-Verteilung mit den entsprechenden Parametern 1-alpha, also unserem Segnifikanzniveau und den Freiheitsgraden m-1. Ja, dadurch dass wir sagen, wir überprüfen nur die eine sache, ob es übereinstimmt oder eben nicht, dementsprechend haben wir auch hier sogesehen nur eine Obergrenze und haben nicht diese Unterscheidung wieder zwischen 2-Seitigem und 1-Seitigem Test, Unter-, Obergrenze, sondern hier haben wir einfach ein Annahmebereich, der eine gewisse Obergrenze nicht überschreiten darf. Dazu gibt es jetzt erstmal, nach einem kurzen Hinweis noch ein Beispiel zum besserem Verständnis. An dieser Stelle sei noch der vollständigkeit halber ein Hinweis gegeben. Wofür der Chiquadrat-Anpassungstest denn noch so gelten kann. Und zwar gibt es grundsätzlich 2 unterschiedliche Problemklassen, auf die dieser Test anwendbar ist. Das eine ist die 0-Hypothese über eine vollspezifizierte Verteilung, das heißt eben nehmen wir Art der Verteilung, dass wir sagen Gleichverteilung und T-Verteilung oder was anderes. Haben wir noch die entsprechenden Parameter gegeben, bzw. durch die 0-Hypothese vorgegeben. Also die einzelnen Parameter sind dann in der 0-Hypothese integriert. Das ist die eine Möglichkeit. Wenn das nicht vorgegeben ist, dann bedienen wir uns der entsprechenden Stichprobenfunktionen als Schätzungen für die Parameter, die wir brauchen. Also das einfach nur grundsätzlich. Die 2 unterschiedlichen Szenarien, die es noch geben kann in der Aufgabenstellung und wenn wir die Stichprobenfunktion als Schätzung verwenden müssen, dann haben wir die Anzahl der Freiheitsgrade auf m-g-1. Das ist die Anzahl der Freiheitsgrade. Noch ein Hinweis, wenn wir Verteilungen vergleichen wollen aufgrund von 2 Stichproben, also 2 Verteilungen aufgrund von 2 Stichproben, nicht mit einer hypothetischen Verteilung oder eben bei kleinen Stichproben, benutzen wir dann den Comonbegriff Smirnoff-Test, Commonbegriff Smirnoff-Anpassungstest, wenn wir es ganz genau nehmen und den gibt es auch noch in einem anderem Video zu sehen. Also das hier noch einige Hinweise am Rande und jetzt wird es aber Zeit für ein konkretes Beispiel. Da sind wir auch schon bei unserem Beispiel zum Chiquadrat-Anpassungstest. Ja, das sind jetzt schon mal viele Informationen auf ein mal. Bitte lasst uns das einfach mal Schritt für Schritt gemeinsam durchgehen. Was haben wir gegeben? Folgendes Szenario: Wir wollen überprüfen, ob ein Würfel ideal ist, das heißt, ob er gleich verteilt ist, ob die Ereignisse gleich verteilt sind, die da auftreten. Was machen wir dazu? Nun, wir haben n=60, an dieser Stelle noch einen kurze Ausflug in die Freiheitsgrade. Wenn das gerade nicht rübergekommen ist, die Freiheitsgrade und die Parameter, die wir haben, n, m und g, von denen bislang die Rede war, also n ist nach wie vor der Stichprobenumfang, die Größe des Stichprobenumfangs, m wie Marta, das was wir auch gerade noch mal in den Hinweisen drin hatten, ist die Anzahl der Klassen, die wir haben. Also in unserem fall sind das hier 6 Klassen, weil wir 6 verschiedene Ereignisse haben, die auftreten können und das g, was wir gerade hatten in den Hinweisen, das ist dann die Anzahl der geschätzten Stichprobenfunktionen. Dementsprechend passen sich die Freiheitsgrade an. Das heißt, hier wissen wir jetzt auch, wovon die Rede ist, n=60, nach wie vor unser Stichprobenumfang zu einem Signifikanzniveau von 0,05. Wir haben die verschiedenen möglichen Augenzahlen hier aufgelistet, von 1 bis 6 und jeweils die Ergebnisse unseres Tests. Das heißt, die Zahl 1 kam 10-mal vor, die Zahl 2 11-mal, die Zahl 3 9-mal und so weiter. Das war so gesehen gegeben und jetzt bringen wir das im Rahmen des Chiquadrat-Anpassungstests in unsere Struktur, wie wir diese Aufgabe lösen. Nämlich in Form einer Tabelle. das heißt, wir haben hier die möglichen Klassen, durchnummeriert von 1 bis 6, die möglichen Ereignisse die eintreten, dann hoj, wie erinnern uns, das sind die beobachteten Häufigkeiten, also die beobachteten absoluten Häufigkeiten, 10,11,9 bis 12. Entspricht genau dem hier oben, dann muss man jetzt ein bisschen überlegen. Je nach Verteilung, die man gegeben hat, was ist denn das erwartete Ereignis? Also, wie oft, wenn wir prüfen wollen, ob eine Gleichverteilung herrscht, wie oft kommt dann jedes einzelne Merkmal vor? Nun, Gleichverteilung auf 6 Ereignisse, bei 60 Versuchen, kommen wir zu dem Schluss, dass jede Augenzahl 10-mal vorkommen sollte. Dann gemäß der Testgröße ist zu bilden die Differenz und das Quadrat daraus. das heißt, bei der Differenz von 0 haben wir auch ²0, Differenz 1 ergibt 1, Differenz 1 ergibt 1, hier 2-mal 0 und die Differenz von 2 ergibt quadriert die 4. Um die Testgröße jetzt berechnen zu können, müssen wir gemäß der Formel einfach das Ergebnis dieser Spalte dividieren durch das jeweilige erwartete Ereignis, also die erwartete absolute Häufigkeit. Das heißt, wir haben hier 1÷10=1/10, 1÷10=1/10 und hier haben wir 4÷10=4/10. Letzendlich ergibt sich die Prüfgröße aus der Summe der einzelnen Quotienten, das wäre dann in unserem Fall hier 6÷10=6/10=0,6. Das ist also unsere Prüfgröße. Jetzt, wie ermitteln wir die Annahmekennzahl? Die Annahmekennzahl ist einfach eine obere Grenze. Die obere Grenze ergibt sich direkt aus der Chiquadrat-Verteilung mit dem Parameter. Das heißt, unserem Signifikanzniveau 1-alpha und m-1. Das heißt, wir suchen im Tabellenwert nach der Chiquadratzahl mit dem Parameter 0,95 und 5. Das sucht dann mal und dann kommt ihr auch die Zahl 11,07, wenn alles gut geht. Ja, das heißt, wir haben die Testgröße hergeleitet, wir haben die Annahmekennzahl hergeleitet. Nun gilt es noch die Testentscheidung zu treffen und die Testentscheidung ist jetzt einfach, ist die obere Grenze größer als unsere Chiquadratzahl oder nicht? Ja, sie ist es. 11,07>0,6, sogar viel viel größer. Was heißt das? Das heißt unsere Prüfgröße ist unterhalb der oberen Grenze und damit ist unsere 0-Hypothese nicht abzulehnen, weil unsere Prüfgröße nicht über die Obergrenze hinaus geht. Ja, unsere 0-Hypothese war, dass der Würfel ideal ist. Das heißt, dass die Ereignisse gleich verteilt sind. Diese 0--Hypothese können wir nicht wiederlegen, nicht widerrufen. Was heißt das? Das heißt, wir haben noch so ein bisschen im Hinterkopf, was es mit 0-Hypothesen auf sich hat. Wir haben die 0-Hypothese nicht wiederlegt, das heißt aber auch nicht, dass sie bestätigt ist. Ja, wir mpssen ja immer genau das Gegenteil als 0-Hypothese annehmen, von dem was wir letztendlich rausbekommen wollen. Auf jeden Fall kann diese 0-Hypothese hier nicht wiederlegt werden. Das heißt, wir gehen zunächst einfach mal davon aus, dass der Würfel ideal ist. Wenn wir uns die Zahlen hier etwas genauer anschauen, kommen wir auch drauf, wir sind hier mit unserer Prüfgröße weit unter der Obergrenze. Das heißt übersetzt, wir hätten hier noch viel stärkere Abweichungen haben dürfen zu dem Signifikanzniveau zumindest und es wäre trotzdem noch der Fall gewesen, dass wir die 0-Hypothese nicht wiederlegen. Ja, von daher, das war jetzt das Beispiel zum Chiquadrat-Anpassungstest. Wir haben gelernt, wir können diesen verwenden, wenn wir vergleichen wollen, ob eine bestimmte Verteilung, die wir haben, aus einem Experiment, ob die einer hypothetischen Verteilung entspricht nach unserem Verständnis. Ja, dazu haben wir die übliche Struktur kennengelernt, wir haben wieder die entsprechende Testgröße bestimmt, die Annahmekennzahl und die Testentscheidung letztendlich getroffen. Das sind die wesentlichen Schritte eines jeden Tests. Dann haben wir auch gemeinsam anhand eines Beispiels für den Chiquadrat-Anpassungstest gemacht und ja, es gibt noch ein paar Tests kennenzulernen. Würde mich freuen, wenn ihr dann auch wieder dabei seid. Bis dahin.

Informationen zum Video
3 Kommentare
  1. Img 5225 web

    Hallo zusammen,

    danke für das aufmerksame Schauen der Videos und sorry für den Fehler. Es ist natürlich, wie es dort steht, n=62 und nicht n= 60.

    Der Einfachheit halber, würde ich h0=8 anstatt 10 vorschlagen und n=60 lassen. Wenn ihr den Rest der Rechnung nicht selbständig anpassen könnt, lasst es mich wissen.

    VG
    Konrad

    Von Dr. Konrad Hnatow, vor mehr als 3 Jahren
  2. Default

    Da ist tatsächlich ein Fehler.. Wieso wurde das bis heute noch nicht korrigiert?

    Von Ahm Ka, vor mehr als 3 Jahren
  3. Default

    In dem Beispiel zum Chi-Quadrat-Anpassungtest ist die Summe der beobachteten Ereignisse 62 statt 60. Da passt doch was nicht, oder?

    Von Ms7777, vor mehr als 4 Jahren