Textversion des Videos

Transkript Statistik II - Video 46: Test einer Hypothese über zwei Parameter - Übung

Herzlich willkommen zusammen! Schön, dass ihr auch heute wieder dabei seid! Wir beschäftigen uns heute wieder mit dem praktischen Part, d. h., praktischem Part zu Tests über Hypothesen. Und da haben wir ja Tests über Hypothesen für Mittelwert, Anteilswert und Varianz kennengelernt. Diese drei Parameter schauen wir uns heute auch genauer an und die entsprechenden Tests dazu, aber eben nicht über ein Parameter, sondern über zwei. D. h., wir haben zu jedem Fall ein Beispiel. Wir beginnen jetzt hier mit dem Test einer Hypothese über zwei Mittelwerte. D. h., was wollen wir herausfinden? Die Aufgabenstellung, wie sie verlauten kann, habt ihr in der Theorie schon ein bisschen mitbekommen. Es geht darum zu prüfen ob zwei unabhängige Grundgesamtheiten, ob die einen gemeinsamen Mittelwert haben. Was machen wir hierfür? Wir haben zwei unabhängige Stichproben voneinander. Wir untersuchen hier konkret die Lebensdauer von Glühbirnen, d. h., wir haben hier die Ergebnisse einer Stichprobe, hier die Ergebnisse einer zweiten Stichprobe, das Signifikanzniveau zu dem wir testen wollen sowie die Nullhypothese und die Alternativhypothese. D. h., Nullhypothese lautet hier, dass die beiden Grundgesamtheiten eben den gleichen Mittelwert haben.  So, wir haben n1=50. Die mittlere Brenndauer aus der ersten Fabrikation, also, sagen wir es sind einfach zwei verschiedene Typen von Glühbirnen, dann haben wir eine mittlere Brenndauer von 1100 Stunden und eine Standardabweichung von 63 Stunden. Für die Glühbirnen zweiter Fabrikation haben wir einen Stichprobenumfang von 40, eine mittlere Brenndauer von 1040 sowie eine Standardabweichung von 54. Nun, was gilt es nun zu tun? Wir müssen ein wenig unterscheiden, in der Theorie sind ja die verschiedenen Fälle bereits dargelegt worden, was wir vorliegen haben. Wir haben einerseits σ1, σ2 unbekannt, andererseits aber sind n1 und n2 > 30. Das hat jetzt damit was zu tun, welche Standardabweichung wir quasi für die geschätzte Standardabweichung der Grundgesamtheiten nehmen. D. h., das was wir hier berechnen unser σDach, ergibt sich aus den uns bekannten Anteilen. Wir haben hier S12, die Varianz der Stichprobe, geteilt durch n1-1, +S22 durch n2-1. Daraus ziehen wir die Wurzel und wir haben den Part gegeben. Hier ist das Ganze schon einmal berechnet - ein bisschen vorbereitet - das heißt, wir haben S12, (632)/n1-1, 50-1=49, +S22, (542)/n2-1, 40 also -1=39. Das Ganze rechnen wir zusammen und wir bekommen den Wert 12,54. Daraus ergibt sich nun auch schon der Annahmebereich. Der Annahmebereich ist wie üblich eben begrenzt durch eine untere und/oder obere Grenze. In dem Fall haben wir was, einen einseitigen oder einen zweiseitigen Test? Einen Zweiseitigen, normalerweise lautet dieser ein wenig anders. Normalerweise haben wir hier stehen, beispielsweise μ=μ0. Also der Mittelwert entspricht tatsächlich einem bestimmten Wert. Hier, wenn wir allerdings zwei Parameter vergleichen, bilden wir die Differenz. Also wir wollen wissen, ob die Differenz der Mittelwerte gleich null ist. Es ist einfach umgeformt, aber nichtsdestotrotz haben wir hier also einen zweiseitigen Test, wir brauchen also eine untere und eine obere Grenze. Die ergibt sich durch Minusplus eben Z, den Wert kriegt ihr jetzt bestimmt aus der Tabelle raus mit den Kennzahlen, wenn nicht gibt es da ein passendes Video: Standardnormalverteilung und Normalverteilung. Diesen Wert Z multipliziert mit der geschätzten Standardabweichung, die wir hier haben, und das Ganze einfach nur noch ausgerechnet. Das heißt, wir haben ±1,96, das ist der Wert für Z, multipliziert mal 12,54, was wir gerade berechnet haben, ergibt dann ±24,5. Unsere untere Annahmegrenze ist eben -24,5, unsere obere Annahmegrenze +24,5. Schön, wenn wir die Annahmegrenzen haben, wir brauchen trotzdem noch die Testgröße. Und die Testgröße bei einem Vergleich zweier Mittelwerte ergibt sich eben aus der Differenz dieser. Das heißt, d ist unsere Testgröße, die wir jetzt hier berechnen, mit der wir dann die Unter- und Obergrenze vergleichen. Das heißt, das ergibt sich aus x1 Balken - x2 Balken, also Mittelwert der ersten Stichprobe minus Mittelwert der zweiten Stichprobe, also 1100-1040=60. Ja, wo liegt 60? 60 ist bekanntermaßen größer als 24,5 - wie hier dargestellt - und wir wissen, wenn eine Obergrenze überschritten wird, gilt es die Nullhypothese zu verwerfen. Wir haben eben den Annahmebereich, d. h., wenn dieses d zwischen -24,5 und +24,5 gelegen wäre, dann hätten wir die Nullhypothese nicht verwerfen können. In diesem Fall aber, da 60 über der Obergrenze liegt, liegt es außerhalb des Annahmebereiches, damit ist  H0 zu verwerfen. Und damit haben wir zur Irrtumswahrscheinlichkeit 0,05 nachgewiesen, dass die beiden Grundgesamtheiten eben einem unterschiedlichen Mittelwert haben. Ja, so viel dazu; und wir haben noch zwei andere Parameter vor uns. Kommen wir nun zum zweiten Parameter, den wir uns heute anschauen. Und zwar schauen wir uns den Parameter Anteilswert an. Wir wollen weiterhin zwei Anteilswerte, also zwei gleiche Parameter, miteinander vergleichen, in diesem Fall zwei Anteilswerte. Wir stellen uns Folgendes beliebtes Szenario vor: Wir haben zwei Grundgesamtheiten, das sind Personen, diese Personen sind krank, diese Personen kriegen Medikamente verabreicht und wir zählen, wie viele der Personen, aufgrund der Behandlung mit dem jeweiligen Medikament, wieder gesund werden. Was testen wir? Wir testen also zwei unabhängige Gruppen - müssen das sein - zwei unterschiedliche Medikamente, und wir wollen schauen, welches Medikament denn besser wirkt, denn es handelt sich um die gleiche Krankheit. Dementsprechend lautet unsere Hypothese in diesem Fall  Θ1-Θ2 ≤ 0. Das ist schon eine bisschen umformulierte Hypothese. Was kann man jetzt daraus schließen? Wenn wir das beispielsweise umformen, Θ1 und quasi +Θ2, also auf die andere Seite holen, haben wir da Θ1≤ Θ2. Das würde ja bedeuten, Θ1 der Anteil, derer Patienten, die gesund werden, in der ersten Gruppe, ist kleiner als der Anteil der Patienten aus Gruppe zwei, der wieder gesund wird. D. h., wir testen, dass Θ1 eigentlich schlechter als Θ2 ist, also das Medikament 1 schlechter als das Medikament 2. Das ist die Nullhypothese. Was ja wiederum bedeutet: Wenn wir diese Nullhypothese verwerfen, bedeutet das ja das Andere, den Umkehrschluss, dass Θ1, also Medikament 1 besser ist. Gut, so viel zur Einführung. Wir haben diese Größen gegeben: n1=200, x1, also die Leute, die gesund werden aufgrund der Behandlung mit dem Medikament, n2 sind ebenfalls 200, x2 also 120 Leute werden aufgrund der Behandlung mit Medikament 2 gesund. Und das Ganze wollen wir testen zu einem Signifikanzniveau von 0,1 mit der entsprechenden Alternativhypothese, die ja bestätigt wird, wenn H0 verworfen wird. Ich habe ja schon ein bisschen was vorweggenommen, nämlich Θ1 und Θ2  bedeutet was? Den Anteil derer, die wieder gesund werden. D. h., wir berechnen den Anteil so: Wir sagen 150 Personen werden wieder gesund, geteilt durch die Anzahl der möglichen Personen, die wieder gesund werden. Also haben wir den Anteil an gesund werdenden Leuten x1/n1=0,75. Bei Θ2, ja das Ganze geschieht hier genauso: x2/n2=120/200=0,6. Also übersetzt: 75 % der Personen aus Nummer 1 werden gesund aufgrund der Behandlung mit dem Medikament 1, und 60 % der Personen aus Gruppe 2 werden gesund nach Behandlung mit Medikament 2. Dann, was müssen wir überprüfen? Ja, wir gehen hier ähnlich vor wie bei dem Test über nur einem Anteilswert. Wir müssen nämlich zunächst überprüfen, welche Verteilung wir verwenden können. Dafür ist es jetzt notwendig, dass wir diese Bedingung überprüfen: n×Θ×(1-Θ) und das Ganze < 9. Also ich habe ja schon  > 9 das Ergebnis hingeschrieben. Wir erinnern uns, das hatten wir schon einmal. D. h., wenn dieser Ausdruck  > 9 ist, können wir die Normalverteilung annehmen, und wenn dieser Ausdruck kleiner ist, müssen wir weiterhin schauen, ob wir Binomial- oder Poissonverteilung verwenden. Ja, diese Bedingung überprüfen wir also für Gruppe 1, für Gruppe 2, also jeweils n×Θ×(1-Θ). Also 200× den Anteil, den wir soeben berechnet haben, 0,75, × die Gegenwahrscheinlichkeit für diesen Anteil, ×1-Θ1, also 0,25 und das ergibt =37,5. Ja, 37,5 ist > 9, also können wir die Normalverteilung annehmen. Dann das Gleiche für die Gruppe 2: n2Θ2×(1-Θ2), ergibt gleich eingesetzt: 200×0,6×0,4=48. 48 ist auch > 9, also können wir auch für die zweite Gruppe, für die entsprechenden Größen, die Normalverteilung annehmen. Ja, das heißt, jetzt steigen wir eigentlich mit dem Test an sich ein. Wir brauchen zunächst eine Wahrscheinlichkeit, diese Testgröße, die wir hier haben, und die Testgröße, wo wir eben sehen Elemente beider Gruppen vereint sind, bildet sich aus n1×P1, P1 ist hier in dieser Formel einfach P1, entspricht aber dem Anteilswert Θ1, kommt immer darauf an, wie es in entsprechenden Lehrginhalten vermittelt wird. Aber in der Regel haben wir auch schon kennengelernt P und Theta sind hier parallel zu verwenden. So, dann haben wir: n1×P1+n2×P2 und das Ganze dividiert durch n1+n2. Eingesetzt bedeutet das dann: Wir haben 200×0,75+200×0,6 und das Ganze geteilt durch 400, ergibt die Testgröße 0,675. Ja, was machen wir jetzt mit der Testgröße? Mit der Testgröße berechnen wir unsere Standardabweichung - unsere Standardabweichung. Die ergibt sich dann gemäß dieser Formel: Das wäre dann P×(1-P)×((n1+n2)/(n1×n2)), das ist hier der Quotient hinten dran. Ja, daraus die Wurzel ergibt dann eben die Standardabweichung, die wir suchen, für die Verteilung der Testgröße. Dann setzen wir doch einfach einmal ein: Ja, daraus die Wurzel ergibt dann eben die Standardabweichung, die wir suchen, für die Verteilung der Testgröße. Damit geht es gleich weiter. Dann haben wir es eigentlich auch schon fast geschafft. Dadurch, dass wir jetzt das P vorher berechnet haben, was ja ein Teil der Testgröße ist, also dank des P ohne Index, der Zusammenführung von P1 und P2, konnten wir eben die Standardabweichung der Testgröße d berechnen. Ja, die Standardabweichung ist ein Schritt, was wir aber an sich erst einmal brauchen, oder als Nächstes, ist die Testgröße an sich. Die ergibt sich mit dieser Formel. Und zwar ist das schlicht die Differenz von Theta 1 und Theta 2. D. h., die Anteile 0,75-0,6=0,15. Wir wollen ja überprüfen, inwiefern sich die Anteilswerte unterscheiden, daher macht es ja auch Sinn tatsächlich die Differenz dieser beiden Anteilswerte zu betrachten. So, was brauchen wir denn? Wir wollen als Nächstes die Annahmekennzahl bestimmen. Wir haben einen einseitigen Test, weil wir sagen kleiner/größer. Einseitiger Test bedeutet wir brauchen eben eine Unter- oder eine Obergrenze. Ja, was brauchen wir? Wir haben in der Nullhypothese formuliert: Θ1≤ Θ2. Nun, wenn die Testgröße natürlich ganz ganz klein wird, dann ist natürlich klar, dass Θ1 tatsächlich kleiner ist Θ2. Also wir brauchen eine Obergrenze, die wiederum überschritten werden muss. D. h., wenn diese Obergrenze überschritten ist, können wir eben sagen, dass Θ1 nicht kleiner als Θ2 ist. Wir stellen die Obergrenze auf, für die Untergrenze hätten wir lediglich ein Minus davor genommen. Als Obergrenze haben wir Z, weil wir die Normalverteilung verwenden können. Z× unsere Standardabweichung=1,28×0,047. Also den Wert Z könnt ihr bestimmt mittlerweile aus dem entsprechenden Tabellenwerk herauslesen. D. h., für unsere Obergrenze haben wir 0,06. Und wenn wir das jetzt gegenüberstellen: Unsere tatsächliche Testgröße d, die Differenz, und unser Co, unsere Obergrenze, sehen wir, dass unsere Testgröße bei Weitem größer ist als die Obergrenze. Und daher unterscheiden sich die beiden Anteilswerte wirklich enorm, weil es ist, ja nichts anderes als die Differenz der Anteilswerte. Somit lässt sich eben nicht sagen, dass Θ1< Θ2 ist, oder dass die Differenz eben null ist, sondern es ist damit eigentlich H0 verworfen. Das eigentlich könnt ihr natürlich streichen. H0 wird verworfen und d. h., dass die Anteilswerte eben nicht gleich sind. Die Anteilswerte sind nicht gleich, sondern unterscheiden sich tatsächlich signifikant. Das lässt sich eben mit einer Irrtumswahrscheinlichkeit von 0,1 sagen, dass dann entsprechend die Alternativhypothese zutrifft, mit  Θ1> Θ2. Und damit das Medikament Nummer 1 besser hilft, zu einer gewissen Irrtumswahrscheinlichkeit, als das Medikament Numero 2. da sind wir auch schon beim letzten Parameter angekommen. Und zwar wollen wir jetzt testen, ob zwei Varianzen sich voneinander unterscheiden, oder nicht. Ja, auch hier empfiehlt es sich natürlich auch wieder, das Theorievideo bereits gesehen zu haben. Wir überprüfen also einfach, ob sich zwei Varianzen voneinander unterscheiden, also zwei Varianzen einer Grundgesamtheit, oder nicht. Was haben wir hierfür gegeben? Nun, wir haben keine Varianzen der Grundgesamtheit an sich natürlich gegeben, sondern wir haben hier die Standardabweichungen der entsprechenden Stichproben. Also auch hier gilt es wieder zwei unabhängige Grundgesamtheiten, zwei unabhängige Stichproben. Und wir haben das als Ergebnis: Standardabweichung der Grundgesamtheit 1, Standardabweichung der Grundgesamtheit 2, überprüfen wollen wir alles zu einem Signifikanzniveau von 0,1, bei Stichprobenumfängen in gleicher Höhe, aus der ersten und zweiten Gruppe. Wie formulieren wir nun die Nullhypothese? Im Gegensatz zum Mittelwert und zum Anteilswert, bilden wir hier keine Differenz, sondern einen Quotienten. Also, ich werde hier nicht mehr so sehr ins Detail gehen. Das hat schon seinen Sinn, Theorievideo hilft dazu. Auf jeden Fall wollen wir auch überprüfen, ob die eine Varianz der anderen Varianz entspricht. Und was machen wir dazu? Wir teilen durch σ22, bringen es also auf die andere Seite, und bekommen so gesehen, ob das eine dividiert durch das Andere gleich 1 ist. Wie gehen wir ran an die Sache? Nun, das große Thema ist immer die Verteilung der Testgröße, die wir hier annehmen müssen. Zunächst kommen wir erst einmal zur Testgröße an sich. Das hier ist F, das ist unsere Testgröße, die ergibt sich (im Theorievideo ist die Formel hergeleitet, hier nehmen wir sie einfach als gegeben an). Das hier ist F, das ist unsere Testgröße, die ergibt sich (im Theorievideo ist die Formel hergeleitet, hier nehmen wir sie einfach als gegeben an). (n1×S12)/(n2×S22) multipliziert mit einem weiteren Quotienten, (n2-1)/(n1-1). Das hier ist F, das ist unsere Testgröße, die ergibt sich (im Theorievideo ist die Formel hergeleitet, hier nehmen wir sie einfach als gegeben an). So, die Testgröße. Hier, seht ihr direkt, geht es um eine F-Verteilung. Eine F-Verteilung warum? Nun, wir wissen, dass wir, wenn wir einen Quotienten von Chi-Quadrat verteilten Variablen haben, dass wir diesen dann als F-Verteilung annehmen können, diese sich daraus ergebene Zufallsvariable. Und die Chi-quadratverteilten Zufallsvariablen ergeben sich wiederum durch die Summe von mehreren Zufallsvariablen, was sich ja hier mit den Varianzen so ergibt. Also, so kommen wir von Chi-Quadrat verteilten Zufallsvariablen hin zu der F-verteilten Zufallsvariable F, unserer Testgröße hier eben. Diese F-Verteilung entspricht genau unserer oberen Grenze. Das ist der Wert, den wir aus der Tabelle entnehmen. Ja, zu den Parametern: 1-(α/2), n1-1, n1-1, das sind die Parameter, die wir nachschauen müssen. Und die ergeben dann 1,693 als obere Grenze bei einem zweiseitigen Test. Wie wir ihn ja hier haben. Wir wollen ja überprüfen, ob die eine Varianz direkt der anderen entspricht, also zweiseitigen Test mit Ober- und Untergrenze. Nun, die Untergrenze wiederum bekommen wir von der anderen Sichtweise, indem wir 1/ diese F-Verteilung hier annehmen, aber mit dem kleinen Unterschied bitte, da wirklich aufpassen, 1-(α/2) und dann folgt als zweiter Parameter n2-1, und dann erst n1-1. Also die Freiheitsgrade haben hier hinten getauscht. Dadurch, dass wir 1 durch gerechnet haben - das ist auch eine Formel, die es so gibt. Ja, in unserem fall ganz praktisch, vielleicht meinen es eure Professoren auch so gut mit euch, dass wir den gleichen Umfang an Stichproben haben. D.h., 1,693 ergibt sich auch für hier, egal ob wir n1 n2 umtauschen. Dementsprechend haben wir für die untere Grenze 1/1,693=0,59. Und somit haben wir die Annahmekennzahlen auch schon bestimmt. D. h., idealerweise, wenn wir die Nullhypothese annehmen wollten, könnten, wäre unsere Testgröße F, unser 0,44, wäre genau zwischen der Untergrenze und der Obergrenze, bzw. einfach in diesem Bereich. Ja, was ist allerdings der Fall? Die untere Grenze ist 0,59 und unsere Testgröße F* ist 0,44. Ja, wenn die Untergrenze unterschritten ist, ist die Nullhypothese zu verwerfen. D. h., wir können mit einer Irrtumswahrscheinlichkeit von 0,1 sagen, dass die Varianzen nicht gleich sind. Ja, so viel dazu. Ich hoffe das hat euch alles hier ein bisschen geholfen, die Praxis die ich euch hier näher gebracht habe. Der Rechenweg ist da. Die Herleitung für einzelne Formeln ist in dem Theorievideo zu sehen. Und an sich Formeln aufschreiben, üben, üben, üben und dann wird das bestimmt was. Ja, wir haben uns jetzt heute also den Test von Hypothesen über zwei Parameter angeschaut, über Mittelwert, Anteilswert und jetzt zum Ende hin Varianz. Das war es von diesem Programm her. Ansonsten viel Erfolg mit dem Gelernten und bis zum nächsten Mal!        

Informationen zum Video