Advent, Advent, 1 Monat weihnachtliche Laufzeit geschenkt.

Nicht bis zur Bescherung warten, Aktion nur gültig bis zum 18.12.2016!

Textversion des Videos

Transkript Statistik II - Video 15: Grundgedanken von Stichprobenverfahren

Meine lieben, wissbegierigen Zuschauer dort draußen, herzlich willkommen! Heute geht es um einen ganz besonderen Moment, denn wir steigen endlich in die induktive Statistik ein. Das heißt, die letzten paar Videos haben wir uns damit beschäftigt, uns einige Tools anzueignen, die wir dann in Zukunft in der induktiven Statistik sinnvoll einsetzen können. Induktive Statistik. Lasst uns erst einmal den Begriff klären. Was soll das überhaupt? Also zunächst, wir sind nun bei der Einführung in die induktive Statistik. Das heißt, bevor wir jetzt, wie der Eine oder Andere erwarten könnte, in böse Rechnungen einsteigen, heißt es erst einmal, den Grundgedanken dazu verstehen. Dazu lohnt ein Einstieg in die Stichprobenverfahren. Dazu machen wir uns zunächst Gedanken, was ist denn der Nutzen dieser induktiven Statistik. Induktive Statistik, einfach ein Synonym für schließende Statistik, bedeutet genau das Gleiche. Was haben wir denn bisher gelernt in Statistik I? Da ging es größtenteils darum, dass wir eine Datenmenge erhoben haben, diese aufbereitet haben, Analysen gemacht haben und letztendlich gewisse Werte und Informationen über eine statistische Masse haben. Das war das Ergebnis von Statistik I. Mit Statistik II ist es nun möglich, viel mehr zu erreichen. Denn der Nutzen liegt einfach darin, dass wir eine große Grundgesamtheit haben, also eine statistische Masse und wir haben nur leider keinerlei Informationen über die Verteilung, über irgendwelche Parameter dieser statistischen Masse, der Grundgesamtheit. Was machen wir nun also? Letztendlich langt es, wenn wir gewisse Stichproben nehmen aus der großen, großen Grundgesamtheit, diese analysieren wir, können wir aufbereiten und nun kommt der Schritt, mithilfe der induktiven Statistik ist es uns möglich, Schlüsse zu ziehen von der kleinen Stichprobe auf die gesamte Grundgesamtheit. Das ist der Hauptnutzen. Einige praktischere Beispiele folgen noch. Das heißt, in anderen Worten, ist es möglich anhand einer Teilerhebung eben Rückschlüsse zu ziehen auf die Grundgesamtheit, anstatt eine Vollerhebung zu tätigen. Von daher, das ist so gesehen der Nutzen. Wir werden das gleich ein bisschen näher veranschaulichen. Dann lasst uns den Grundgedanken von Stichprobenverfahren gemeinsam anhand dieses Schaubilds erarbeiten. Nun, was haben wir gegeben? Wir haben in der Regel eine Grundgesamtheit. Das ist nichts anderes als eine statistische Masse, die es zu untersuchen gilt, aus gewissen Gründen. Genügend Beispiele werden wir noch im Laufe der Veranstaltung kennenlernen. Diese Grundgesamtheit hat, wenn sie endlich ist, das ist die Voraussetzung, es kann auch sein, dass wir eine unendliche Grundgesamtheit haben, aber wenn die Grundgesamtheit endlich ist, dann sagen wir sie hat N Elemente. Also N ist dann die Anzahl der Elemente einer endlichen Grundgesamtheit, im weiteren Verlauf. Wenn wir diese Grundgesamtheit haben, kommen wir zu der Frage: Wie können wir die untersuchen? Wir nehmen also eine statistische Masse aus der großen Grundgesamtheit, nämlich eine kleine Stichprobe. Klein, es gibt natürlich auch größere Stichproben, aber im Verhältnis zur Grundgesamtheit ist sie ja in der Regel klein. Das heißt, wir haben dann hier einen Umfang von n, das nennt sich dann der Stichprobenumfang. Das heißt, n ist die Anzahl der Elemente unseres Stichprobenumfangs. Das heißt, das geschieht durch zufällige Ziehung von eben n Beobachtungen, woraus wir n Stichproben haben. Aus diesen Stichproben können wir dann mit den Tools, die wir aus Statistik I kennen, können wir dann gewisse Werte berechnen. Unter anderem, jetzt bitte nicht wundern über die Schreibweise hier. Das ist jetzt x mit dem Balken drüber, das ist quasi unser arithmetisches Mittel, und s2 ist die Varianz. Nun, es ist in Literatur immer irgendwie etwas unterschiedlich angegeben, die Parameterbezeichnungen. Was einfach nur wichtig ist, dass wir den Unterschied haben zwischen der Bezeichnung des Parameters der Stichprobe und der Bezeichnung der Parameter von der Grundgesamtheit. Das ist der wichtige Unterschied, den es hierbei zu beachten gilt. Das heißt, mit den Mitteln, die uns aus Statistik I bekannt sind, können wir nun beispielsweise arithmetische Mittel oder die Standardabweichung berechnen der Stichprobe. Nun kommen wir zum Sinn der induktiven Statistik, womit wir uns jetzt in Statistik II näher auseinandersetzen werden, und zwar ist das dieser, dass wir von diesen Werten, die wir aus der Stichprobe bekommen, Rückschlüsse ziehen auf die Grundgesamtheit. Und genau dieser Schritt hier, der wird uns in Zukunft verfolgen. Wir werden nun zunächst noch, wenn wir bei den Grundlagen sind, werden wir uns noch ein bisschen über die Theorie dahinter Gedanken machen, aber letztendlich werden wir Wege und Mittel an die Hand bekommen, um diesen Schritt von hier nach dort zu gehen. Und dann ist nämlich das Ergebnis, so gesehen der Erwartungswert, und die Standardabweichung, und zwar wovon? Von der Grundgesamtheit. Also, das ist jetzt einfach in ein paar Schritten zusammengefasst, womit wir uns in nächste Zeit beschäftigen werden. Wichtig eben, wie gesagt, hier Statistik I, hier Statistik II der Weg. Wichtig hier die Bezeichnungen in Rot, das sind Parameter, die uns Zukunft ständig begleiten werden. Also lieber von vornherein dabei sein, weil sonst kann man da ganz schnell den Anschluss verlieren. Wichtig sind auch wirklich die Bezeichnungen, dass die uns in Erinnerung bleiben, weil eine äußerst beliebte Fehlerquelle in Statistik II ist nämlich, dass wir die Werte, sei es Varianz, Standardabweichung und so weiter, dass wir verwechseln, ob wir das jetzt für die Stichprobe bestimmt haben oder für die Grundgesamtheit, oder was letztendlich gegeben ist. Sind Werte gegeben aus der Grundgesamtheit oder aus der Stichprobe. Das sind ja letztendlich viele Variablen, die man auflösen kann, wie so schön das nunmal in der Mathematik ist. Also das sind die Sachen, die ihr hieraus bitte mitnehmen sollt. An dieser Stelle werden wir noch ein paar Grundgedanken zu dem Thema auffassen, und zwar, welche Gründe haben wir denn überhaupt, nur eine Teilerhebung durchführen zu wollen, anstatt einer Vollerhebung? Also sprich, wozu brauchen wir überhaupt die induktive Statistik, wenn wir doch mit einfacheren Mitteln aus der deskriptiven, also der beschreibenden Statistik, wenn wir mit diesen Mitteln doch einfach eine Vollerhebung durchführen könnten und auch die entsprechenden Werte haben könnten? Es gibt hier drei Hauptmotivationen, die wir haben, um nur eine Teilerhebung durchzuführen. Das Erste wären beispielsweise die Kostengründe. Was könnte da ein typisches Beispiel sein? Sagen wir mal, wir haben eine Reisabfüllmaschine oder eine Milchabfüllmaschine, etwas dergleichen, also eine Produktion. Diese Produktion hat das gewisse Ergebnis, also die Reissäcke, die sollen beispielsweise mit 20 kg gefüllt werden. Gewisse Aussagen wären dann natürlich über den tatsächlichen Wert und die mögliche Abweichung zum Sollwert ganz interessant, also sprich, es steht 20 kg drauf, sind denn auch 20 kg drin? Wie kann man das überprüfen? Einerseits hat der Produzent da seine Motivation dies zu überprüfen, aber vor allem, sag ich mal, der Konsument, der eine Gewissheit haben will. Also die Verlässlichkeit des Produzenten soll hier überprüft werden. In der Regel liegt es am Produzenten, dieses zu überprüfen und zu gewährleisten. Wie kann er das machen? Weiß ich nicht, wenn da ein paar Tausend Säcke pro Tag von diesem Band laufen, ist es natürlich aus Kostengründen einfach nicht möglich, jeden dieser einzelnen Säcke zu wiegen und auf seine Echtheit an Gewicht zu überprüfen. Das heißt, da wird dann quasi nicht jeder Sack gewogen, sondern einfach nur jeder Zwanzigste oder jeder Fünfzigste, beispielsweise. So werden Kosten gespart, und wenn sich, aufgrund dieser Stichprobe, eine signifikante Abweichung des tatsächlichen Gewichts vom Sollwert beispielsweise ergibt, dann muss in der Produktion noch ein wenig nachgearbeitet werden und, je nachdem, eventuell die Stichprobe erhöht werden, nach gewissen Anpassungen, je nachdem. Das geht dann in Detail. Aber auf jeden Fall, wenn es beispielsweise darum geht, viele Sachen zu überprüfen, spielen die Kosten eine wesentliche Rolle. Was ist das Nächste? Zeitgründe. Sehr repräsentativ für diesen Grund sind beispielsweise Wahlergebnisse. Letztendlich dürfte das jedem bekannt sein, dass auch vor dem offiziellen Endergebnis am nächsten Tag oder tief in der Nacht, es erste Hochrechnungen gibt. Diese Hochrechnungen basieren ja auf verschiedenen Angaben, zunächst aus gewissen Befragungen, aber hauptsächlich sag ich mal aus schon ausgezählten Stimmanteilen. Diese Hochrechnung soll natürlich so bald wie möglich kommen, hält ja immer ein bisschen die Spannung hoch. Aus diesen Zeitgründen ist es dann eben auch praktisch, wenn man, aus schon gewissen Anteilen an ausgezählten Wahlstimmen, Prognosen abgeben kann auf das tatsächliche Ergebnis der Wahl. Das ein Beispiel hierfür. Technische Gründe, ganz wichtig. Eine weitere Aufgabenstellung der induktiven Statistik lautet meist, dass wir einen Ausschussanteil bestimmen sollen. Also Ausschussanteil, sprich, wenn wir von Tellern zweiter Wahl reden oder von gewissen Trägern, Bauelementen, dann haben wir einen Ausschussanteil. Sprich, die Elemente an sich, die da produziert werden, halten nicht das, was der Produzent verspricht. Das wäre dann ein sogenannter Ausschuss, das wäre Ware zweiter Wahl, und dieser Ausschussanteil soll bestimmt werden. Wie lässt sich so ein Ausschussanteil bestimmen? Wenn wir beispielsweise technische Bauelemente auf Zugfestigkeit überprüfen, lassen sich diese Spezifikationen nun mal leider nur durch Zerstörung überprüfen. Sprich, wenn wir das Material derart strapazieren, dass es kaputtgeht, wissen wir, ob es die vorgeschriebene Zugfestigkeit beispielsweise einhält oder nicht. Letztendlich liegt es auf der Hand, dass wir nicht jedes Bauteil derart überprüfen würden, das wäre für beide Seiten schlecht, aber da hilft uns so gesehen die Statistik einfach den Überblick zu behalten, wie groß der Ausschussanteil tatsächlich ist. Es langt, wenn wir dann wenige Prozent der produzierten Teile vernichten, in Anführungsstrichen, aber ja im übertragenen Sinne auf ihre Korrektheit überprüfen. Das sind die Hauptmotivationspunkte für diese induktive Statistik. Einige Beispielaufgaben habe ich euch jetzt auch schon indirekt genannt. Also so viel zum Verständnis und zur Spannung. So gesehen habt ihr gesehen, da ist einfach alles vertreten. Wir sind hier im technischen Bereich, wir sind in der Marktforschung drin, wir spielen hier mit ökonomischen Kennzahlen. Also Statistik ist überall, zumindest gebraucht. Wie beliebt das ist, kann jeder für sich selber entscheiden. Hier sei euch noch ein kleiner Überblick gegeben, und zwar sind das hier unsere Parameterwerte, die wir bestimmen können. Einerseits direkt aus der Stichprobe oder eben andererseits dann mithilfe der Mittel der induktiven Statistik für die Grundgesamtheit. Was bedeutet das jetzt eigentlich an sich? Wir müssen uns das so vorstellen, wir haben die Stichprobe. Dieser Stichprobe können wir so gesehen Werte entnehmen, und aus diesen Werten der Stichprobe können wir die Parameterwerte bestimmen. Und diese Parameterwerte sind so gesehen Ergebnisse aus Zufallsstichproben und damit Realisationen von Zufallsvariablen. Das sind nur noch einmal so ein paar Grundbegriffe, die ihr einfach einmal einordnen könnt. Also was sind so die typischen Parameterwerte, die wir haben? Wir sehen, wir haben Lage-, Streuparameter und so weiter, wir haben zunächst den Erwartungswert/Mittelwert, der erfreut sich größter Beliebtheit an Fragezeichen und daraus bekommen wir dann, also aus der Stichprobe unter anderem auch die Varianz. Die Standardabweichung, hier seht ihr eben die passenden Bezeichnungen. Also hier das x Balken und µ für den Erwartungswert, beziehungsweise Mittelwert, die Varianz, wie wir sie bisher kennengelernt haben mit σ2, trifft eben auf die Grundgesamtheit zu, für die Stichprobe ist ein s2. Die Standardabweichung, wissen wir, ist einfach die Wurzel aus der Varianz, dementsprechend σ oder s, für Grundgesamtheit, beziehungsweise Stichprobe. Dann haben wir den Anteilswert bei dichotomer Grundgesamtheit. Das müssen wir uns noch einmal vor Augen führen, was das bedeutet. Vielleicht hat der Eine oder Andere noch eine Idee. Also dichotome Grundgesamtheit bedeutet nichts anderes als dass das Merkmal, das zu untersuchende, quasi nur zwei Ausprägungen hat. Typische Beispiele für solche Grundgesamtheiten sind der Münzwurf, da haben wir einfach Kopf oder Zahl. Oder vor allem in der induktiven Statistik kommt es dann auf den Ausschussanteil an, wenn wir sagen: Gut, das getestete Produkt ist Ausschuss oder nicht. Also Treffer oder Niete. Das wäre noch ein typisches Beispiel für eine dichotome Grundgesamtheit. Und diese wird dann, dieser Anteilswert zu dieser Verteilung wird dann dementsprechend mit θ oder mit klein p bezeichnet, und die Anzahl der Elemente hatten wir ja bereits im Schaubild kennengelernt. Also N für die Grundgesamtheit und das kleine n für die Stichprobe. Was bleibt hier noch zu sagen zu dem Thema? Wir werden später noch zwei verschiedene Verfahren kennenlernen, und zwar haben wir einerseits Schätzverfahren und andererseits Testverfahren. Für beide Verfahren sind so gesehen diese Parameterwerte nötig. Schätzverfahren, wie der Name schon sagt, ist, wenn wir Werte, Parameterwerte aus der Stichprobe haben und auf die Grundgesamtheit schätzen. Schätzen impliziert bereits, dass es auch ein gewisses Fehlerrisiko ist, das wir da mit berücksichtigen müssen. In der Regel ist dieses Fehlerrisiko auch ausgewiesen. Also können wir uns auch noch unter dem Punkt merken, alles was wir so in der Statistik II, induktive Statistik, behandeln, wird unter einer gewissen Gefahr, unter einem sogenannten Fehlerrisiko, später auch Signifikanzniveau, geführt. Also haben wir Schätzverfahren auf beispielsweise Parameterwerte der Grundgesamtheit. Also wir schätzen von dieser Seite auf diese Seite. Und Testverfahren beschäftigen sich mit etwas Anderem. Wie der Name schon sagt, wir testen Sachen. Wir testen Behauptungen, Hypothesen. Diese werden wir zunächst aufstellen und dann eben testen, ob ein Produzent seine Versprechen hält und dergleichen. Also noch einmal, zum groben Überblick, haben wir noch bei den Stichprobenverfahren so gesehen später auch noch die Schätzverfahren und die Testverfahren. Für diese Verfahren benötigen wir hier aufgelistete Parameterwerte. Das soll es an dieser Stelle auch schon gewesen sein für heute. Wir haben uns womit auseinandergesetzt? Das war so gesehen die Einführung in die induktive Statistik. Insbesondere haben wir uns Gedanken gemacht über die Stichprobenverfahren. Wir wissen nun, wo sie Anwendung finden, in welchen Bereichen, wissen,  wozu wir sie benötigen. Es gilt sogesehen immer Kosten zu sparen, Zeit zu sparen und, sag ich mal, gewisse Teile, also aus technischen Gründen, diese auch einzusparen. Also nicht alle kaputtzumachen. Das sind die Gründe, wieso wir die induktive Statistik benötigen. Wir werden Beispiele noch kennenlernen. Was haben wir noch gelernt? Alle Schlüsse, die wir in der induktiven Statistik ziehen können, gelten unter einem bestimmten Risiko, einem Fehlerrisiko. Wie gesagt, das sind nur Schätzverfahren, Testverfahren, die mit einer bestimmten Wahrscheinlichkeit zutreffen. Einige Parameterwerte haben wir auch kennengelernt, wir wissen auch, dass wir die Wahrscheinlichkeitsrechnung weiterhin benötigen werden, um die induktive Statistik anwenden zu können, also Rückschlüsse auf die Grundgesamtheit beispielsweise ziehen zu können. Von daher, herzlichen Dank für die Aufmerksamkeit und freut euch auf das nächste Video!  

Informationen zum Video
1 Kommentar
  1. Default

    Super Video ...Weiter so ...

    Von Ewlipi, vor etwa einem Jahr