Textversion des Videos

Transkript Statistik - Video 2: Die Grundbegriffe (Merkmal, Grundgesamtheit, Stichprobenumfang)

Hallo! Schön, dass ihr alle wieder da seid bei unserem Statistikkurs. Heute fangen wir, wie im ersten Video bereits angekündigt, mit der deskriptiven Statistik an und kümmern uns um die Grundbegriffe. Wir haben ja letzte Woche schon einige Begriffe kennengelernt wie Daten oder Stichprobe und heute versuche ich mal klar zu machen, was dahinter steckt. Wenn man eine Untersuchung macht, muss man sich als Allererstes immer die Frage stellen: Was will ich eigentlich untersuchen? Was interessiert mich und was für Erkenntnisse will ich daraus haben? Das nennt man "das untersuchte Merkmal". Das Merkmal, das mich interessiert, wird immer mit einer Variablen gezeichnet, einer großen Variable. Meistens ist das X, wenn man nur ein Merkmal untersucht, aber wenn man mehrere Merkmale untersucht, kann das im Prinzip jeder beliebige Buchstabe sein. Der Einfachheit halber nehmen wir heute mal X. Um die Grundbegriffe klar zu machen, habe ich mir mal 2 Beispiele überlegt. Nehmen wir einmal an, als Beispiel 1, das Statistische Bundesamt interessiert sich für den Bildungsstand der Deutschen. Und als Beispiel 2 nehmen wir mal: Ein Unternehmer, der wissen will, wie viele Fehltage seine Arbeiter im Jahr haben. Das Merkmal bei Beispiel 1 wäre hier also der Bildungsstand und das Merkmal bei Beispiel 2 wären also die Fehltage. Die zweite Frage, die darauf folgt, ist immer: An wem will ich mein Merkmal untersuchen? Das nennt man "Merkmalsträger". Das ist also das Objekt oder die Person, an dem ich mein Merkmal untersuchen oder beobachten kann. Im Beispiel 1 wären das also alle Deutschen, die vom Statistischen Bundesamt befragt werden könnten und im Beispiel 2 wären das also die Arbeiter, die dieser Unternehmer beschäftigt. Wichtig ist hierbei noch, dass es nicht immer eine Person sein muss, wie in unserem Beispiel, sondern ich könnte mich ja auch für den Umsatz einer Firma interessieren und dann wäre der Merkmalsträger die Firma und das Merkmal der Umsatz. Nachdem diese beiden Fragen also geklärt sind, muss ich mir eine theoretische Frage stellen: Wie viele könnte ich denn theoretisch befragen oder untersuchen? Das nennt man Grundgesamtheit und wird mit N bezeichnet. Die Größe der Grundgesamtheit hängt, wie wir sehen, sehr stark davon ab, was ich untersuche. Im Beispiel 1, wenn ich also den Bildungsstand aller Deutschen erfassen will, beträgt meine Grundgesamtheit ungefähr 82 Millionen Deutsche. In Beispiel 2 beträgt meine Grundgesamtheit nur den Umfang meiner Arbeiterschaft. Sagen wir mal, die Firma hat 100 Arbeiter, dann beträgt die Grundgesamtheit also 100. Nachdem jetzt also klar ist, was ich von wem wissen will, muss ich mich noch fragen: Will ich wirklich alle befragen? Oder vielleicht nur einen Teil? Möchte ich also eine Vollerhebung durchführen oder nur eine Teilerhebung? Schauen wir uns mal eine Vollerhebung an. Eine Vollerhebung heißt so, weil die volle Grundgesamtheit befragt wird oder untersucht wird. Im ersten Beispiel würde das Statistische Bundesamt also tatsächlich 82 Millionen Deutsche befragen und im zweiten Fall würde der Unternehmer jeden seiner 100 Mitarbeiter befragen, nach den Fehltagen im Jahr. Dies wäre im Fall des Unternehmers vielleicht noch möglich, aber am ersten Beispiel sieht man sehr deutlich, dass es sehr unpraktikabel ist, alle 82 Millionen Deutschen zu fragen. Eine Vollerhebung ist daher sehr unüblich. Ein Ausnahmebeispiel hierfür wäre allerdings eine Volkszählung, wo tatsächlich jeder befragt wird. Meist reicht es aber völlig, eine Teilerhebung zu machen. Bei einer Teilerhebung wird nur ein Teil, der von mir beliebig groß gewählt wird, der Grundgesamtheit befragt. Man nimmt also, sagen wir mal im Beispiel 1, 1000 Deutsche und befragt diese auf den Bildungsstand, und wenn man die Leute gut genug ausgewählt hat, kann man daraus sogar Rückschlüsse auf alle Deutsche ziehen. Sagen wir also mal, das Statistische Bundesamt befragt tatsächlich nur 1000 Deutsche, nicht alle 82 Millionen und auch der Unternehmer könnte ja auf die Idee kommen, nicht einen Arbeitstag darauf zu verwenden, alle 100 Arbeiter nach ihren Fehltagen zu fragen, sondern er fragt vielleicht gerade die 5, die ihm auf dem Weg vom Parkplatz zum Büro über den Weg laufen. Wir können unsere Tabelle jetzt also um den Stichprobenumfang, der mit n bezeichnet wird, erweitern. Im Beispiel 1 nehmen wir 1000 Deutsche, in dem Beispiel 2 fragt der Unternehmer 5 seiner Arbeiter. Für die weiteren Begriffe schauen wir uns jetzt Beispiel 2 einmal genauer an. Das untersuchte Merkmal, X ist hier "die Fehltage, die ein Arbeiter im Jahr hat". Unsere Grundgesamtheit, N, also alle Arbeiter, sind hier 100 Leute und unser Stichprobenumfang, n, sind hier 5 Leute. Bevor wir aber tatsächlich die Leute befragen und unsere Daten erheben, wie man so schön sagt, müssen wir uns vorher einmal klar machen, was für Ausprägungen unser Merkmal überhaupt annehmen kann. Das klingt zwar trivial, ist es aber oft nicht, deshalb sollte man sich vorher darüber Gedanken machen. Unser X, also die Fehltage im Jahr, kann logischerweise nur Werte zwischen 0 und 365 annehmen. Mit diesem Vorgedanken können wir jetzt also die Daten erheben. Die Daten, die erhoben werden, markiert man mit x, und zwar steht dann der Index 1, 2, 3, 4, 5, jeweils für den Arbeiter, der befragt wird. Die Umfrage ergab folgende Werte: x1, also die Fehltage von Arbeiter 1=15, x2=4, x3=23, x4=42 und x5 wiederum 4. Damit haben wir unsere erste Messreihe erhoben. Diese Daten, in eine Liste geschrieben, völlig unsortiert, nennt man Urliste. Der erste Schritt, wenn man solche Daten hat, ist natürlich immer, diese zu ordnen. Das ergibt folgende Liste: 4, 4, 15, 23, 42. Damit haben wir unsere schöne, sortierte Liste, oder wie man auch sagt, einen "geordneten Datensatz". So, das war auch schon unser Beispiel. Und jetzt schauen wir uns noch mal die wichtigsten Begriffe von heute zur Wiederholung an. Unser Merkmal, X in unserem Fall, ist: Was will ich untersuchen? Was interessiert mich? In unserem Fall natürlich einerseits der Bildungsstand und andererseits die Fehltage im Jahr. Der Merkmalsträger ist derjenige, an dem ich mein Merkmal untersuchen oder beobachten kann, also derjenige im Prinzip, der mir die Antwort liefert. Die Grundgesamtheit umfasst alle Menschen, die ich theoretisch befragen könnte. Das Statistische Bundesamt könnte ja theoretisch alle 82 Millionen Deutsche fragen. Macht es aber nicht. Und so kommen wir zum Stichprobenumfang. Dieser bezeichnet die Leute, die ich tatsächlich frage. Im Beispiel 1: Das Statistische Bundesamt befragt nur 1000 Leute, also ist unser Stichprobenumfang, n=1000. Die Merkmalsausprägung sagt mir, welche Ergebnisse ich theoretisch erwarten kann. Und zu guter Letzt noch ein neuer Begriff, die "realisierten Ausprägungen". Das sind alle Werte, die tatsächlich realisiert wurden. Obwohl wir in unserem Beispiel 2 5 Leute befragt haben, hatten wir nur 4 Ausprägungen tatsächlich realisiert, weil eine Ausprägung doppelt war. Es ist also möglich, dass es sehr viel weniger realisierte Ausprägungen als theoretisch mögliche Merkmalsausprägungen gibt. Wenn jetzt zum Beispiel das Statistische Bundesamt aus unserem Beispiel 1 nicht zufällig 1000 Leute nach ihrem Bildungsstand fragt, sondern nur Studenten, würden sie sehr viel weniger realisierte Ausprägungen bekommen als theoretisch möglich, weil alle Studenten ja zumindest Abitur haben und solche Ausprägungen wie "kein Schulabschluss" oder "Realschulabschluss" schon mal nicht auftauchen würden. So, das war es dann auch für heute. Das waren die Grundbegriffe in unserem Kurs Statistik und nächstes Mal beschäftigen wir uns mit der Klassifikation von Daten. Ich sage: Vielen Dank fürs Zuschauen und tschüss.  

Informationen zum Video
7 Kommentare
  1. Default

    hhähähähähähähähähhähähähähähähä alter was ist das für ein geiles Video in dem alle auch noch was verstehen

    Von Judithroux, vor etwa 2 Jahren
  2. Default

    wieso ist x1=15 und x2=4 usw? wie kommst du drauf?

    Von Lea Seyda, vor mehr als 2 Jahren
  3. Default

    Stimmt, lag am Browser ;-)

    Von Sselimovic, vor mehr als 3 Jahren
  4. Default

    Also bei mir schon, das Problem scheint also bei dir zu liegen.

    Von Statistik Jona, vor mehr als 3 Jahren
  5. Default

    Das Video läuft leider ab 6:22 nicht mehr...

    Von Sselimovic, vor mehr als 3 Jahren
  1. Default

    X ist Element des Intervals [0, 365]

    Von Statistik Jona, vor fast 4 Jahren
  2. Default

    Hallo Jona,
    was steht denn bei 05:29 zwischen dem Merkmal X und den möglichen Ausprägungen (0,365)?

    Von Benny747, vor fast 4 Jahren
Mehr Kommentare