Transformation Normalverteilung Beispiel Essay

Nehmen wir einmal an, uns lägen von einer Untersuchung der Wassertiefe an einem Deich genau zwei Merkmalswerte vor: Die Wassertiefe (1,85 m) sowie die Haarfarbe der Person, welche die Messung vorgenommen hat (blond). Intuitiv wird uns klar sein, dass sich mit dem Wert für die Wassertiefe deutlich mehr anfangen lässt, als mit der Angabe der Haarfarbe. So könnte man den Wert etwa mit dem einer vorherigen Messung vergleichen und berechnen, um wie viel Prozent der Wasserstand gefallen oder gestiegen ist. Kalkulieren könnte man auch die Differenz zur Höhe des Deichs und damit die Höhe, um die das Wasser noch steigen könnte, bevor eine kritische Marke erreicht wird. Im Hinblick auf die Haarfarbe könnten wir dagegen lediglich einen Vergleich mit den Aufzeichnungen früherer Messungen anstellen und ermitteln, ob die Prüfer stets blond waren, oder ob auch andere Haarfarben vertreten sind.

Der Informationsgehalt des Merkmals “Wassertiefe in m” ist offenbar deutlich größer als der Informationsgehalt des Merkmals “Haarfarbe”. Diese zentrale Eigenschaft von Merkmalen bzw. Variablen wird in der Statistik als deren Skalenniveau bezeichnet. Da die Durchführbarkeit einer Vielzahl von Analysen direkt oder indirekt davon abhängig ist, dass die vorhandenen Daten ein bestimmtes Skalenniveau erreichen, ist dessen fehlerfreie Bestimmung eine unerlässliche Voraussetzung für die Anwendung dieser Verfahren. Für die Zwecke unserer Statistik-Blogserie hier im “Wissenschafts-Thurm” wird eine Unterscheidung in die nachfolgend dargestellten drei Skalenniveaus ausreichend sein.

Nominalskalenniveau

Bei nominalskalierten Daten handelt es sich um Daten, die in keinerlei natürliche Reihenfolge gebracht werden können – beispielsweise um das Geschlecht, die Haarfarbe oder die Telefonnummer. Feststellbar ist hier lediglich, ob zwei statistische Einheiten im Hinblick auf ein nominalskaliertes Merkmal die gleichen Ausprägungen aufweisen – d.h. ob etwa beide befragten Personen blond sind oder ob sie über unterschiedliche Haarfarben verfügen. Da es sich beim Nominalskalennivau um dasjenige Skalenniveau mit dem geringsten Informationsgehalt handelt, lassen sich mit nominalskalierten Daten nur wenige Berechnungen anstellen – so kommt etwa als Lagemaß nur der Modus in Frage, während sich Streuung, Schiefe oder Wölbung einer nominalskalierten Verteilung gar nicht bestimmen lassen.

Beispiele: Geschlecht, Kontonummer, Haarfarbe, Telefonnummer, Geschmacksrichtung…



Ordinalskalenniveau

Im Gegensatz zu nominalskalierten Daten können ordinalskalierte Daten zwar in eine natürliche Reihenfolge gebracht werden – da allerdings die Abstände zwischen den einzelnen Werten nicht quantifizierbar sind, kann mit ihnen nicht “normal gerechnet” werden, obwohl es sich auf den ersten Blick um “normale Zahlen” handelt. Das klassische Beispiel hierfür sind Schulnoten. Schulnoten weisen sowohl eine natürliche Reihenfolge (eine 1 ist besser als eine 2, eine 2 ist besser als eine 3 usw.) als auch unterschiedliche Abstände zwischen den einzelnen Werten auf (der Notenbereich der 1 umfasst den Bereich von 92% bis 100% der maximal erreichbaren Punkte, der Notenbereich der 5 dagegen den Bereich von 0% bis 49%). Aus diesem Grund sind Rechenoperationen wie etwa das Addieren oder das Subtrahieren von Noten nicht sinnvoll: Zwei “2er” ergeben keinen “4er” – und wenn man von einem “2er” einen “1er” abzieht, erhält man auch keinen “3er”. Wenn man aber Schulnoten nicht addieren (oder dividieren) kann, folgt daraus auch, dass man beispielsweise kein arithmetisches Mittel aus ihnen bilden darf – auch wenn das leider an sehr vielen Schulen konsequent falsch praktiziert wird (und damit Generationen von Schülerinnen und Schülern für die Statistik verdorben werden).

Beispiele: Schulnoten, Präferenzrangfolgen, Zufriedenheit (z.B. auf einer Skala von 1 bis 5), militärische Dienstränge…

Metrisches Skalenniveau

Metrisch skalierte Daten verfügen über eine natürliche Reihenfolge sowie auch über quantifizierbare Abstände – mit ihnen kann also ganz “normal” gerechnet werden. In vielen Lehrbüchern wird innerhalb der metrischen Skala – die häufig auch als Kardinalskala bezeichnet wird – zusätzlich noch in die Intervallskala (ohne natürlichen Nullpunkt – z.B. Temperatur in Celsius) und in die Verhältnisskala (mit natürlichem Nullpunkt – z.B. Temperatur in Kelvin) unterschieden. Für die Zwecke unserer kleinen Blogserie wird diese Unterscheidung allerdings nicht von Bedeutung sein – hier reicht es vollkommen aus, metrisch skalierte Daten als solche korrekt erkennen zu können.

Beispiele: Zeitdauer in sek, Wassertiefe in cm, Preis in Euro und Cent, Streckenlänge in mm…

(Die Unterschiede zwischen diskreten und stetigen Daten sowie zwischen häufbaren und nicht häufbaren Merkmalen, werden wir dann übrigens in den nächsten Artikeln dieser Blogserie betrachten.)

Auf- und Abwärtskompatibilität

Für die im Rahmen unserer Blogserie betrachteten statistischen Verfahren gilt, dass sie im Hinblick auf das Skalenniveau – um an dieser Stelle einmal einen Begriff aus der Informatik zu bemühen – abwärtskompatibel, nicht aber aufwärtskompatibel sind. Dies bedeutet: Verfahren, die ein niedrigeres Skalenniveau voraussetzen, können stets auch auf Daten eines höheren Skalenniveaus angewandt werden – Verfahren, die ein höheres Skalenniveau voraussetzen, dürfen dagegen nie auf Daten eines niedrigeren Skalenniveaus angewandt werden. Da beispielsweise die Bestimmung des Modus lediglich voraussetzt, dass mindestens nominalskalierte Daten vorliegen, kann der Modus (wenn die übrigen Voraussetzungen erfüllt sind) auch für ordinalskalierte und metrische Daten bestimmt werden. Auf der anderen Seite kann etwa der Median, dessen Berechnung mindestens ordinalskalierte Daten voraussetzt, nicht für nominalskalierte Daten berechnet werden – die Berechnung für metrische Daten wäre dagegen problemlos möglich.

Der „Cheat Sheet“: Übersicht der Mindestskalenniveaus

An dieser Stelle greifen wir den in den nächsten Wochen noch folgenden Blogposts in einer kurzen Übersicht schon einmal ein wenig vor: Welches Skalenniveau muss mindestens erreicht werden, um eine Grafik erstellen oder eine Berechnung durchführen zu können?

1) Lagemaße / Maße der zentralen Tendenz

Modus: Nominalskala
Median: Ordinalskala
Quartile: Ordinalskala
Quantile: Ordinalskala
Perzentile: Ordinalskala
Arithmetisches Mittel: Kardinalskala
Geometrisches Mittel: Kardinalskala
Harmonisches Mittel: Kardinalskala

2) Streuungsmaße / Dispersionsparameter

Fünf-Werte-Zusammenfassung: Ordinalskala
Interquartilsabstand: Ordinalskala
Spannweite: Kardinalskala
Varianz: Kardinalskala
Standardabweichung: Kardinalskala
Variationskoeffizient: Kardinalskala

3) Verteilungsmaße / Schiefe und Wölbung

Quartilskoeffizient der Schiefe: Ordinalskala
Momentenkoeffizient der Schiefe: Kardinalskala
Kurtosis / Exzeß: Kardinalskala

4) Grafische Darstellungsformen

Venn-Diagramm: Nominalskala
Stamm-Blatt-Diagramm: Ordinalskala
(erweiterter) Box-Whisker-Plot: Ordinalskala

5) Zusammenhangsmaße

Chi²-Test auf stochastische Unabhängigkeit: Nominalskala
Rangkorrelationskoeffizient nach Spearman: Ordinalskala
Konkordanzkoeffizient nach Kendall: Ordinalskala
Bravais-Pearson-Korrelationskoeffizient: Kardinalskala


Die hier vorgestellten Inhalte und Aufgaben sind Teil der Vorlesung “Grundlagen der Statistik” im berufsbegleitenden Bachelor-Studiengang Betriebswirtschaftslehre an der Hochschule Harz.

Autor: Christian Reinboth

Christian Reinboth ist Wirtschaftsinformatiker und einer der Mit-Gründer der HarzOptics GmbH, einem An-Institut der Hochschule Harz. Die Entwicklung und Planung umweltfreundlicher Beleuchtung sowie die statistische Datenanalyse sind wesentliche Schwerpunkte seiner Forschungs- und Lehrtätigkeit.

SchlagwörterIntervallskalaKardinalskalaNominalskalaOrdinalskalaSkalenniveauSkalenniveausStatistikVerhältnisskala

Wozu brauchst Du eine Transformation Deiner Daten?

Wenn sich Deine Daten als nicht normalverteilt herausstellen, kannst Du versuchen, sie durch Transformation in eine annähernde Normalverteilung umzuformen. Wenn das gelingt, rechnest Du anschließend die weiteren Analysen wie Signifikanztests mit den transformierten Daten. Dann ist es möglich, parametrische Methoden, die Normalverteilung fordern, anzuwenden.

Auch andere Probleme mit der Verteilung, wie zum Beispiel Hetereskedastizität, Nicht-Linearität oder Ausreißer können eventuell mit Transformationen behoben werden.

Ist das Datenmanimpulation?

Die Transformation ist dabei keine Datenmanipulation und völlig legitim und eine Standardmethode in der Statistik. Es ist aber wichtig, dass als Transformation nur Formeln verwendet werden, die die Reihenfolge der Beobachtungen nicht durcheinander werfen. Die Reihenfolge komplett umkehren ist aber wieder kein Problem, nur durcheinander gemischt werden darf die Reihenfolge nicht. Dadurch bleiben die relativen Unterschiede zwischen den Beobachtungen für die Variable bestehen. Das ist wichtig.

Die Transformation ändert allerdings die Beziehung zwischen Variablen, und das ist auch so gewollt (z.B. wenn das Problem der Nicht-Linearität damit behoben werden soll). Deshalb muss bei der Interpretation der Ergebnisse später die Transformation mit berücksichtigt werden. Z.B. bei einer Regression sind die Regressionskoeffizienten dann auf der Skala des transformierten Faktors zu interpretieren.

Welche Transformation passt?

Es gibt keine grundsätzliche Regel, welche Transformation wann passt. Du musst hier nach dem Prinzip von Trial-and-Error vorgehen. Du probierst also einfach eine Transformation nach der anderen aus. Das heißt,

  1. Du transformierst Deine Variable  mit der ausgewählten Formel.
  2. Dazu erstellst Du eine neue Variable im Datensatz. Wie das in SPSS geht siehst Du zum Beispiel hier.
  3. Dann prüfst Du diese neue Variable auf Normalverteilung, z.B. mit Q-Q-Diagrammen oder entsprechenden Tests. Dazu findest Du Hinweise hier.
  4. Wenn das Ergebnis passt, die neue Variable also annähernd normalverteilt ist, rechnest Du die folgende Analysen mit dieser neuen Variablen weiter.
  5. Wenn nicht, suchst Du Dir eine neue Formel aus und probierst diese aus, beginnst also wieder oben bei 1.

Damit Du bei der Auswahl der Transformation nicht völlig im Nebel stocherst, gebe ich Dir in der folgenden Tabelle die gängigsten Transformationen mit den Einsatzgebieten als Übersicht. Damit kannst Du leichter auswählen, mit welcher Art von Transformation Du das Ausprobieren startest.

TransformationFormelVerwendung
mit dem Logarithums (Logtransformation)log(x)Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität
mit der Wurzelfunktionwurzel(x)Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität
mit dem Kehrwert1/xPositive Schiefe, positive Kurtosis, ungleiche Varianzen
Reverse-Score (jeden Wert vom größten Wert abziehen)maximum - xdiese Transformation wird mit obigen kombiniert, um z.B. negative Schiefe zu bereinigen, Beispiel: log(maximum - x)
Addieren einer Konstantenx + aDiese Transformation wird vorgeschalten, wenn die Variable negative Werte oder Nuller enthält, damit anschließend eine der obigen Transformationen angewandt werden kann. Beispiel: 1/(x + a)

Wie in der Tabelle schon angedeutet, sind auch Kombinationen der einzelnen Transformationen möglich und manchmal nötig. So müssen zum Beispiel negative Werte meist zunächst in den positiven Bereich verschoben werden (Addition einer Konstanten), um sie dann mit z.B. dem Logarithmus weiter transformieren zu können.

Welche Alternative gibt es?

Das Ausprobieren der Transformationen kann zeitaufwendig sein und manchmal führt es zu keinem zufriedenstellenden Ergbnis. Wenn also die Daten trotz verschiedener Transformationen nicht annähernd normalverteilt wird, bleibt nur die Verwendung nichtparametrischer Methoden für die weitere Analyse.

Quellen:

  • Andy Field, Discovering Statistics Using SPSS, SAGE, 2013
  • Beitragsbild von pixabay.com

Wenn Du Interesse hast, die Analyse für Deine Abschlussarbeit mit SPSS von mir angeleitet und in der Gruppe umzusetzen, dann ist der im März 2017 startende Onlinekurs für Dich interessant. Hier kannst Du Dich genauer informieren!

 

Das könnte Dich auch interessieren:

Dieser Eintrag wurde veröffentlicht in Daten und verschlagwortet mit Datentransformation, Kurtosis, Log-Transformation, Logtransformation, Normalverteilung, Schiefe, Transformation von Daniela Keller. Permanenter Link zum Eintrag.

0 thoughts on “Transformation Normalverteilung Beispiel Essay

Leave a Reply

Your email address will not be published. Required fields are marked *