Ein zum Thema passendes Youtube Video gibt’s hier

Eine kurze Zusammenfassung

Um eine Beziehung zwischen zwei numerischen Variablen in Zahlen ausdrücken zu können, eignet sich die Korrelation (auch Korrelationskoeffizient, Produkt-Moment-Korrelation, Pearson-Korrelation). Sie wird als \(\rho\) bzw. \(r\) angegeben und kann einen Wert von \(-1\) bis \(+1\) annehmen. Tatsächlich kann man aus einem Plot wie dem oben schon recht gut abschätzen was für eine Korrelation zu erwarten ist. Hier zum Vergleich ein Überblick:

Wie man sieht bedeutet also \(\rho=0\), dass es keine Korrelation gibt - die zwei Merkmale x und y bedingen sich scheinbar nicht. Je weiter die Werte von 0 entfernt liegen, desto stärker ist die Korrelation - entweder im positive oder im negativen. Eine positive Korrelation bedeutet, dass wenn eine Variable größer wird, die andere das auch tut. Eine negative Korrelation bedeutet, dass wenn eine Variable größer wird, die andere kleiner wird. Deswegen ist übrigens auch die Reihenfolge der beiden Variablen egal: Die Korrelation zwischen x und y ist dieselbe wie die zwischen y und x. Unter anderem deshalb ist die Korrelation auch kein statistisches Modell - sie kann ja auch keine Vorhersagen machen. Außerdem ist Korrelation auch nicht gleich Kausalität, sprich nur weil zwei Merkmale korrelieren, heißt es noch lange nicht, dass ein Merkmale das andere direkt bedingt (Hier eine Seite mit interessanten Beispielen dazu).

Signifikanz

Die Nullhypothese \(H_0\) behauptet, dass es in Wahrheit keine Korrelation gibt, also \(H_0: \rho=0\) und die Alternativehypothese \(H_A\) behauptet, dass dies eben nicht so ist \(H_A: \rho\neq0\). Mit dem Befehl cor.test() wird geprüft ob die Nullhyopthese abgelehnt werden kann. Wenn dies der Fall ist, ist die Korrelation signifikant. Genauer: Die Korrelation ist signifikant von 0 verschieden.

Wenn der Schätzwert für die Korrelation deutlich von 0 abweicht, mag dies nicht sehr sinnvoll erscheinen. Doch gerade in Fällen bei denen \(r\) einen Wert nahe 0 einnimmmt und der zugrundeliegende Datensatz nicht sehr groß ist, kann die Erkenntnis der Signifikanz einen Mehrwert haben.

 

Bei Fragen kannst du mir gerne schreiben!

schmidtpaul@hotmail.de