Interpretation der Kovarianz Normalverteilungen zweier Variablen mit unterschiedlicher Kovarianz Die Kovarianz kann anhand dreier Wertebereiche qualitativ beschrieben werden:
Die Kovarianz ist positiv, wenn zwischen X {\displaystyle X} und Y {\displaystyle Y} ein Zusammenhang mit gleicher Tendenz besteht, d. h., hohe (niedrige) Werte von X {\displaystyle X} gehen mit hohen (niedrigen) Werten von Y {\displaystyle Y} einher. Die Kovarianz ist hingegen negativ, wenn zwischen X {\displaystyle X} und Y {\displaystyle Y} ein Zusammenhang mit gegensinniger Tendenz besteht, d. h. hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher und umgekehrt. Ist das Ergebnis null, so besteht kein systematischer Zusammenhang zwischen X {\displaystyle X} und Y {\displaystyle Y} .
Zusammenhang von Kovarianz und Korrelation Die Kovarianz ist zu zwei Eigenschaften der Daten proportional, der Stärke des Zusammenhangs und den Amplituden beider Streuungen. Um den Zusammenhang isoliert zu betrachten und vergleichbar zu machen, kann die Kovarianz mithilfe der Standardabweichung durch den Korrelationskoeffizient standardisiert werden.
Durch die Umrechnung der Kovarianz in die Korrelation
ρ x y = Corr ( X , Y ) = Cov ( X , Y ) Std ( X ) Std ( Y ) = Cov ( X , Y ) Var ( X ) Var ( Y ) {\displaystyle \rho _{xy}=\operatorname {Corr} (X,Y)={\frac {\operatorname {Cov} (X,Y)}{\operatorname {Std} (X)\operatorname {Std} (Y)}}={\frac {\operatorname {Cov} (X,Y)}{\sqrt {\operatorname {Var} (X)\operatorname {Var} (Y)}}}} wird der Wertebereich in das Intervall [ − 1 , 1 ] {\displaystyle [-1,1]} projiziert. Dabei können folgende Fälle unterschieden werden:
ρ x y {\displaystyle \rho _{xy}} = 1 vollständig (positiv) korreliert 0 < ρ x y {\displaystyle \rho _{xy}} < 1 partiell (positiv) korreliert ρ x y {\displaystyle \rho _{xy}} = 0 vollständig unkorreliert −1 < ρ x y {\displaystyle \rho _{xy}} < 0 partiell antikorreliert ρ x y {\displaystyle \rho _{xy}} = −1 vollständig antikorreliert
Existenz Falls X {\displaystyle X} und Y {\displaystyle Y} quadratintegrierbar sind, also falls E ( | X | 2 ) = E ( X 2 ) < ∞ {\displaystyle \operatorname {E} (|X|^{2})=\operatorname {E} (X^{2})<\infty } und E ( | Y | 2 ) = E ( Y 2 ) < ∞ {\displaystyle \operatorname {E} (|Y|^{2})=\operatorname {E} (Y^{2})<\infty } gelten, so folgen aus der Cauchy-Schwarz-Ungleichung :
E ( | X | ) = E ( | X | ⋅ 1 ) ≤ E ( | X | 2 ) < ∞ {\displaystyle \operatorname {E} (|X|)=\operatorname {E} (|X|\cdot 1)\leq {\sqrt {\operatorname {E} (|X|^{2})}}<\infty } und analog E ( | Y | ) ≤ E ( | Y | 2 ) < ∞ {\displaystyle \operatorname {E} (|Y|)\leq {\sqrt {\operatorname {E} (|Y|^{2})}}<\infty } und zusätzlich E ( | X ⋅ Y | ) ≤ E ( | X | ⋅ | Y | ) ≤ E ( | X | 2 ) ⋅ E ( | Y | 2 ) < ∞ {\displaystyle \operatorname {E} (|X\cdot Y|)\leq \operatorname {E} (|X|\cdot |Y|)\leq {\sqrt {\operatorname {E} (|X|^{2})\cdot \operatorname {E} (|Y|^{2})}}<\infty } .Somit ist die geforderte Existenz der Erwartungswerte für quadratintegrierbare Zufallsvariablen erfüllt.
Verschiebungssatz Zur oft einfacheren Berechnung der Kovarianz kann man auch den Verschiebungssatz als alternative Darstellung der Kovarianz anwenden.
Satz (Verschiebungssatz für die Kovarianz):
Cov ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) . {\displaystyle \operatorname {Cov} (X,Y)=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y).} Beweis:
Cov ( X , Y ) = E [ ( X − E ( X ) ) ⋅ ( Y − E ( Y ) ) ] = E [ ( X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ) ] = E ( X Y ) − E ( X ) E ( Y ) − E ( Y ) E ( X ) + E ( X ) E ( Y ) = E ( X Y ) − E ( X ) E ( Y ) ◻ {\displaystyle {\begin{aligned}\operatorname {Cov} (X,Y)&=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (Y-\operatorname {E} (Y)){\bigr ]}\\&=\operatorname {E} {\bigl [}(XY-X\operatorname {E} (Y)-Y\operatorname {E} (X)+\operatorname {E} (X)\operatorname {E} (Y)){\bigr ]}\\&=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)-\operatorname {E} (Y)\operatorname {E} (X)+\operatorname {E} (X)\operatorname {E} (Y)\\&=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)\qquad \Box \end{aligned}}}
Beziehung zur Varianz Wie aus der Definition direkt ersichtlich, gilt Var ( X ) = Cov ( X , X ) . {\displaystyle \operatorname {Var} (X)=\operatorname {Cov} (X,X).} Damit ist die Kovarianz eine Verallgemeinerung der Varianz .
Mit Hilfe der Kovarianzen lässt sich auch die Varianz einer Summe von quadratintegrierbaren Zufallsvariablen berechnen. Allgemein gilt
Var ( ∑ i = 1 n X i ) = ∑ i , j = 1 n Cov ( X i , X j ) = ∑ i = 1 n Var ( X i ) + ∑ i , j = 1 , i ≠ j n Cov ( X i , X j ) = ∑ i = 1 n Var ( X i ) + 2 ∑ i = 1 n − 1 ∑ j = i + 1 n Cov ( X i , X j ) . {\displaystyle {\begin{aligned}\operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)&=\sum _{i,j=1}^{n}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{n}\operatorname {Var} (X_{i})+\sum _{i,j=1,i\neq j}^{n}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{n}\operatorname {Var} (X_{i})+2\sum _{i=1}^{n-1}\sum _{j=i+1}^{n}\operatorname {Cov} (X_{i},X_{j}).\end{aligned}}} Speziell für die Summe zweier Zufallsvariablen gilt daher die Formel
Var ( X + Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X , Y ) . {\displaystyle \operatorname {Var} (X+Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)+2\operatorname {Cov} (X,Y).} Wie sich unmittelbar aus der Definition ergibt, ändert die Kovarianz das Vorzeichen, wenn eine der Variablen das Vorzeichen ändert:
Cov ( X , − Y ) = − Cov ( X , Y ) {\displaystyle \operatorname {Cov} (X,-Y)=-\operatorname {Cov} (X,Y)} Somit ergibt sich für die Differenz zweier Zufallsvariablen die Formel
Var ( X − Y ) = Var ( X + ( − Y ) ) = Var ( X ) + Var ( Y ) − 2 Cov ( X , Y ) . {\displaystyle \operatorname {Var} (X-Y)=\operatorname {Var} (X+(-Y))=\operatorname {Var} (X)+\operatorname {Var} (Y)-2\operatorname {Cov} (X,Y).}
Linearität, Symmetrie und Definitheit Satz: Die Kovarianz ist eine positiv semidefinite symmetrische Bilinearform auf dem Vektorraum der quadratisch integrierbaren Zufallsvariablen.
Es gelten also die folgenden drei Sätze:
Satz (Bilinearität): Für a , b , c , d , e , f , g , h ∈ R {\displaystyle a,b,c,d,e,f,g,h\in \mathbb {R} } gilt:
Cov ( a X + b , c Y + d ) = a c Cov ( X , Y ) u n d {\displaystyle \operatorname {Cov} (aX+b,cY+d)=ac\operatorname {Cov} (X,Y)\qquad und} Cov [ X , ( e Y + f ) + ( g Z + h ) ] = e Cov ( X , Y ) + g Cov ( X , Z ) . {\displaystyle \operatorname {Cov} [X,(eY+f)+(gZ+h)]=e\operatorname {Cov} (X,Y)+g\operatorname {Cov} (X,Z).} Beweis:
Cov ( a X + b , c Y + d ) = E [ ( a X + b − E ( a X + b ) ) ⋅ ( c Y + d − E ( c Y + d ) ) ] = E [ ( a X − a E ( X ) ) ⋅ ( c Y − c E ( Y ) ) ] = a c E [ ( X − E ( X ) ) ⋅ ( Y − E ( Y ) ) ] = a c Cov ( X , Y ) {\displaystyle {\begin{aligned}\operatorname {Cov} (aX+b,cY+d)&=\operatorname {E} {\bigl [}(aX+b-\operatorname {E} (aX+b))\cdot (cY+d-\operatorname {E} (cY+d)){\bigr ]}\\&=\operatorname {E} {\bigl [}(aX-a\operatorname {E} (X))\cdot (cY-c\operatorname {E} (Y)){\bigr ]}\\&=ac\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (Y-\operatorname {E} (Y)){\bigr ]}\\&=ac\operatorname {Cov} (X,Y)\end{aligned}}} Cov [ X , ( e Y + f ) + ( g Z + h ) ] = E [ ( X − E ( X ) ) ⋅ ( e Y + f + g Z + h − E ( e Y + f + g Z + h ) ) ] = E [ ( X − E ( X ) ) ⋅ ( e Y − e E ( Y ) + g Z − g E ( Z ) ) ] = E [ ( X − E ( X ) ) ⋅ e ( Y − E ( Y ) ) + ( X − E ( X ) ) ⋅ g ( Z − E ( Z ) ) ] = e E [ ( X − E ( X ) ) ⋅ ( Y − E ( Y ) ) ] + g E [ ( X − E ( X ) ) ⋅ ( Z − E ( Z ) ) ] = e Cov ( X , Y ) + g Cov ( X , Z ) ◻ {\displaystyle {\begin{aligned}\operatorname {Cov} [X,(eY+f)+(gZ+h)]&=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (eY+f+gZ+h-\operatorname {E} (eY+f+gZ+h)){\bigr ]}\\&=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (eY-e\operatorname {E} (Y)+gZ-g\operatorname {E} (Z)){\bigr ]}\\&=\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot e(Y-\operatorname {E} (Y))+(X-\operatorname {E} (X))\cdot g(Z-\operatorname {E} (Z)){\bigr ]}\\&=e\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (Y-\operatorname {E} (Y)){\bigr ]}+g\operatorname {E} {\bigl [}(X-\operatorname {E} (X))\cdot (Z-\operatorname {E} (Z)){\bigr ]}\\&=e\operatorname {Cov} (X,Y)+g\operatorname {Cov} (X,Z)\qquad \Box \end{aligned}}} Die Kovarianz ist offensichtlich invariant unter der Addition von Konstanten zu den Zufallsvariablen. In der zweiten Gleichung ist die Kovarianz wegen der Symmetrie auch im ersten Argument linear.
Satz (Symmetrie):
Cov ( X , Y ) = Cov ( Y , X ) {\displaystyle \operatorname {Cov} (X,Y)=\operatorname {Cov} (Y,X)} Beweis:
Cov ( X , Y ) = E [ ( Y − E ( Y ) ) ⋅ ( X − E ( X ) ) ] = Cov ( Y , X ) ◻ {\displaystyle {\begin{aligned}\operatorname {Cov} (X,Y)&=\operatorname {E} {\bigl [}(Y-\operatorname {E} (Y))\cdot (X-\operatorname {E} (X)){\bigr ]}\\&=\operatorname {Cov} (Y,X)\qquad \Box \end{aligned}}} Satz (Positive Semidefinitheit):
Cov ( X , X ) ≥ 0. {\displaystyle \operatorname {Cov} (X,X)\geq 0.} Beweis:
Cov ( X , X ) = Var ( X ) ≥ 0 ◻ {\displaystyle \operatorname {Cov} (X,X)=\operatorname {Var} (X)\geq 0\qquad \Box } Insgesamt folgt wie für jede positiv semidefinite symmetrische Bilinearform die Cauchy-Schwarzsche Ungleichung
| Cov ( X , Y ) | ≤ Var ( X ) ⋅ Var ( Y ) {\displaystyle |\operatorname {Cov} (X,Y)|\leq {\sqrt {\operatorname {Var} (X)}}\cdot {\sqrt {\operatorname {Var} (Y)}}} Die Linearität der Kovarianz hat zur Folge, dass die Kovarianz vom Maßstab der Zufallsvariablen abhängt. So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt X {\displaystyle X} die Zufallsvariable 10 X {\displaystyle 10X} betrachtet. Insbesondere hängt der Wert der Kovarianz von den verwendeten Maßeinheiten der Zufallsvariablen ab. Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht, betrachtet man bei der Untersuchung auf einen linearen Zusammenhang zwischen X {\displaystyle X} und Y {\displaystyle Y} häufig stattdessen den maßstabsunabhängigen Korrelationskoeffizienten. Der maßstabsunabhängige Korrelationskoeffizient zweier Zufallsvariablen X {\displaystyle X} und Y {\displaystyle Y} ist die Kovarianz der standardisierten (auf die Standardabweichung bezogenen) Zufallsvariablen X ~ = X / σ X {\displaystyle {\tilde {X}}=X/\sigma _{X}} und Y ~ = Y / σ Y {\displaystyle {\tilde {Y}}=Y/\sigma _{Y}} :[3]
Cov ( X ~ , Y ~ ) = Cov ( X / σ X , Y / σ Y ) = 1 σ X σ Y Cov ( X , Y ) =: ρ ( X , Y ) {\displaystyle \operatorname {Cov} ({\tilde {X}},{\tilde {Y}})=\operatorname {Cov} (X/\sigma _{X},Y/\sigma _{Y})={\frac {1}{\sigma _{X}\sigma _{Y}}}\operatorname {Cov} (X,Y)=:\rho (X,Y)} .
Unkorreliertheit und Unabhängigkeit Definition (Unkorreliertheit): Zwei Zufallsvariablen X {\displaystyle X} und Y {\displaystyle Y} heißen unkorreliert, wenn Cov ( X , Y ) = 0 {\displaystyle \operatorname {Cov} (X,Y)=0} .
Satz: Zwei stochastisch unabhängige Zufallsvariablen sind unkorreliert.
Beweis: Für stochastisch unabhängige Zufallsvariablen X {\displaystyle X} und Y {\displaystyle Y} gilt E ( X Y ) = E ( X ) E ( Y ) {\displaystyle \operatorname {E} (XY)=\operatorname {E} (X)\operatorname {E} (Y)} , d. h.
E ( X Y ) − E ( X ) E ( Y ) = 0 ⟹ Cov ( X , Y ) = 0. {\displaystyle {\begin{aligned}\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)&=0\\\Longrightarrow \qquad \qquad \qquad \operatorname {Cov} (X,Y)&=0.\qquad \end{aligned}}} Der Umkehrschluss gilt im Allgemeinen nicht. Ein Gegenbeispiel ist gegeben durch eine im Intervall [ − 1 , 1 ] {\displaystyle [-1,1]} gleichverteilte Zufallsvariable X {\displaystyle X} und Y = X 2 {\displaystyle Y=X^{2}} . Offenkundig sind X {\displaystyle X} und Y {\displaystyle Y} voneinander abhängig. Es gilt aber
Cov ( X , Y ) = Cov ( X , X 2 ) = E ( X 3 ) − E ( X ) E ( X 2 ) = 0 − 0 ⋅ E ( X 2 ) = 0 {\displaystyle \operatorname {Cov} (X,Y)=\operatorname {Cov} (X,X^{2})=\operatorname {E} (X^{3})-\operatorname {E} (X)\operatorname {E} (X^{2})=0-0\cdot \operatorname {E} (X^{2})=0} .Stochastisch unabhängige Zufallsvariablen, deren Kovarianz existiert, sind also auch unkorreliert. Umgekehrt bedeutet Unkorreliertheit aber nicht zwingend, dass die Zufallsvariablen stochastisch unabhängig sind, denn es kann eine nichtmonotone Abhängigkeit bestehen, die die Kovarianz nicht erfasst.
Weitere Beispiele für unkorrelierte, aber stochastisch abhängige Zufallsvariablen:
Seien X {\displaystyle X} und Y {\displaystyle Y} Zufallsvariablen mit P ( X = 0 , Y = 1 ) = 1 2 {\displaystyle P(X=0,Y=1)={\tfrac {1}{2}}} und P ( X = 2 , Y = 0 ) = P ( X = 2 , Y = 2 ) = 1 4 . {\displaystyle P(X=2,Y=0)=P(X=2,Y=2)={\tfrac {1}{4}}.} Dann gilt P ( X = 0 ) = P ( X = 2 ) = 1 2 {\displaystyle P(X=0)=P(X=2)={\tfrac {1}{2}}} und P ( Y = 0 ) = P ( Y = 2 ) = 1 4 {\displaystyle P(Y=0)=P(Y=2)={\tfrac {1}{4}}} , P ( Y = 1 ) = 1 2 . {\displaystyle P(Y=1)={\tfrac {1}{2}}.} Es folgt E ( X ) = E ( Y ) = 1 {\displaystyle \operatorname {E} (X)=\operatorname {E} (Y)=1} und ebenfalls E ( X Y ) = 1 {\displaystyle \operatorname {E} (XY)=1} , also Cov ( X , Y ) = 0. {\displaystyle \operatorname {Cov} (X,Y)=0.} Andererseits sind X {\displaystyle X} und Y {\displaystyle Y} wegen P ( X = 0 , Y = 1 ) = 1 2 ≠ 1 2 ⋅ 1 2 = P ( X = 0 ) P ( Y = 1 ) {\displaystyle P(X=0,Y=1)={\tfrac {1}{2}}\neq {\tfrac {1}{2}}\cdot {\tfrac {1}{2}}=P(X=0)P(Y=1)} nicht stochastisch unabhängig. Seien die Zufallsvariablen X {\displaystyle X} und Y {\displaystyle Y} bernoulliverteilt mit Parameter p {\displaystyle p} und unabhängig, dann sind ( X + Y ) {\displaystyle (X+Y)} und ( X − Y ) {\displaystyle (X-Y)} unkorreliert, aber nicht unabhängig. Die Unkorreliertheit ist klar, denn Cov ( X + Y , X − Y ) = Cov ( X , X ) − Cov ( X , Y ) + Cov ( Y , X ) − Cov ( Y , Y ) = 0. {\displaystyle \operatorname {Cov} (X+Y,X-Y)=\operatorname {Cov} (X,X)-\operatorname {Cov} (X,Y)+\operatorname {Cov} (Y,X)-\operatorname {Cov} (Y,Y)=0.} Aber ( X + Y ) {\displaystyle (X+Y)} und ( X − Y ) {\displaystyle (X-Y)} sind nicht unabhängig, denn es ist P ( X + Y = 0 , X − Y = 1 ) = 0 ≠ p ( 1 − p ) 3 = P ( X + Y = 0 ) P ( X − Y = 1 ) . {\displaystyle P(X+Y=0,X-Y=1)=0\neq p(1-p)^{3}=P(X+Y=0)P(X-Y=1).}