共分散は、統計学やデータ分析で重要な指標ですが、その求め方に悩む方も多いでしょう。この記事では、共分散の計算方法を詳しく解説し、実際のデータを使った計算例を通じて理解を深めます。さらに、共分散の意味や他の統計指標との関係についても触れます。

共分散は、2つの変数がどのように一緒に変動するかを示す統計的な指標です。簡単に言うと、2つの変数がどれだけ互いに影響を与え合っているか、つまり一方の変数が増加したときにもう一方の変数も増加するのか、または減少するのかを示すものです。

共分散が正であれば、2つの変数は同じ方向に変動する傾向があります。逆に、共分散が負であれば、2つの変数は反対方向に変動することを意味します。また、共分散がゼロに近い場合、2つの変数は独立して変動していると言えます。

共分散と似たような指標に「相関係数」があります。相関係数は共分散を変数の標準偏差で割ったものです。これにより、共分散の単位を無視して、変数間の関係性を-1から1の範囲で評価することができます。相関係数は共分散に比べて直感的に理解しやすい指標と言えるでしょう。

それでは、実際に共分散をどのように求めるかについて詳しく見ていきましょう。

1. 共分散の公式

共分散の公式は次の通りです:

共分散 (X,Y) = 1n i=1n ( Xi Xˉ ) ( Yi Yˉ ) \text{共分散}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})

ここで、

  • XiX_iYiY_i は、それぞれのデータ点
  • Xˉ\bar{X}Yˉ\bar{Y} は、各変数の平均
  • nn はデータ点の数

2. 実際のデータを使った共分散の計算例

まず、共分散を求めるためには、2つの変数のデータセットが必要です。例えば、2つの変数「身長」と「体重」のデータセットがあるとしましょう。

身長 (X) 体重 (Y)
160 55
170 65
180 75
175 70

次に、各変数の平均を求めます。身長と体重それぞれの平均を計算します。

Xˉ=160+170+180+1754=171.25 \bar{X} = \frac{160 + 170 + 180 + 175}{4} = 171.25

Yˉ=55+65+75+704=66.25 \bar{Y} = \frac{55 + 65 + 75 + 70}{4} = 66.25

次に、各データ点とその平均の差を計算します。

身長 (X) 体重 (Y) X - 平均(X) Y - 平均(Y) (X - 平均(X)) * (Y - 平均(Y))
160 55 -11.25 -11.25 126.5625
170 65 -1.25 -1.25 1.5625
180 75 8.75 8.75 76.5625
175 70 3.75 3.75 14.0625

次に、各データ点の差の積を合計し、その合計をデータ点の数で割ります。

共分散 = 126.5625+1.5625+76.5625+14.0625 4 =54.6875 \text{共分散} = \frac{126.5625 + 1.5625 + 76.5625 + 14.0625}{4} = 54.6875

この結果が、身長と体重の共分散です。

共分散は変数間の関係性を示しますが、その数値が大きいほど強い関係を示すわけではありません。むしろ、変数間の関係の方向(正または負)を示します。共分散がゼロであれば、2つの変数は独立していると言えるでしょう。

3. 共分散の応用と注意点

共分散は金融の分野でも活用されています。例えば、複数の株式のリスクを評価する際、各株式間の共分散を計算することが一般的です。共分散が正であれば、両方の株式は同じ方向に動きやすいと予測でき、逆に共分散が負であれば、片方の株式が上がるともう片方は下がる傾向があると言えます。

ポートフォリオ理論において、複数の株式や資産を組み合わせる際に、各資産間の共分散を計算し、リスクを最小化する組み合わせを見つけることが重要です。このように、共分散は投資戦略の策定にも欠かせない指標です。

共分散の計算にはいくつかの注意点があります。まず、共分散は単位が元の変数の単位の積になるため、異なる単位を持つ変数間で共分散を計算しても、その結果は直感的に理解しにくいことがあります。そのため、共分散を計算した後に相関係数を求めて、数値を標準化することが推奨されます。

共分散の単位は、変数Xと変数Yの単位の積となるため、たとえば身長(cm)と体重(kg)の場合、共分散の単位は「cm・kg」になります。この点を考慮して、異なる単位を持つ変数間での比較は慎重に行う必要があります。

共分散には「標本共分散」と「母集団共分散」があります。標本共分散は、サンプルデータから推定する共分散であり、母集団共分散は、全体のデータに基づく共分散です。標本共分散の場合、分母を「n-1」とすることで、標本偏差を補正します。

共分散は2つの変数間の関係性を示す重要な指標です。計算方法や解釈方法を理解し、実際のデータに適用することで、さまざまな分野で活用できます。共分散が正であれば2つの変数は同じ方向に変動し、負であれば反対方向に変動します。金融やデータ分析、統計学などで有効に使われるため、ぜひこの知識を活用してみてください。

おすすめの記事