ケィオスの時系列解析メモランダム

時系列解析,生体情報学,数学・物理などの解説です.

【データ解析】相関係数の直感的理解

相関係数の話の続きです.

chaos-kiyono.hatenablog.com

 今回は,相関係数が正になったり,負になったりすることを直感的に理解することが目的です.

相関係数と散布図の関係.100点の場合.

相関係数の推定量

 対応する2変量の実現値\{(x_i, y_i)\}N点あったとき,相関係数rの推定量は,

 r = \frac{\displaystyle \frac{1}{N}\sum_{i=1}^N \left(x_i-\bar{x} \right)\left(y_i-\bar{y} \right)}{\displaystyle \sqrt{\frac{1}{N}\sum_{i=1}^N \left(x_i-\bar{x} \right)^2} \sqrt{\frac{1}{N}\sum_{i=1}^N \left(y_i-\bar{y} \right)^2}}

が一般的です.ここで,\bar{x}\bar{y}は,それぞれ,\{x_i\}\{y_i\}の標本平均です.

散布図の構造と相関係数

 上の式で計算した相関係数が,1に近かったり,0に近かったり,-1に近かったりすることと,散布図の関係はどうなってるのでしょうか.

 標本平均\bar{x}\bar{y}を引くのは,値のばらつきを0まわりにするためなので,以下では簡単化のため,\{x_i\}\{y_i\}の標本平均が0の場合を考えます.

 標本平均が0のとき,相関係数の推定量

 r = \frac{\displaystyle \frac{1}{N}\sum_{i=1}^N x_i \, y_i}{\displaystyle \sqrt{\frac{1}{N}\sum_{i=1}^N x_i^2} \sqrt{\frac{1}{N}\sum_{i=1}^N y_i^2}}

です.この分子

 \displaystyle \frac{1}{N}\sum_{i=1}^N x_i \, y_i

の値を,散布図の象限毎に分けて考えると,相関係数の正になったり,負になったりすることの直感的な意味が見えてきます.

 下の図で,第1象限と第3象限にある点は,符号が同じなので,

 \displaystyle x_i \, y_i > 0

です.それに対し,第2象限と第4象限にある点は,符号が逆なので,

 \displaystyle x_i \, y_i < 0

です.

 下の図では,一番右の図が,象限毎の\displaystyle x_i \, y_i の和をNで割った値を示しています.

相関係数の符号の意味.

 散布図が,右上がりだと,\displaystyle x_i \, y_i > 0の割合が多いので,相関係数は正になります.特に右上がり45°の直線に近いほど,\displaystyle x_i \, y_iの値が大きくなります.

 逆に散布図が,右下がりだと,\displaystyle x_i \, y_i < 0の割合が多いので,相関係数は負になります.

 相関係数が0に近いときは,\displaystyle x_i \, y_i > 0になる領域と,\displaystyle x_i \, y_i < 0になる領域で,ほぼ対称に点が分布しているということです.

今日のまとめ

 今日,Breaking Down 6を見ました.私は昔,番組を間違えてBreaking Down 3のペーパービューを買ってしまったことがあります.そのときは,せっかくなので何試合か見ましたが,試合の面白さがまったく分かりませんでした.その後,Breaking Downへの出場のためのオーディションをYoutubeで見るようになり,Breaking Downに出場して有名になりたいという人たちの振舞に,面白みを感じるようになりました.殴り合いの喧嘩って良いことではありませんが,外から見ているとドキドキする感じはします.

 私は昔,歌舞伎町の飲み屋で見ず知らずの方々と喧嘩になり,顔を激しく殴られました.今でも顔の左に痺れが残っています.あのとき脳にダメージを受けていなければ,もっと科学者として活躍できたかもしれませんが,今では命があっただけ良かったと思います.若いときのことを思い出すと,なんであんなに愚かだったのかと,恥ずかしくなります.