ケィオスの時系列解析メモランダム

時系列解析,生体情報学,数学・物理などの解説です.

【時系列解析】相関係数

今回は,相関係数のお話です.相関というのは2つの変量間の直線的な関係性の程度を表しています.直線性とは,2つの変量の値を縦軸と横軸にとった散布図に現れる構造です.この構造のイメージを持ってほしいので,いくつか図を作りました.今日は眠いので,説明は省いて,図メインで載せていきます.

2つの変量x1とx2の間の相関係数rを変化させたとき

相関係数と直線性

 相関係数の定義は,ググってください.相関係数rは,-1から1の値をとります.データ数が1000点ぐらいあるときは,相関係数と散布図の関係は以下のようになります.

相関係数と散布図.1000点の場合.右の図は点の密度で色を変えたもの.

 データ数が少なく20点ぐらいのときは,相関係数と散布図の関係は以下のようになります.

相関係数と散布図.20点の場合.右の図は点の密度で色を変えたもの.

データ点数とp値

 人によっては,検定のp値は小さいほど良いとか,値が0.05以下でないと意味がないと思っているかもしれません.私は「p値」信者ではないので,そんなこと思いませんが.

 相関係数を議論するときは,相関の強さと,p値の小ささは分けて解釈する必要があります.私が論文を書くときは,「相関係数が0.4以上のときに,相関があると判断する」とか,相関係数に基準を設けます.基準は,0.4でも,0.3でもいいと思います.

データ点数とp値の関係.相関係数が0.4の場合.

 以下の例では,相関係数を0.01に設定しました.つまり,ほぼ相関はありません.それでも,データ数を増やしていけば,ときどき,pは0.05よりも小さくなります.これで,「有意な相関がある」って言える?ってことです.

データ点数とp値の関係.相関係数が0.01の場合.