今回は,相関係数のお話です.相関というのは2つの変量間の直線的な関係性の程度を表しています.直線性とは,2つの変量の値を縦軸と横軸にとった散布図に現れる構造です.この構造のイメージを持ってほしいので,いくつか図を作りました.今日は眠いので,説明は省いて,図メインで載せていきます.

相関係数と直線性
相関係数の定義は,ググってください.相関係数は,
から
の値をとります.データ数が1000点ぐらいあるときは,相関係数と散布図の関係は以下のようになります.

データ数が少なく20点ぐらいのときは,相関係数と散布図の関係は以下のようになります.

データ点数とp値
人によっては,検定のp値は小さいほど良いとか,値が0.05以下でないと意味がないと思っているかもしれません.私は「p値」信者ではないので,そんなこと思いませんが.
相関係数を議論するときは,相関の強さと,p値の小ささは分けて解釈する必要があります.私が論文を書くときは,「相関係数が0.4以上のときに,相関があると判断する」とか,相関係数に基準を設けます.基準は,0.4でも,0.3でもいいと思います.

以下の例では,相関係数を0.01に設定しました.つまり,ほぼ相関はありません.それでも,データ数を増やしていけば,ときどき,pは0.05よりも小さくなります.これで,「有意な相関がある」って言える?ってことです.
