共分散sxy、散布図と相関係数rxyの関係一覧

スポンサーリンク
3教科の試験結果がある.\ 数学の点数と他教科の点数の間に何らかの関係があるか調べる. 各生徒ごとに2教科の点数を$x$座標と$y$座標と見て座標平面に点を打っていけばよい. このように,\ 2つのデータを1つの平面にプロットした図を散布図という. 左図のように,\ 一方が増えると他方も増える傾向があるとき,\ 正の相関関係があるという. 右図のように,\ 一方が増えると他方が減る傾向があるとき,\ 負の相関関係があるという. 正の相関関係も負の相関関係もないとき,\ 相関関係がないという. ここで,\ 散布図からわかるのは相関関係であって因果関係ではないことに注意する. 因果関係とは『AだからB』という原因と結果の関係のことである. 例えば,\ 数学と英語の点数には相関関係が見られるが,\ 因果関係があるかは全く不明である. 数学ができるのが原因で英語ができる? 英語ができるのが原因で数学ができる? 他の理由(地頭が良いなど)が原因で数学と英語ができる? 因果関係はあるのか,\ あるならば何が原因で何が結果なのか,\ 散布図からはわからない. さて,\ 常に相関関係の有無が散布図を見ただけでわかるとは限らない. そこで,\ 相関関係を数値で判別できるようにすることを考えよう. 変量$x,\ y$がそれぞれ$n$個のデータ$(x₁,\ y₁),\ (x₂,\ y₂),\ ,\ (x_n,\ y_n)$がある. $x₁,\ x₂,\ ,\ x_n$の平均値を$ x$,$y₁,\ y₂,\ ,\ y_n$の平均値を$ y$とする. まず,\ 座標平面を平均値${ x,\ y}$で4分割し,\ 図のように領域~を定める. この座標平面に$n$組の点$(x₁,\ y₁),\ (x₂,\ y₂),\ ,\ (x_n,\ y_n)$をプロットしていく.  もし,\ データに正の相関関係があるならば,\ 領域とに多くの点がプロットされる.  また,\ データに負の相関関係があるならば,\ 領域とに多くの点がプロットされる.  結局,\ どの領域に多くの点があるかを数値で表現できれば,\ 相関関係を数値で判別できる.  先に,\ ある1点$(x_i,\ y_i)$がどの領域にあるか}を数式で判断することを考える.  まずは領域 この関係を用いると,\ 次のようにして1つの簡潔な数式にまとめられる. 領域とについても同様である. これで点の位置を数式で調べられるようになったが,\ 1点ずつ符号を調べるのは面倒である.  そこで,\ $n$個の点の偏差の積の平均値を考える.\ これを共分散といい,\ ${s_{xy}$と表す.  共分散${s_{xy$ ${x}$と${y}$の偏差の積の平均値  共分散を計算することで,\ 次のように相関関係を判別できるようになったわけである. $正の相関関係}領域とに点が多い偏差の積の和が正s_{xy}>0}$} $負の相関関係}領域とに点が多い偏差の積の和が負 s_{xy}<0}$} $相関関係がない}正の偏差の積と負の偏差の積が打ち消しあう s_{xy}0}$}  分散において定義式の他に別公式があったのと同様,\ 共分散にも別公式がある. ここで,\ 共分散$s_{xy}$において$y$を$x$にしてみよう.  共分散が分散を一般化したものであるとわかる.}  共分散で相関関係を調べることができるようになったが,\ 問題点がある.  実質同じデータである次の2つの共分散をそれぞれ計算してみよう.実質同じデータなのでその相関関係も同じはずだが,\ 共分散の値は大きく異なっている.  データの種類や単位によらずに正負の相関や相関の強弱を判断できるようにすべきである.  そのため,\ 相関係数という概念を導入する.  相関係数${r}$  {(相関係数)={(共分散)}{(xの標準偏差)(yの標準偏差)}$}  実際にそれぞれの相関係数を計算してみる.  左の$x$の分散は  見事に数値が一致しており,\ 相関関係の表現としてこの定義が合理的なものであるとわかる} b \ 標準偏差$s_x,\ s_y$は常に正であるから,\ 共分散$s_{xy}$と相関係数$r$の正負は一致する.  よって,\ 相関係数の正負で相関の正負が判断できる. 正の相関関係がある}負の相関関係がある さらに,\ 相関係数$r$は常に${-1 r1}$の値をとり,\ その値で相関の強弱も判別できる. rの値が1に近い強い正の相関関係} rの値が-1に近い}強い負の相関関係} rの値が0に近い 相関関係がない} なお,\ $r=1$のときはすべての点が一直線上に並ぶ.} センター試験では散布図の見た目で相関係数のおおよその値を判断する問題が見られる. どれくらいの散らばりでどれくらいの相関係数になるのかを確認しておいてほしい. 数式を書き並べると複雑になり,\ 計算ミスしても気付きにくくなるので表を作成するとよい. 左の列から順に埋めていく.\ まずは平均値\ x,\ y\ が必要である. 次に偏差\ x- x,\ y- y\ を求める.\ 必ず{合計が0になっていることを確認}する. その次は偏差の2乗\ (x- x)²,\ (y- y)²\ である.\ これの平均値が分散\ {s_x}²,\ {s_y}²\ になる. さらに偏差の積\ (x- x)(y- y)\ を求める.\ これの平均値が共分散\ s_{xy}\ である. 後は相関係数を求めるだけである.\ {分散を平方根して標準偏差にする}のを忘れがちなので注意する. 平均値が小数になるので定義式で共分散を求めるのが面倒である. 別公式\ {s_{xy}=(xとyの積の平均)-(xの平均)(yの平均)}\ で求めるとよい. 相関係数$r}$に関する注意点が3つある.  以下から,\ 相関関係は相関係数だけでなく散布図を併用して考えることが重要だとわかる. \\  [1]\ \ 相関係数は,\ データの個数が十分多い場合にのみ意味を持つ. \ \ 個数が少ないと,\ たまたま得られたデータ次第で相関係数が大きく変化してしまう. 2つのデータの直線的}な関係の指標である. \ \ $r=0$でも無関係とは言い切れず,\ 例えば2次関数的な関係にあるかもしれない.  [3]\ \ 相関係数は,\ 外れ値に大きく影響される. 相関係数$r}$が$-\,1≦ r≦1}$であることの証明(上級者用)   天下り的だが,\ コーシー・シュワルツの不等式(数II)を利用した有名な証明を示す.   一般に,\ 実数$a_1,\ a_2,\ ・・・,\ a_n,\ b_1,\ b_2,\ ・・・,\ b_n$に対して次の不等式が常に成立する. 相関係数rは,\ ベクトル(数 C)的観点からとらえることもできる. つまり,\ 相関係数rは,\ n次元偏差ベクトルのなす角\,θ\,の\cos というわけである. 最後にコーシー・シュワルツの不等式の証明も示しておく. tの関数F(t)=(a_1t-b_1)^2+(a_2t-b_2)^2+・・・+(a_nt-b_n)^2\,を考える. 2乗の和であるから,\ すべての実数tに対して F(t)≧0 一方,\ 展開してtで整理すると  F(t)=({a_1}^2+{a_2}^2+・・・+{a_n}^2)t^2-2(a_1b_1+a_2b_2+・・・+a_nb_n)t+({b_1}^2+{b_2}^2+・・・+{b_n}^2) すべての実数tに対してF(t)≧0であるから,\ F(t)=0の判別式をDとすると   D4=(a_1b_1+a_2b_2+・・・+a_nb_n)^2-({a_1}^2+{a_2}^2+・・・+{a_n}^2)({b_1}^2+{b_2}^2+・・・+{b_n}^2)≦0