変数変換と標準化、偏差値

スポンサーリンク

(1)の表で418とありますが、488の誤りですm(_ _)m

次の変量$x$のデータ$488,\ 518,\ 488,\ 518,\ 533$に対し,\ $u={x-500}{3}$とおく.
変量$u$の分散${s_u}²$\ 標準偏差$s_u$,\ 変量$x$の平均$ x$,\ 分散${s_x}²$,\ 標準偏差$s_x$を求めよ.
$z={x- x}{s_x}$とおくとき,\ 変量$z$の平均$ z$と標準偏差$s_z$を求めよ.
変数変換と標準化,\ 偏差値
直接{s_x}²を求めてもよいのだが,\ 数値が複雑になると計算が面倒である.
そこで,\ {簡単な数値の変量uに変換し,\ その分散{s_u}²を利用して元の変量xの分散{s_x}²を導く.}
以前仮平均を用いて平均値を求めたが,\ 同様の発想で分散も楽に求めようというわけである.
まず,\ 変量uを求めた後,\ 変量uの分散{s_u}²と標準偏差s_uを基本にしたがって求める.
変量uの平均を uとすると,\ 偏差u- u\ の2乗の平均が分散,\ その平方根が標準偏差である.
u,\ {s_u}²,\ s_uが求まれば,\ 前項の変数変換で示した関係を用いて x,\ {s_x}²,\ s_xが求められる.
前項の内容を簡単に復習する.\ 変量xに対して新たな変量u=ax+bを定める.
このとき,\ { u=a x+b,{s_u}²=a²{s_x}²,s_u= as_x}なる関係が成り立つのであった.
前項では x,\ {s_x}²,\ s_xから u,\ {s_u}²,\ s_uを求めたが,\ 今回は逆に u,\ {s_u}²,\ s_uから x,\ {s_x}²,\ s_xを求める.
x=au+bなのであれば,\ { x=a u+b,{s_x}²=a²{s_u}²,s_x=a}s_u}\ となる.
変量xの平均\ xと標準偏差s_xを用いた変換{z={x- x}{s_xを考える.
一見わかりづらいが,\ { xとs_xは何らかの定数}なので所詮は変換z=ax+bにすぎない.
z={1}{s_x}x-{ x}{s_x}より,\ a={1}{s_x},\ b=-{ x}{s_x}\ である.
後は\ z=a x+b,s_z=a}s_x\ によって求めることができる.
こうして,\ どんなデータでも{平均が0,\ 標準偏差(分散)が1}になるように変換できる.
このような変換を{標準化}という.
以下に{標準化の意義}を示す.
3教科とも60点の A君を含む5人の試験結果が以下であったとしよう.
同じ60点であっても,\ 各教科の平均点や標準偏差次第でその価値が変わってくる.
なお,\ 標準偏差は平均値まわりの散らばりを意味するのであった.
数学 20 40 50 60 80{0} \ (平均50,\ 標準偏差20)
国語 40 45 50 55 60{0} \ (平均50,\ 標準偏差7)
英語 40 60 70 80 100 (平均70,\ 標準偏差20)
数学60は平均より上だが最高とはいえない,\ 国語60は最高の出来,\ 英語60は平均以下である.
このように,\ 平均や標準偏差が異なるため,\ 点数そのものだけで各教科の実力を測ることは難しい.
そこで,\ {各教科の平均と標準偏差を統一(標準化)して比較する}ことが重要になるわけである.
実は,\ 我々がすでに慣れ親しんでいる標準化の例がある.\ それこそがいわゆる{偏差値}である.
ただし,\ 単に標準化しただけでは(平均点)=(偏差値0)になってしまう.
より多くの人が馴染めるように,\ (平均点)=(偏差値50)となるよう標準化したものを更に変換する.
結局,\ 偏差値は\ {y=50+{x- x}{s_x}10}\ という式で定義される.
3教科60点の A君の偏差値は数学55,\ 国語64,\ 英語45となり,\ 相対的な実力を知ることができる.
}]$