15:統計基礎知識

15:統計基礎知識

心理学の研究では,ある特徴をもった個体に対し,何らかのルールに基づいて,数値を振り,データ化することがある。そのようなルールを「尺度」とよぶ。尺度は表す内容に応じて「尺度水準」に分類される。尺度水準には,1)名義尺度=数値の違いが,個体の具体的特徴の違いのみを表しているもの(例:郵便番号),2)順序尺度=数値の大小関係が順序のみを表現しており,数値の間隔が具体的特徴の隔たりの大きさを反映していないもの(例:マラソンの順位),3)間隔尺度=数値の間隔が具体的特徴の隔たりを反映しているが,原点が定まっていないもの(例:温度),4)比尺度=数値の間隔が具体的特徴の隔たりと対応し,原点も定まっているもの(例:長さ),がある(石井,2014)。

量的研究では,多くの調査参加者からいくつかの量的指標をデータとして採取し,それらの代表的なあらましを表す数値を求めることで,調査参加者の全体的傾向を簡潔に記述する。このようなアプローチを「記述統計」とよぶ。最も簡潔なのは,全体的傾向として中心にあたる数値を一つだけ報告する方法である。この値を「代表値」とよび,「平均値」「中央値」「最頻値」がある。代表値だけでは表せない,全体の中心から各調査参加者がどれだけ隔たっているかを総体的に示す値を「散布度」とよぶ。散布度には「標準偏差」「分散」「四分位範囲」などがある。全体の傾向をより詳しく示すには,データをいくつかの階級に区切り,各階級に何人が入るかを,データの分布,すなわち「度数分布」として表せばよい。また,複数の変数間でともなって変わる量がどの程度であるかを示す値として「相関係数」がある。

記述統計とは異なるアプローチとして,着目する研究対象全体を「母集団」ととらえ,研究者がそこから「標本」を抽出し,データを採取するものもある。データは標本からのみ得られているため,母集団における傾向をデータから推測する。このようなアプローチを「推測統計」とよぶ。ここから,標本から得られた平均値(標本平均)を元に,母集団における平均値(母平均)がいくつであるかを推定する(点推定),またはある一定の幅をもたせて推定する(区間推定)といった考えが生まれる。

推測統計では,たとえば母平均が0であるという仮定が正しいとした場合,標本平均が0でないなら,そこに何らかの意味が有る(有意な)偏りが生じたのかを「仮説検定」として検討することも行われる。仮説検定では,母平均が0であるという「帰無仮説」をたて,これが正しいとしたとき,得られた標本平均以上に極端な値をとる確率が非常に小さい(たとえば0.05,この研究者によって定められた確率を「危険率」とよぶ)場合,帰無仮説が誤りであったと考えて「母平均は0ではない」という「対立仮説」を採択し,「平均値に(0とは)有意差がある」と結論付ける。逆に,得られた標本平均以上に極端な値をとる確率が大きければ,偶然生じた偏りであると判断して帰無仮説を保持する。このとき,帰無仮説が正しいのに誤って帰無仮説を棄却する確率が,危険率だけ考えられる。このような誤りを「第一種の過誤」とよぶ。逆に,対立仮設が正しいのに帰無仮説を保持する誤りを「第二種の過誤」とよぶ。

仮説検定を行うには,標本平均などの統計量の分布,すなわち「標本分布」が理論的にどのように分布するかに関する知見が必要であり,通常,それが「確率分布」として与えられている。しかし,データによっては外れ値の影響を受ける場合があり,平均以外の代表値を用いて,母集団において特定の確率分布によらない分析手法群を用いる場合がある。これらを総称してノンパラメトリック検定とよぶ。

(光永悠彦)

文  献
  • 石井秀宗(2014)人間科学のための統計分析─こころに関心があるすべての人のために.医歯薬出版,pp.28-30.

※用語の出典は,『公認心理師基礎用語集 よくわかる国試対策キーワード117』(2018年8月発売)となります。最新版(2022年5月発売)は⇩をご覧ください。

関連用語

その他の用語