この記事では χ2分布、母分散の区間推定、クロス集計表の適合度検定について解説させて頂きます。
実験や調査を行ってデータを集めるというと、血圧のように数値で表せる量的データをイメージされるかもしれません。
しかし、数値では表せないデータを集めることもあります。
例えば、年代ごとのコロナ感染者数を調べる場合、各感染者のデータは「20代」や「40代」となります。
例えば、2021年4月23日の東京都における年代ごとのコロナ感染者数を表にすると、以下のようになります。
10歳未満 | 10代 | 20代 | 30代 | 40代 | 50代 | 60代 | 70代 | 80代 | 90代 |
24人 | 71人 | 226人 | 145人 | 115人 | 96人 | 41人 | 26人 | 11人 | 4人 |
20代と30代の若者が全体の半数近くを占めているようです。
そのため、ニュースでも言われているように若い人にコロナウイルスに感染者が多い気がします。
とはいえ、あくまでも「気がします」です。
これが正しいかどうかを客観的に、すなわち統計的に判断するには、χ2(カイ二乗)検定と呼ばれる検定を行う必要があります。
また、χ2検定ではχ2分布という分布を利用しますが、χ2分布を利用してできることはχ2検定だけではありません。
χ2分布を利用することで、母分散の区間推定もできます。
この記事では、まずχ2分布とは何かを説明してから、χ2分布を利用してできる母分散の区間推定や、クロス集計表の適合度検定などについて解説していきます。
χ2分布とは何か?
具体的なχ2分布【母分散の区間推定|製品のバラツキはどのくらいか】
t検定ではt分布、分散分析ではF分布といったように、推測統計では得られた統計値が偶然とは考えられないものかどうかを分布と照らし合わせて判断します。
χ2検定ではχ2分布を元に統計値の判断をします。
「推測統計学とは?」で、以下の形のχ2分布を紹介しました。
» 推定統計について|データの特徴やグラフの見方について【参照】
しかし、実は自由度によってχ2分布は変わります。
上のグラフの χ2分布は自由度が8のときのものでした。
比較対象として、自由度が2、4、12、20のときのχ2分布と並べてみましょう。
一言にχ2分布と言っても、全く形が違うことが分かります。とはいえ、χ2 分布の形自体はあまり重要ではありません。
これまでのt検定や分散分析と同様に、当該の自由度のときの有意水準の基準値と比べて求めた χ2 値が大きいか小さいかを比較するだけです。
ただし、χ2 分布には χ2 検定以外での使い方があります。それが、母分散の区間推定です。
母分散の区間推定は、工場で作ったネジなどの商品の大きさや重さにどのくらいばらつきがあるかといったことに用いられます。
それというのも、母集団の母分散 $\sigma^{2}$ が正規分布に従うときには、自由度 $n-1$ の χ2 分布に従う χ2 値は以下のように母分散 $\sigma^{2}$ を使った式で表すことができるためです。
$\chi^{2}=\frac{(\mathrm{n}-1) \mathrm{s}^{2}}{\sigma^{2}}$
$n$:標本のサンプルサイズ
$\mathrm{S}^{2}$:不偏分散
サンプルの95%が含まれるデータの範囲はχ2分布で例えると、左右2.5%の面積以外の部分となります。
そのため、上記の式は以下のように表現できます。
$$\chi^{2} \text { の下側 } \leqq \frac{(\mathrm{n}-1) \mathrm{s}^{2}}{\sigma^{2}} \leqq \chi^{2} の \text { 上側 }$$
実際に、「推測統計学とは?」で扱った架空の飲食店の美味しさ評価で考えてみましょう。
データは以下の通りで、この標本データの平均値は2.94です。
美味しさ | 美味しさ | 美味しさ | 美味しさ | 美味しさ | |||||
1 | 4 | 11 | 3 | 21 | 3 | 31 | 5 | 41 | 2 |
2 | 5 | 12 | 5 | 22 | 3 | 32 | 2 | 42 | 1 |
3 | 2 | 13 | 1 | 23 | 2 | 33 | 4 | 43 | 2 |
4 | 1 | 14 | 5 | 24 | 5 | 34 | 5 | 44 | 1 |
5 | 3 | 15 | 2 | 25 | 3 | 35 | 5 | 45 | 4 |
6 | 4 | 16 | 4 | 26 | 3 | 36 | 2 | 46 | 1 |
7 | 2 | 17 | 3 | 27 | 5 | 37 | 1 | 47 | 4 |
8 | 5 | 18 | 2 | 28 | 1 | 38 | 1 | 48 | 2 |
9 | 3 | 19 | 2 | 29 | 3 | 39 | 5 | 49 | 3 |
10 | 1 | 20 | 1 | 30 | 2 | 40 | 5 | 50 | 5 |
まず、不偏分散を求めましょう。
不偏分散は以下の式によって求められます。
$$ s^{2}=\cdot \frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} $$
$S^{2}$:不偏分散
$\bar{x}$:標本の平均
計算の結果、不偏分散 = 2.18であることが分かりました。
不偏分散やサンプルサイズを上の式に入れると、以下のようになります。
$$\chi^{2} \text { の下側 } \leqq \frac{106.8}{\sigma^{2}} \leqq \chi^{2} の 上 側$$
あとは、χ2 の下側と上側の値を χ2 分布から調べるだけです。
χ2 値は自由度 $n-1$ の χ2 分布に従うため正しい自由度は49となりますが、便宜的に自由度50の χ2 値を χ2 分布表から抜粋しました。
95%区間を求めるため、上側2.5%については.975のときの χ2 値を、下側2.5%については.025のときの χ2 値を式に入れていきます。
$$32.4 \leqq \frac{106.8}{\sigma^{2}} \leqq 71.4$$
$$\frac{1}{71.4} \leqq \frac{\sigma^{2}}{106.8} \leqq \frac{1}{32.4}$$
$$1.50 \leqq \sigma^{2} \leqq 3.30$$
今回は分布のお話からしたため最初の式の形が少し違いますが、計算自体は同じなので、推測統計学とは? の記事で求めた結果と同じになっています。
χ2検定とは
次に χ2 検定について説明していきましょう。
χ2 検定を一言でいうと、理論的に予想される値と比べて実際のデータの度数に偏りがあるかを調べる方法となります。
予想される値と実際のデータの度数にズレがあるかについては、サイコロをイメージすると分かりやすいです。
例えば、サイコロを60回振った結果、以下のようになったとします。
1 | 2 | 3 | 4 | 5 | 6 | |
出た目の数 | 11回 | 13回 | 7回 | 12回 | 13回 | 4回 |
上の表は実際のデータの度数です。
比較対象となる理論的に予想される値について考えていきましょう。
サイコロはどの目も1/6 の確率で出ます。
そのため、サイコロを60回振ったときの各目の予想される値は 60×1/6=10回 となります。
1 | 2 | 3 | 4 | 5 | 6 | |
出た目の数 | 11回 | 13回 | 7回 | 12回 | 13回 | 4回 |
予想される回数 | 10回 | 10回 | 10回 | 10回 | 10回 | 10回 |
χ2 値は、実際に出た目の回数(観測度数と呼ばれます)と予想される回数(期待度数と呼ばれます)の差のようなものです。
そのため、観測度数と期待度数のズレが大きいほど当該のχ2値も大きくなって5%水準のときの χ2 値よりも大きくなるため、出た目に偏りがあると統計的に言えるようになるのです。
χ2検定の自由度について
t検定の自由度はサンプル数から、分散分析の自由度はサンプル数や条件の水準数から、それぞれ1を引いたものでした。
しかし、χ2 検定の自由度はサンプル数には基づきません。
χ2 検定の自由度は、項目の数に基づいています。
例えば先ほどのサイコロの場合は、項目数は6個あるため、そこから1を引いた5が自由度となります。
χ2 検定の種類について
χ2 検定と一言にいわれますが、実はχ2検定には2種類あります。
1つは適合度の検定と呼ばれるものであり、もう1つは独立性の検定と呼ばれるものです。
順番に説明していきます。
適合度のχ2検定について
適合度の χ2 検定について解説していきます。クロス集計表から求めていきます。
内容としては、「サイコロ博打!このサイコロはイカサマサイコロじゃないか?」という内容です。
調査によってデータを集めますが、先行研究の知見などから各項目のデータの割合が予め分かっていることがあります。
例えば、サイコロは理論上どの目も1/6の確率で出ることが明らかですし、日本人の血液型の割合はA型が40%、B型が20%、O型が30%、AB型が10%ぐらいであることが分かっています。
実際にサイコロを振って出た目の数を理論上の値と比べることのように、観測度数がある特定の分布に適合(一致)するかどうかを検定することは、適合度の検定と呼ばれます。
実際に、先ほど例に挙げたサイコロのデータを使って適合度 χ2 検定を行ってみましょう。
1 | 2 | 3 | 4 | 5 | 6 | |
出た目の数 | 11回 | 13回 | 7回 | 12回 | 13回 | 4回 |
予想される回数 | 10回 | 10回 | 10回 | 10回 | 10回 | 10回 |
帰無仮説と対立仮説は以下のようになります
帰無仮説 H0:サイコロを振って出た目の分布は、予想されるサイコロの目の分布と一致する
対立仮説 H1:サイコロを振って出た目の分布は、予想されるサイコロの目の分布と一致しない
χ2 値は以下の式によって求めることができます。
$$\chi 2=\sum_{i=1}^{n} \frac{\left(o_{i}-e_{i}\right)^{2}}{e_{i}}$$
$\mathrm{O}_{\mathrm{i}}$:観測度数
\begin{equation}\mathbf{e}_{i}\end{equation}:期待度数
このように、観測度数と期待度数の差を2乗して期待度数で割ったものを全ての項目について足し合わせたものが χ2 値となります。
よって、χ2 値は以下のようになります。
$$\chi 2=\frac{(11-10)^{2}}{10}+\frac{(13-10)^{2}}{10}+\frac{(7-10)^{2}}{10}+\frac{(12-10)^{2}}{10}+\frac{(13-10)^{2}}{10}+\frac{(4-10)^{2}}{10}$$
$$\chi 2=\frac{68}{10}$$
$$\chi 2=6.8$$
$\chi 2=6.8$ が95%水準で有意かどうか、確認しましょう。
以下のグラフは自由度5の χ2 分布です。
5%水準で有意となるには11.1以上の値になっていなければなりません。
※ t検定では片側検定と両側検定がありましたが、χ2 検定の場合は「予想される値と実際のデータの度数にズレがあるか」のため方向性がないので、必然的に片側検定となります。
今回の χ2 値は 6.8 のため帰無仮説は棄却されないので、サイコロの目の出方に偏りがあるとは言えないという結果になりました。
独立性のχ2検定について
この章では, 独立性のχ2検定について、「性別によって色の好みに違いがあるか?」というテーマについて解説していきます。
先ほどのサイコロでは分類基準が1つだけでしたが、調査によっては分類基準が2種類以上のクロス集計表となることもあります。
分類基準間で関連があるかどうかを検定することは、独立性の χ2 検定と呼ばれます。
分類基準が2種類となるクロス集計表の例として、以下の性別×色の好みを考えていきましょう。
以下は(株)日本リサーチセンターによる「あなたの好きな色は?」調査の29歳以下の男女の好みの色についての結果です。
好みの色 | 青 | 緑 | 赤 | 紫 | 橙 | 黄 | 合計 |
男性 | 30人 | 41人 | 20人 | 13人 | 12人 | 5人 | 232人 |
女性 | 31人 | 90人 | 60人 | 45人 | 35人 | 28人 | 419人 |
出典:(株)日本リサーチセンター 「あなたの好きな色は?」(2019年9月調査)
帰無仮説と対立仮説は以下のようになります
- 帰無仮説H0:性別と色の好みは関連していない(=独立である)
- 対立仮説H1:性別と色の好みには何らかの関連がある(=独立ではない)
※「独立」という言葉が出てきましたが、独立とは何かについては実際にイメージしたほうが分かりやすいと思いますので、性別×色の好みの独立性のχ2検定を解いてから説明します。
χ2値は、各項目の観測度数とその期待度数を使って求めます。
しかし、サイコロと違って色の好みには予め予想される期待度数というものはありません。
そのため、論理的に期待度数を算出していくことになります。
もし性別と色の好みに関連がないとしたら、どの色についても男女比は男性:女性=232:419となるはずです。
そのため、例えば青色であれば、男性の場合は、
$$(111+130) \times \frac{232}{(232+419)}=86$$
となります。
反対に、女性の場合は
$$(111+130) \times \frac{419}{(232+419)}=155$$
となります。
同じ要領で全ての色の期待度数を算出したものが、以下の表です。
好みの色 | 青 | 緑 | 赤 | 紫 | 橙 | 黄 | 合計 |
男性 | 86人 | 22人 | 47人 | 27人 | 17人 | 17人 | 232人 |
女性 | 155人 | 39人 | 84人 | 51人 | 31人 | 30人 | 419人 |
出典:(株)日本リサーチセンター 「あなたの好きな色は?」(2019年9月調査)
あとは適合度の χ2 検定と同様に、χ2 値を求めるだけです。
χ2 値は以下の式から求めることができるので、数値を入れていきます。
$$\chi 2=\sum_{i=1}^{n} \frac{\left(o_{i}-e_{i}\right)^{2}}{e_{i}}$$
- $\mathrm{O}_{\mathrm{i}}$:観測度数
- $\mathrm{e}_{\mathrm{i}}$:期待度数
$x^{2}=\frac{(111-86)^{2}}{86}+\frac{(30-22)^{2}}{22}+\frac{(41-47)^{2}}{47}+\frac{(20-28)^{2}}{28}+\frac{(13-21)^{2}}{21}+\frac{(12-17)^{2}}{17}$
$+\frac{(5-12)^{2}}{12}+\frac{(130-155)^{2}}{155}+\frac{(31-39)^{2}}{39}+\frac{(90-84)^{2}}{84}+\frac{(60-51)^{2}}{51}$
$+\frac{(45-37)^{2}}{37}+\frac{(35-30)^{2}}{30}+\frac{(28-21)^{2}}{21}$
$\chi 2=33.7$
続いて、自由度を確認します。
先ほどのサイコロを使った適合度の χ2 検定では、サイコロの目の数6から1を引いた5が自由度でした。
しかし、今回の男女の色の好みのデータでは分類基準が2種類あります。
そのため、それぞれの分類基準の項目数から1を引いて、掛けることで自由度を求めます。
よって性別2項目から1を引いて1、色の種類7項目から1を引いて6となり、自由度は 1×6=6 となります。
最後に自由度6のときにχ2=33.7が95%水準で有意かどうか、確認しましょう。
以下のグラフは自由度6の χ2 分布です。
※ 分かりやすく表現するため、x軸の縮尺は均等ではなくなっています。
5%水準で有意となるにはχ2値は12.6以上にならなければなりません。
今回の χ2 値は33.7のため帰無仮説は棄却されるので、性別と色の好みには何らかの関連があると結論を下すことができます。
さて、最後に「独立」という言葉の説明に戻ります。
「独立」であることを、数学的に表現すると $P(A∩B)=P(A)P(B)となります。
先ほどの男女の好みの色で例えると、「男性である(A)」と「好みの色は青(B)」が完全に独立した事象であれば、「男性である」かつ「好みの色が青」が起こる確率=「男性である」単独で起こる確率×「好みの色は青」単独で起こる確率ということです。
実際に計算しながら考えましょう。
まず、「男性である」単独で起こる確率は$\frac{232}{(232+419)} \times 100=35.6 \%$です。
「好みの色が青」単独で起こる確率は $\frac{(111+130)}{(232+419)} \times 100=37.0 \%$ です。
そのため、「男性、かつ、好みの色が青」となる確率はとなります。
これが実際に何人になるかというと、となります。
86人という数値は、「男性、かつ、好みの色が青」の期待度数でしたね。
このように、「独立」であるということは期待度数と一致するということであるため、関連が見られないということになります。
反対にP(A∩B)=P(A)P(B)が成立しないということは、期待度数が実際のデータと一致しないということになります。
そのため、Aが起こったことでBの起こりやすさが変わってしまうということになり、何らかの関連が見られるということになるのです。
χ2検定の結果の残差分析について
先ほどの男女の好みの色についての.独立性のχ2検定の結果、性別と好みの色には関連があることが分かりました。
そうなると、具体的にどの色の好みで男女に違いがあるか知りたくなると思います。
それを調べるために行うのが、残差分析です。
残差分析では調整済み残差dijと呼ばれるものを算出します。
好みの色が青というのは男性に偏っていると言えるかどうかについて、調整済み残差 \begin{equation}\mathrm{d}_{\mathrm{ij}}\end{equation} を求めていきましょう。
調整済み残差dijにあたり、まず、標準化残差と呼ばれるものを求めます。
標準化残差は残差(観測値から期待値を引いたもの)を標準偏差で割ったものなので、以下の式から求められます。
$\text { 標準化残差 } e_{i j}=\frac{O i j \cdot-\mathrm{Eij}}{\sqrt{\mathrm{Eij}}}$
- $O_{i i}$:観測度数
- $\mathrm{E}_{\mathrm{ij}}$:期待度数
今回の「男性でかつ好みの色が青色」の観測度数と期待度数を式に入れていきます。
$$\text { 標準化残差e }_{i j}=\frac{111 \cdot-86}{\sqrt{86}}=2.7$$
次に、標準化残差の分散を求めます。
$$\text { 標準化残差の分散 } v_{i j}=\left(1-n_{i} / N\right) \times\left(1-n_{j} / N\right)$$
$n_{\mathrm{i}}$:当該のセルを含んだ行の観測値の合計値
$n_{\mathrm{j}}$:当該のセルを含んだ列の観測値の合計値
$N$:観測値の合計値
今回の「男性でかつ好みの色が青色」の観測度数と期待度数を式に入れていきます。
$\text { 標準化残差 } e_{i j}=\left(1-\frac{(111+130)}{651}\right) \times\left(1-\frac{(111+30+41+20+13+12+5)}{651}\right)=0.4$
最後に、調整済み標準化残差dijを以下の式から求めれば、完了です。
$$\mathrm{d}_{i j}=\frac{\text { 標準化残差e }_{i j}}{\sqrt{\text { 標準化残差の分散 } \mathrm{v}_{i j}}}$$
$$\text { 調整济み標準化残差 } \mathrm{d}_{i j}=\frac{2.7}{0.4}=4.2$$
なお、調整済み残差の分布は近似的に平均を0、標準偏差を1とする標準正規分布に従います。
標準正規分布とは、「推測統計学とは?」の記事の「母平均を求めよう」の部分でお話した通り、以下の形を取るものです。
この95%の面積のときのx軸の値が±1.96なので、$\left|\mathrm{d}_{\mathrm{ij}}\right|$ が1.96以上となれば観測度数は有意に偏っていると判断されます。
男性で好みの色が青の場合のdijは4.2であるため、好みの色が青というのは男性に偏っているということができます。
このように、χ2検定を利用すれば質的データに対しても統計的に判断することができます。
今回は以上となります。