2021-02-11

推計統計学でt検定による仮説検定の有意水準と棄却域とt値とP値の関係って？

f:id:ts0818:20210211180544j:plain

波は、起きる原因によって分類することも可能である。風によって起きる波を風浪と呼ぶ。船舶などが航行することによって後方につくる波は引き波と呼ばれ、そうして波をつくりだすことは「造波（ぞうは）」という。地震によって起きる波は津波と呼ばれる（この津波という日本語は世界に広がり英語などでも tsunami と呼ばれている）。このように波ができる原因はいくつもあるが、最も一般的な原因は風である。

波 - Wikipedia

多方向からの波が合成されてできるピラミッド状の波を三角波と言う。

波 - Wikipedia

⇧ 衝撃なんですけど...

波って、風で作られてたんですね。サーファーの人たちが波を待ってるというのは、すなわち風を待っていると言っても過言ではないということになるってことなんですかね、どうもボクです。

というわけで、「統計学」や「仮説検定」についてです。
レッツトライ～。

統計学って？

Wikipediaさんによりますと、

統計学（とうけいがく、英: statistics）は、統計に関する研究を行う学問である。

統計学 - Wikipedia

⇧ ということらしい。

「統計」はというと、

統計（とうけい、statistic）は、現象を調査することによって数量で把握すること、または、調査によって得られた数量データ(統計量)のことである。統計の性質を調べる学問は統計学である。

統計 - Wikipedia

⇧ ってな感じで「現象」を「数量データ」で表現するってことですかね。

様々な分野で引っ張りだこらしいんですが、「統計学」は

統計学は記述統計学（descriptive statistics）と推計統計学（inferential statistics、推測統計学とも）に分類できる。記述統計学はデータの特徴を記述する学問であり、推計統計学は標本から母集団を推計する学問である。

統計学 - Wikipedia

⇧ ってな感じで、大きく分けて

記述統計学
データの特徴を記述する学問
推計統計学
標本から母集団を推計する学問

に分類できるらしいですと。

ただ、

こうして推計統計学は精緻な数学理論となった反面、応用には必ずしも適していないとの批判が常にあった。

統計学 - Wikipedia

これに呼応して、在来の客観確率を前提に置く統計学に対し、それまでごく少数によって提唱されていたにすぎなかった主観確率を中心に据えたベイズ統計学が1954年にレオナルド・サベージ（英語版）の『統計学の基礎』によって復活した。

統計学 - Wikipedia

ベイズの定理に依拠する主観確率の考え方は母集団の前提を必要とせず不完全情報環境下での計算や原因の確率を語るなど、およそ在来統計学とは正反対の立場に立つため、その当時在来統計学派はベイズ統計学派のことを『ベイジアン』と名付けて激しく対立した。

統計学 - Wikipedia

しかし主観確率には、新たに取得した情報によって確率を更新する機能が内包され、この点が大きな応用の道を開いた。今や統計学では世界的にベイズ統計学が主流となり、先端的応用分野ではもっぱらベイズ統計学が駆使されている。

統計学 - Wikipedia

⇧ ってな感じで「ベイズ統計学」ってのが主流になってる？ってことみたいらしいのですが、「統計学」の分類でいうと第三の勢力ってことになるのかね？

推計統計学と確率論と確率分布と

引き続き、Wikipediaさんの情報によりますと、

確率論は、学校教育において「確率・統計」と一括りに呼ばれていたように、統計学と非常に深いかかわりがある。

統計学 - Wikipedia

推計統計学ではデータ（標本）が母集団からランダムに取り出されるという前提に立っている。すなわち母集団を構成する要素はそれぞれ"出やすさ"をもっており、それに従ってランダムに取り出されるという立場である。"出やすさ"はまさしく（古典的な）確率であり、母集団はある確率分布に従っていると数学的に表現できる。

統計学 - Wikipedia

⇧ ってな感じで、「推計統計学」には「確率分布」の存在ありというわけで、

「確率分布」はというと、

確率分布（かくりつぶんぷ、英: probability distribution）は、確率変数に対して、各々の値をとる確率を表したものである。日本工業規格では、「確率変数がある値となる確率，又はある集合に属する確率を与える関数」と定義している。

確率分布 - Wikipedia

⇧ って感じで「確率変数」の値によって決まる「確率」を表したものですと。確率を与える関数ってことみたいですかね。

「確率分布」の分類としては、

まず確率変数が連続か離散かで分かれ、連続型確率変数の場合は累積分布関数が連続か絶対連続かで分類できる。

離散型確率変数の確率分布
- 離散確率分布
連続型確率変数の確率分布
- 連続確率分布
  - 絶対連続分布
  - 累積分布関数が連続だが絶対連続では無い確率分布
    - 特異分布
- 累積分布関数が連続では無い確率分布

確率分布 - Wikipedia

⇧ っていう形になるみたい。

「確率変数」には大きく分けて「離散型確率変数」と「連続型確率変数」があるようで、

qiita.com

f:id:ts0818:20210129202740p:plain

代表的な確率分布の特徴まとめ - Qiita

⇧ 上記サイト様がまとめてくださってます。

仮説検定って？

Wikipediaさんによりますと、

仮説検定（かせつけんてい、英: hypothesis testing）あるいは統計的仮説検定（statistical hypothesis testing）とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法のひとつ。日本工業規格では、仮説(statistical hypothesis)を「母数又は確率分布についての宣言。帰無仮説と対立仮説がある。」と定義している。

仮説検定 - Wikipedia

検定(statistical test)を「帰無仮説を棄却し対立仮説を支持するか，又は帰無仮説を棄却しないかを観測値に基づいて決めるための統計的手続き。その手続きは，帰無仮説が成立しているにもかかわらず棄却する確率がα以下になるように決められる。このαを有意水準という。」と定義している。

仮説検定 - Wikipedia

⇧ ってな感じで、「母集団分布の母数に関する仮説を標本から検証する」ってあるので「推計統計学」の手法の1つってことですかね。

統計的仮説検定の方法論は、ネイマン=ピアソン流の頻度主義統計学に基づくものと、ベイズ主義統計学に基づくものとの二つに大きく分けられる。ただし「仮説検定」という場合、前者だけを指すことがある。

仮説検定 - Wikipedia

⇧ ってあるけど、「頻度主義」と「ベイズ主義」がどっちも同じWikipediaの内容にリンクされてるので違いがよく分からん...

「仮説検定」の手順ってのが、

仮説の設定
- 帰無仮説
- 対立仮説
統計量（検定統計量）の算出
統計量（検定統計量）の確率分布
危険域 (critical region) の設定
- 危険率（有意水準あるいは検定のサイズともいい、ふつうαと表す）
- 棄却域
- 両側検定 or 片側検定
判定

ってな感じになってますと。

超ザックリ捉えると、「推計統計学」において、仮説がどれぐらい信頼できるかどうかってのをデータから検証するってことみたいね。

母集団と標本と

で、「統計」をするにあたっては「データ」が必要になってくるわけで、「データ」の量は多いに越したことはないんだけども、当然のことながら、時間もお金も限られてるので、ある程度の「データ」量での妥協が必要ですと。

なので、たいていの場合は、「母集団」ではなく「サンプル（標本）」を「データ」とせざるを得ないことが多いらしい。

「母集団」ってのは、

統計学における母集団（ぼしゅうだん、英: population）とは、調査対象となる数値、属性等の源泉となる集合全体を言う。統計学の目的の一つは、観測データの標本から母集団の性質を明らかにすることである。

母集団 - Wikipedia

⇧ って感じで、

「サンプル（標本）」っていうのは、

統計学における標本（ひょうほん、英: sample）とは、母集団の部分集合を言う。推測統計学においては、標本と母集団は明確に区別される。

標本 (統計学) - Wikipedia

⇧ って感じですと。

「母集団」と「サンプル（標本）」の関係は、

physnotes.jp

f:id:ts0818:20210129212750p:plain

母集団と標本 | 高校物理の備忘録

⇧ 上記サイト様の図がイメージしやすいかと。

例えば、日本での「国勢調査（2015年度）」なんかだと、

母集団：総国民数（およそ1億人）
標本：127,094,745人

って感じで、「サンプル（標本）」を利用してますと。

データ量と検定統計量と確率分布の関係

「母集団」は無理そうだから「サンプル（標本）」で推測するしかないってのは分かったんだけど、ここで気になるのは、「データ量」と「検定統計量」と「確率分布」の関係よね。

「検定統計量」は、

検定統計量（けんていとうけいりょう）とは、統計学的仮説検定に際して用いる単変量の統計量（標本データの関数）を指す。

検定統計量 - Wikipedia

統計学的仮説検定においては、標本データから計算される定められた検定統計量の値が予め決めた有意水準より小さいならば帰無仮説を棄却して良いとする。

検定統計量 - Wikipedia

⇧ って言ってるように、「標本データから計算」ってなってるんで「データ量」が関係してそうよね。

「データ量」としては、

$標本 \in 母集団$

ってな感じで、断然「サンプル（標本）」のほうが少なくなるんだけれどもね。

これって「確率分布」には影響しないのか？

f:id:ts0818:20210129220514p:plain

https://www.ism.ac.jp/~ayaka/2017_gairon_1.pdf

f:id:ts0818:20210129220610p:plain

https://www.ism.ac.jp/~ayaka/2017_gairon_1.pdf

f:id:ts0818:20210129220704p:plain
https://www.ism.ac.jp/~ayaka/2017_gairon_1.pdf

f:id:ts0818:20210129220751p:plain
https://www.ism.ac.jp/~ayaka/2017_gairon_1.pdf

⇧ 上記サイト様によりますと、やはり、と言いますか、「データ量」が影響してそうね。

「確率分布」に影響するってことは、「仮説検定」では「検定統計量」を算出してから「確率分布」が作られるんだから、「検定統計量」も当然のことながら「データ量」の影響を受けるってことっぽい気がしますかね。

検定統計量と検定手法

で「検定統計量」ってのは、

パラメトリック統計学における仮説検定は、尤度比が最小十分統計量となるので、これに沿って理論的枠組みが与えられる。

検定統計量 - Wikipedia

具体的には、データの種類および何を検定したいかによって、用いる検定統計量を選ぶ必要がある。よく用いられる検定統計量には、Z、t、χ²（カイ二乗）、F、U があり、それぞれの名を冠した検定法に用いられる。

検定統計量 - Wikipedia

⇧ ってな感じで、「データの種類および何を検定したいか」で「検定統計量」が異なってくるそうですと。

と言うよりも、「検定統計量」によって異なる「検定法」が用意されてるみたいね。

「仮説検定」の説明によると、

母集団の分布として正規分布を、あるいは比較する2群間の等分散（標準偏差が等しい）を仮定する（母数＝パラメータを仮定する）検定法をパラメトリック（Parametric）、それらを仮定せず一般の分布に適用できる検定法をノンパラメトリック（Non-parametric）な検定と呼ぶ。具体的な方法の例を挙げる。

仮説検定 - Wikipedia

パラメトリックな検定手法

仮説検定 - Wikipedia

ノンパラメトリックな検定手法

仮説検定 - Wikipedia

⇧ ってな感じで種類が様々なんだけど、大きく分けて

パラメトリック検定
ノンパラメトリック検定

2つの「検定手法」のグループがあるようですかね。

で、「パラメトリック検定」と「ノンパラメトリック検定」の違いって？

data-science.gr.jp

パラメトリック検定とは，母集団の分布がある特定の分布に従うことがわかっているデータに対して行う検定法のこと．統計量Tを計算するためにはその統計量が従う分布が明らかになっている必要があり，そのためにはデータ (確率変数) が従う分布も明らかになっている必要がある．この場合は統計量Tの計算には， $μ$ や $σ^{2}$ 等のパラメーターが用いられる．パラメトリック検定には，t検定，ダネット検定，チューキー・クレーマー検定等の検定がある．

パラメトリックとノンパラメトリック

ノンパラメトリック検定では，パラメトリック検定で行うような母数 (パラメーター) に対する一切の前提を仮定しない．その代わりに，全データまたは各水準等における各データの大小の順位，すなわち順序尺度を利用する．ノンパラメトリック検定は，得られたデータ数が少なく，データが従う分布を仮定することが困難であり，パラメトリック検定を利用することが不適切であると判断される際に利用される．ノンパラメトリック検定には，ウィルコクソンの順位和検定，ウィルコクソンの符号順位検定，クラスカル・ウォリス検定，スティール・ドゥワス検定等の検定がある．

パラメトリックとノンパラメトリック

⇧ という感じみたいです。

「検定統計量」を算出する際に「母数（パラメーター）」が使えそうであれば、「パラメトリック検定」を、そうでないならば「ノンパラメトリック検定」を使う感じですかね。

「母数（パラメーター）」ってのは

母数（ぼすう、英語: parameter（パラメタ））は確率論および統計学において、確率分布を特徴付ける定数を指す。

母数 - Wikipedia

⇧ ってことらしく、

確率論では母数は確率変数の確率分布を特徴付ける数である。

例えば、正規分布の母数は、平均 $\mu$ および分散 $\sigma ^{2}$ である。

また、ポアソン分布の母数は、下記の定義式の中の $\lambda$ である。

f(k;\lambda )={\frac {e^{-\lambda }\lambda ^{k}}{k!}}.

ここで、 $k$ は確率変数、 $e$ はネイピア数である。 $\lambda$ はポアソン分布に従う現象が観測される平均回数を表す。

母数 - Wikipedia

統計学における母数は、基本的には上記の確率論における定義と同じだが、観察データに基づいて母集団の分布の母数を統計学的に推定すること、あるいはそれについての仮説検定法に重点を置く。

母数 - Wikipedia

⇧ ってあるんで、「確率論」も「統計学」も「母数（パラメーター）」の定義は変わらんって言ってるんで、「分布」の形を決定づけてる要因ってことですかね。

「分布」によって「母数（パラメーター）」の数とかも違ってきますと。

何をもって検定手法を決めたら良いのか？

まぁ、「仮説検定」において「検定手法」がいろいろあるってことは分かったんだけども、どれ選んだら良いのよ？

ここで、「中心極限定理」ってのが参考になってきますと。

中心極限定理は標本平均と母平均との誤差を論ずるものである。多くの場合、母集団の分布がどんな分布であっても、その誤差は標本の大きさを大きくしたとき近似的に正規分布に従う。

なお、標本の分布に分散が存在しないときには、極限が正規分布と異なる場合もある。

中心極限定理 - Wikipedia

⇧ ってあるように、『「標本平均」と「母平均」の「誤差」というのは、「標本」を大きくしたとき近似的に「正規分布」に従います、「母集団」の分布がどんな形であってもね、ただし「標本」に「分散」が存在してない場合は保証できないよん』ってことをいっているわけです。

なので、分析するべき対象の「データ」を手にしたら、まずは「データ」ついての「ヒストグラム」を確認するのが良いらしいです。

何故かというと、

ヒストグラム（英語: histogram）とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱状図、柱状グラフ、度数分布図ともいう。

ヒストグラム - Wikipedia

f:id:ts0818:20210210204234p:plain

同じデータから作られた一般的なヒストグラム（左）と累積度数図。このデータは平均 0、標準偏差 1 の正規分布から無作為に選んだ 10,000 点のサンプルを示している。

ヒストグラム - Wikipedia

⇧「標本」の「ヒストグラム」を確認することで、「標本」に「分散」が存在するかとかについても分かるので。

あとは「標本」がどんな「分布」かってのも分かりますかね。

逆に、「母集団」に対して、従いそうな「分布」が見出せそうにないのなら「ノンパラメトリック検定」から「検定手法」を選んでいく感じになるってことですかね？

で、「標本」の「分布」や「どんな問題を解決したいか」などから、「母集団」がどんな「分布」に従いそうかが仮定できそうであれば「パラメトリック検定」を使う方向になるかと。

自分のケースでは、「ポアソン分布」に従うんじゃないかということで、「パラメトリック検定」を使う方針が定まったんだけど、じゃあ「パラメトリック検定」の中のどれを使えば？
hitorimarketing.net

どっちのタスクも母標準偏差 $σ$ が未知ですので基本的には $t$ 検定で問題ないと思いますが

母平均の検定 with Excel

⇧ 上記サイト様によりますと、「t検定」が無難ってことなんですかね。

なんか、

xpert.link

結論から言えば、z検定とt検定との違いは以下のようになります。
・z検定は、母集団の分散（母分散）が分かっているときに使う
・t検定は、母集団の分散（母分散）が分かっていないときに使う
これだけの違いです！

1から始める研究〜z検定とt検定の違い、不偏分散とは？〜 | XPERT

しかし、ちょっと待ってください。

・z検定は、母集団の分散（母分散）が分かっているときに使う…？

先ほど、「仮説検定」の定義は「母集団分布の母数に関する仮説を標本から検証する統計学的方法のひとつ」とありましたよね。検定により母集団に関する仮説を検証したいのに、母集団の分散がすでに分かっていることってあるのでしょうか？

1から始める研究〜z検定とt検定の違い、不偏分散とは？〜 | XPERT

そうなのです…実際はほとんどありません。つまり、z検定を使うのは稀なケースとなるため、一般的によく使われてよく聞くのがt検定となるわけです。

1から始める研究〜z検定とt検定の違い、不偏分散とは？〜 | XPERT

⇧ ということみたいで、「パラメトリック検定」では「t検定」がよく使われるってことですかね。

t検定って？

で、「t検定」とは？

t検定（ティーけんてい）とは、帰無仮説が正しいと仮定した場合に、統計量がt分布に従うことを利用する統計学的検定法の総称である。母集団が正規分布に従うと仮定するパラメトリック検定法であり、t分布が直接、もとの平均や標準偏差にはよらない（ただし自由度による）ことを利用している。

t検定 - Wikipedia

2組の標本について平均に有意差があるかどうかの検定などに用いられる。統計的仮説検定の一つ。日本工業規格では、「検定統計量が，帰無仮説の下でt分布に従うことを仮定して行う統計的検定。」と定義している。

t検定 - Wikipedia

⇧ ってな感じで、2つの「標本」についての「平均」に着目した「検定手法」ですと。

なので、「母数（パラメーター）」で「平均」を表してるものが存在する「分布」である必要があるってことかと。

t検定による検定統計量はどう算出する？

引き続き、Wikipediaさんによると、

一群のt検定

母集団の平均値μが特定の値である μ₀と等しいかどうかの帰無仮説を検定する際に使用する。

t={\frac {{\overline {x}}-\mu _{0}}{s/{\sqrt {n}}}},

${\overline {x}}$ は標本平均でありsは標本の標準偏差である。標本サイズはnであり、t検定における自由度はn − 1である。

t検定 - Wikipedia

⇧ ってな感じになるようです。

で、 ${\mu}_{0}$ の値は、『2組の「標本」についての「平均」』ってことになると思うんだけども（Wikipediaの説明で『2組の標本について平均に有意差があるかどうかの検定』ってなってるので）、この値には『帰無仮説』で決めている値を代入するので、「t検定」による「検定統計量」である「t値」が求まるということです。

ただ、「t検定」は、

独立二群の平均値の差の検定

一つ目の母集団の平均値μ₁が2つ目の母集団の平均値μ₂と等しいかどうかの帰無仮説を検定する際に使用する。言い換えるとμ₁－μ₂＝0かどうかの帰無仮説を検定する。

t検定 - Wikipedia

⇧ 「一群」「二群」って2つあるみたいね。

「一群」「二群」ってあるけども、何が違うのか？

Wikipediaの『2組の標本について平均に有意差があるかどうかの検定』って言葉に合わせるならば、「一群」「二群」ともに「2組の標本」を使うってことだから、

一群
独立した2標本の各値の差の平均値を検証する
二群
独立した2標本の各々で平均値を出し、比較して検証する

ってことですかね。

「一群」は「平均値」が1つ、「二群」は「平均値」が2つってことですかね。

有意水準と棄却域とt値とP値と

で、「t値」が求まったら、「t値」を判定するわけですが、判定に関わってくるのが、

有意水準
棄却域
P値（p-value）

って感じらしいのですが、それぞれ確認していきますか。

■有意水準

有意水準α (0<α<1) は、どの程度の正確さをもって帰無仮説 $H_{0}$ を棄却するかを表す定数である。有意水準αの仮説検定は、 $p<\alpha$ の時に $H_{0}$ を棄却する。このとき、「統計量はα水準で有意である」という。有意水準αは仮説 $H_{0}$ が正しいにも関わらず仮説検定で棄却してしまう確率（第一種の誤りを犯す確率）に等しい。日本工業規格では、「第1種の誤りの確率の上限値。」と定義している。

有意 - Wikipedia

有意水準 $\alpha$ の値としては、0.05 (= 5%) を用いるのが一般的であるが、そのとり方は学問・調査・研究対象によっても違いがあり、社会科学などでは0.1（10%）を用いる場合もあり、厳密さが求められる自然科学では0.01（1%）などを用いる場合もある。また、データ表示に当たっては有意性に段階をつけて複数の有意水準を同時に用いることもあり、たとえば0.05水準で有意ならば * 、0.01水準と0.001水準に対してはそれぞれ ** 、 *** と表示する。

有意 - Wikipedia

⇧「帰無仮説」を「棄却」するかどうかの基準って言ってますな。

「第一種の過誤」に等しいと。

第一種過誤（だいいっしゅかご、英: Type I error）または偽陽性（ぎようせい、英: False positive）と第二種過誤（だいにしゅかご、英: Type II error）または偽陰性（ぎいんせい、英: False negative）は、仮説検定において過誤を表す用語である。第一種過誤をα過誤（α error）やあわてものの誤り、第二種過誤をβ過誤（β error）やぼんやりものの誤りとも呼ぶ。なお「過誤」とは、誤差によって二項分類などの分類を間違うことを意味する。

第一種過誤と第二種過誤 - Wikipedia

⇧ ってなっており、

f:id:ts0818:20210211161953p:plain

第一種過誤と第二種過誤 - Wikipedia

⇧「混同行列（Confusion Matrix）」みたいな感じの表で現せるっぽい。

■棄却域

日本工業規格では、critical region を棄却域と訳し、「帰無仮説が棄却される検定統計量の値の集合」と定義している。また、備考には「棄却域の限界値を棄却限界値 (critical value) という」と説明している。

仮説検定 - Wikipedia

統計量Xが、ある母数θの推定量である場合を考える。このとき、有意水準αで帰無仮説が棄却されないようなXのとりうる範囲は、信頼水準 $1-\alpha$ に対するθの信頼区間と等しい。

有意 - Wikipedia

たとえば、標本平均Xを母平均θの推定量とみなすと、帰無仮説： $\theta =\theta _{0}$ が有意水準5%で棄却されないXの範囲は、 $\theta _{0}$ の95%信頼区間と一致する。

有意 - Wikipedia

⇧「信頼区間」は「有意水準」から求めることができて、「棄却域」は「信頼区間」じゃない部分ってことですかね。

■P値

In null hypothesis significance testing, the p-value is the probability of obtaining test results at least as extreme as the results actually observed, under the assumption that the null hypothesis is correct. A very small p-value means that such an extreme observed outcome would be very unlikely under the null hypothesis. Reporting p-values of statistical tests is common practice in academic publications of many quantitative fields. Since the precise meaning of p-value is hard to grasp, misuse is widespread and has been a major topic in metascience.

https://en.wikipedia.org/wiki/P-value

⇧「帰無仮説」が正しいかどうかを判断するための指標の1つってことかと。

「Since the precise meaning of p-value is hard to grasp, misuse is widespread」って言うんなら、ちゃんと説明して欲しい...

「null hypothesis」ってのが、「帰無仮説」ってことらしい。

The p-value is used in the context of null hypothesis testing in order to quantify the idea of statistical significance of evidence, the evidence being the observed value of the chosen statistic $T$ . Null hypothesis testing is a reductio ad absurdum argument adapted to statistics. In essence, a claim is assumed valid if its counterclaim is highly implausible.

https://en.wikipedia.org/wiki/P-value

⇧「帰無仮説」が「統計的に有意」かを「定量化」したものが「P値（p-value）」ということかと。

「帰無仮説」は、

In inferential statistics, the null hypothesis (often denoted H₀,) is a default hypothesis that a quantity to be measured is zero (null). Typically, the quantity to be measured is the difference between two situations, for instance to try to determine if there is a positive proof that an effect has occurred or that samples derive from different batches.

https://en.wikipedia.org/wiki/Exclusion_of_the_null_hypothesis

The null hypothesis is effectively stating that a quantity (of interest) being larger or equal to zero AND smaller or equal to zero. If either requirement can be positively overturned, the null hypothesis is "excluded from the realm of possibilities".

https://en.wikipedia.org/wiki/Exclusion_of_the_null_hypothesis

⇧ って説明なんだけど、分かり辛い...

で「P値（p-value）」の説明に戻ると、

Consider an observed test-statistic $t$ from unknown distribution $T$ . Then the p-value $p$ is what the prior probability would be of observing a test-statistic value at least as "extreme" as $t$ if null hypothesis $H$ were true. That is:

$p=\Pr(T\geq t|H)$ for a one-sided right-tail test,
$p=\Pr(T\leq t|H)$ for a one-sided left-tail test,
$p=\Pr(abs(T)\geq abs(t)|H)$ for a two-sided test,

If the p-value is very small, then the statistical significance is thought to be very large: under the hypothesis under consideration, something very unlikely has occurred.

https://en.wikipedia.org/wiki/P-value

⇧ 「t検定」の「検定統計量」を $t$ 、「t分布」を $T$ 、「P値（p-value）」を $p$ 、「帰無仮説」を $H$ とすると、「帰無仮説」が真である「P値（p-value）」は上記のようになりますと。

イメージ的には、

istat.co.jp

f:id:ts0818:20210211160205p:plain

ｔ検定（スチューデントのｔ検定） :: 株式会社アイスタット｜統計分析研究所

⇧ 上記サイト様がイメージしやすいかと。

つまり「P値（p-value）」ってのは、「検定統計量」（今回は「検定手法」として「t検定」を想定してるので「検定統計量」は「t値」）によって変わり得る値であると。

Wikipediaの説明でも、

In a formal significance test, the null hypothesis $H$ is rejected if, under the null hypothesis, the probability of such an extreme value (as extreme, or even more extreme) as that which was actually observed is less than or equal to a small, fixed pre-defined threshold value $\alpha$ , which is referred to as the level of significance. Unlike the p-value, the $\alpha$ level is not derived from any observational data and does not depend on the underlying hypothesis; the value of $\alpha$ is instead set by the researcher before examining the data. By convention, $\alpha$ is commonly set to 0.05, though lower alpha levels are sometimes used.

https://en.wikipedia.org/wiki/P-value

⇧「有意水準」は人間が勝手に決めるものである一方、

The p-value is a function of the chosen test statistic $T$ and is therefore a random variable in itself. If the null hypothesis fixes the probability distribution of $T$ precisely, and if that distribution is continuous, then when the null-hypothesis is true, the p-value is uniformly distributed between 0 and 1, and observing it to take on a value very close to 0 is thought to discredit the hypothesis. Thus, the p-value is not fixed. If the same test is repeated independently with fresh data (always with the same probability distribution), one will find different p-values at every repetition.

https://en.wikipedia.org/wiki/P-value

⇧「P値（p-value）」は選択した「検定統計量」の関数であるから固定されてないんだと。

なので、「標本（サンプル）」が変われば、「P値（p-value）」も変わり得ると。

最終的には、「P値（p-value）」と「有意水準」を比較して「帰無仮説」が「棄却」できるかどうかを判断していく感じらしいのかと思いきや、

yanbow221.hatenablog.com

今回は全く同じ結果が得られてもその判断がサンプルサイズによって異なるということをシミュレーションで確認し、p値だけを見てその他の物事(今回で言えばサンプルサイズ)について注意を払わないと、一貫した結論が得られないしその後どうすれば良いのかの指針も立たない、ということを示す。

ビジネス現場における統計的仮説検定のはなし - 統計学といくつかのよしなしごと

とりあえずテストしたり手元にあるデータに対して仮説検定を適用してp値だけで判断を下すということが、危なっかしいということがわかると思う。今回の記事では扱わないが、仮説検定においてはp値の他に検出力、効果量、そして今回扱ったサンプルサイズなど、いくつかの量を検討したうえでのテスト計画が必要になってくる。

ビジネス現場における統計的仮説検定のはなし - 統計学といくつかのよしなしごと

⇧ 上記サイト様によりますと、「検出力」「効果量」「サンプルサイズ」「信頼区間」なども影響してくるそうです。

というのも、

f:id:ts0818:20210211171317p:plain

https://www.mizumot.com/method/mizumoto-takeuchi.pdf

⇧ というような関係があるからですかね。

ちなみに、

oku.edu.mie-u.ac.jp

f:id:ts0818:20210211171458p:plain

ところで，真の効果量（標本誤差を含まない）が例えば $μ = 2$ のところにあったとしよう（母集団の平均を $μ$ で表す）。この仮説を，帰無仮説 $H_{0}$ と対比させて，対立仮説 $H_{1}$ と呼ぶ（もちろん対立仮説は無数にあるが，その一つを考えている）。これはさきほどの帰無仮説を棄却する範囲に入っているが，実際の測定値（標本誤差を含む）は $x = 2$ のまわりに下の図のように分布するので，帰無仮説を棄却できない可能性（つまり実際の測定値が図のオレンジ色の部分に入る確率 $β$ ）はほぼ 1/2 である。この $β$ は「対立仮説 $H_{1}$ が正しいのに帰無仮説 $H_{0}$ を棄却できない確率」である。

効果量，Cohen's d，検出力，検出限界

f:id:ts0818:20210211171738p:plain

この対立仮説 $H_{1}$ による測定値の分布（ $μ = 2$ のまわりの分布）のうち $β$ 以外の部分，つまり「対立仮説 $H_{1}$ が正しいと仮定して帰無仮説 $H_{0}$ が棄却される確率」 $1 - β$ を「検出力（検定力）」（power）と呼ぶ。下の図の緑の部分の面積が検出力に相当する。本当は $x \leq - 1.96$ のところにも緑の部分があるが，ほとんど 0 であり，見えない。

効果量，Cohen's d，検出力，検出限界

⇧ とあるように、「帰無仮説」の「分布」と「対立仮説」の「分布」を表現することで、「効果量」「検出力」がどこの部分を示してるのか分かるようです。

f:id:ts0818:20210211172735p:plain

https://twitter.com/ERUin2525/status/1168527197285445632/photo/1

⇧「片側検定」の場合は上図がイメージしやすいかと。

まぁ、考えないといけないことはいろいろありますと。

「R」を使った「t検定」のコーディング例なんかは、

www1.doshisha.ac.jp

返された結果のt 値は1.6057で、p 値 (p-value) は0.1214 である。これは、前節で取り上げた例の結果と一致している。前節の例ではこの標本データの平均と分散を用いていることに気づいて欲しい。p 値が有意水準0.05より大きいので仮説「既知の母数 (170.7) = 標本の母平均」が採択される。

データ解析・マイニングとR言語

⇧ 上記サイト様が参考になるかと。

仮説検定の注意点

「仮説検定」は、文字通り仮説を設定をして検定する手法で、その仮説として

帰無仮説
対立仮説

の2つを設定して、「帰無仮説」を満たしているかどうかに着目するってことなのですが、

一般的にいって，ある仮説を反証するのは簡単である。その仮説と矛盾する証拠を，ひとつ挙げるだけでよいからだ。しかし，ある仮説を確認する方向の証拠を挙げるのは，なかなか難しい。

http://elsur.jpn.org/resource/t-test.pdf

“広末涼子問題”について考えよう。

もし，謎の女性が，ドコモの携帯を持っていたら，どうなっていただろうか。4つのステップを順に追ってみよう。
Step 1. まず，あの女性は広末涼子である，と仮定する。
Step 2. さて，携帯に着目すると，あの女性はドコモの携帯を持っていた。
Step 3. もし彼女が広末涼子ならば，上のような事柄は... 起きても不思議ではない。
Step 4. だから ... ?
このように，Step 4.では，謎の女性が広末涼子だとも，そうでないとも主張できない。

http://elsur.jpn.org/resource/t-test.pdf

このように，帰無仮説と矛盾しない特徴を指摘しても，帰無仮説を確証することにはならない。つまり，帰無仮説が棄却されなかったとしても，それは帰無仮説を支持する証拠にはならないのである。

http://elsur.jpn.org/resource/t-test.pdf

⇧ とあるように、「帰無仮説」が「棄却」されない場合は、歯切れが悪い結論にならざるを得ないので、実際の実務で「仮説検定」の結果を報告をする際などは、ニュアンスに注意が必要という事ですかね。

「仮説検定」の目的は、あくまで「起こってる事象が偶然なのかそうじゃないのか」を統計的に結論付けることであって、「仮説検定」の結果で判明したことが「ビジネス的に重要なのかそうじゃないのか」は、経営責任者などが判断していく感じですかね。

いつもながら、モヤモヤ感が半端ない...

今回はこのへんで。